El País ha cumplido recientemente 40 años. Aparte de informar muy bien (es un decir) de lo que ocurre en Caracas y muy mal de lo que ocurre en Francia en las últimas semanas (donde se está liando, vaya, de colores), resulta que tienen un archivo de editoriales muy bien estructurado. Tan bien estructurado que es muy sencillo hacerse un pequeño script que lo recorra y se descargue las palabras clave de cada artículo de opinión publicado desde 1976 hasta mayo de este año. Y sería muy interesante poder tener una perspectiva de, por ejemplo, cuántos editoriales se han publicado por año sobre corrupción. O sobre el PP. O el PSOE. O Podemos. O naves espaciales (no es broma).

Estas pasadas semanas he desarrollado un pequeño proyecto de análisis de datos para hacer justamente eso. Todo el código generado se puede encontrar en este repositorio. Los archivos principales son:

  • elpais_spider.py: el scraper principal, el que se encarga de descargar a archivos JSON todos los editoriales de El País (título, URL, fecha y palabras clave).
  • analyze.R: un pequeño script exploratorio que genera el conjunto de datos final y que usé para generar algunas gráficas preliminares.

Hasta aquí todo bien. Tengo un conjunto de datos (hasta el 1 de mayo de este año) y puedo analizarlo localmente y generar gráficas como la que publiqué el otro día:

Algunos temas de interés publicados desde el principio de los 
tiempos

El problema de hacerlo así es que, con la cantidad de temas sobre los que se han publicado artículos, cualquier selección que pueda hacer se va a quedar corta. Así que me he puesto a trastear un poco y he añadido lo siguiente:

La visualización está publicada con una cuenta gratuita, así que solamente tiene 25 horas de procesamiento gratis; pasado ese límite, se desactivará hasta el mes que viene. Siempre pueden descargarse el repositorio y ejecutar generate_vis.R localmente para lo que quieran.

Mientras tanto, corran, que me la quitan de las manos. Solamente tienen que escribir (o borrar) en la casilla etiquetada como Temas y el resto ya lo irán viendo. Pueden hacer la gráfica más grande estirando de la esquina inferior derecha.