Ruido en Madrid – datos en CSV y regresiones básicas

Ahora que estoy un poco más suelto con R, me he puesto a ver qué cosillas sencillas se pueden hacer con datos públicos. Tras ver la presentación de Carlos Ortega Pongamos que hablo del aiRe de Madrid, me puse a ver qué se podía hacer con los datos de contaminación acústica del Ayuntamiento de Madrid.

Lo primero que tengo que decir es que, efectivamente, el sistema que hay puesto en marcha para descargarse los datos es posiblemente el más incómodo que se podía haber elegido: tras rellenar un breve formulario (nombre –de Empresa/Institución, como si aquí el ciudadano individual sobrase– y dirección de correo electrónico), se elige mediante un desplegable un archivo en formato Microsoft Excel con los datos mensuales escogidos. Repítase la operación hasta tener completa la base de datos desde septiembre de 1998. Por el camino, varios archivos resultaron no contener la información prometida, o estaban corrompidos, o era información preliminar no formateada. Aquí el Ayuntamiento se portó bien: en un día me enviaron los archivos correctos.

El Excel no es el mejor formato de los posibles. Un único archivo con valores separados por comas (CSV) sería una solución mucho mejor para que cualquiera que quisiera ponerse a trastear con los datos del ayuntamiento (léase: nuestros datos) pudiera hacerlo de forma mucha más sencilla. Desde el Departamento de Control Acústico me han confirmado que “sobre el tema de cambio de formato no tengo noticias de que se vayan a realizar cambios en un futuro inmediato”.

Inciso:

No es aceptable éticamente un sistema en el que la ciudadanía financia la creación de datos a los que luego se le impide el acceso o se le entregan por los poderes públicos de una manera desestructurada y en formatos inverosímiles. Tampoco puede aceptarse gerencialmente tamaña incompetencia: si nuestros poderes públicos no saben tratar los datos correctamente, ¿cómo pueden pretender el ejercicio de una correcta gestión? Es un sinsentido del mundo al revés que los poderes públicos hagan mal las cosas, teniendo luego que venir los ciudadanos a reparar en cuatro días lo que los organismos públicos no han sabido hacer. Además, se permiten legislar sobre temas que desconocen, por lo que generan normas injustas e ineficaces: «si se quiere legislar sobre tecnología, habrá que estudiar tecnología». Y, por último, políticamente se le está hurtando a la ciudadanía un capital civil que le pertenece (TAUBERER, 2009).

Así que tomen. Este archivo contiene los datos del Ayuntamiento hasta octubre de 2012 en un formato abierto y todo del tirón para no tener que andar haciendo encaje de bolillos. He normalizado los nombres de las estaciones, que no tenían una nomenclatura consistente, y he agrupado aquéllas que han dejado de funcionar durante un tiempo y luego han vuelto a colocarse en la misma ubicación. Puede que contenga errores, pero cualquier corrección es bienvenida.

¿Y del ruido qué tengo que decirles? Pues que parece que, sin meterse mucho a fondo, el ruido en Madrid está mejorando, salvo contadas excepciones en las que se ve claramente una tendencia al alza. Para poder visualizarlo mejor, he creado una gráfica por cada estación, acompañada de su correspondiente tendencia codificada en colores: rojo si asciende, verde si desciende y negra si no hay significación estadística. Tienen el archivo completo con la evolución del ruido en las distintas estaciones aquí. Ejemplo:

Evolución de los niveles de contaminación acústica en la estación de Alto de Extremadura.

Hay que tener en cuenta que éste es un análisis muy simple y que en ciertas estaciones no es válido en absoluto: a veces se ha cambiado de sitio el medidor y hay una ruptura clara con la tendencia anterior (véanse las estaciones de la Glorieta de Fdez. Ladreda o Plaza de Castilla, por poner dos ejemplos; aquí habría que hacer una regresión separada para cada ubicación), pero en general da una visión clara de por dónde andan los tiros.

Tweet about this on TwitterShare on FacebookShare on Google+Email this to someone
Esta entrada fue publicada en Ciencia, Geek World. Guarda el enlace permanente.

12 respuestas a Ruido en Madrid – datos en CSV y regresiones básicas

  1. rgvalera dijo:

    Impresionante el trabajo que has realizado; ante tal cantidad de datos muchas veces es imposible sacar conclusiones y eso mismo que has hecho tú debería poder permitirlo la propia web.

    Sólo indicarte que el Eje Y no debe ser Leq(dB) sino LAeq(dBA).

  2. Carlos dijo:

    Gracias por el trabajo.

    Dime que opinas del equivalente en la ciudad de Valencia. Datos estaciones año 2012.

    Para cada año, por cada estación y mes hay un archivo PDF. Accesible, ¿verdad?

    No puedo más que compartir la cita de TAUBERER, 2009

  3. tortugo dijo:

    Pues al PDF no se le puede reprochar no ser un formato estándar, pero tampoco es muy adecuado para almacenar tablas de datos científicos, porque para extraerlos desde algún otro programa pues casi seguro que acabas teniendo que hacerlo a mano.
    Casi preferiría el xls, que aunque no libre, es estándar “de facto”, y se pueden encontrar soluciones para leerlos (que a veces funcionan y a veces no) en Matlab, Python, etc y creo que también en R.
    El hecho de que los resultados de los medidores se den tan desestructurados a mí me sugiere que por parte de la administración nadie está usando estos datos para nada, y que se ofrecen para justificar que hay medidores (pero como si no los hubiera) porque si no, no se entiende que se estén disparando a sí mismos en el pie, como suele decirse.

    • Carlos dijo:

      Claro, el pdf me vale lo mismo que si me los dan en una hoja de papel.

      • tortugo dijo:

        hombre, algo se puede hacer:
        pdftotext -layout 1A_enero2012.pdf -
        Ahí ya tienes “casi” el CSV

  4. Iñaki dijo:

    Se agradecería también el script que genera las gráficas. :-)

  5. Iker Dobarro dijo:

    ¡Hombre! ¡Otro que se une al R y empieza a hacer sus pinitos! Pon el código, ¿no? Viene muy bien para todos los que aún estamos un poco en plan ortopédico con la consola.

    Buen aporte.

    • RinzeWind dijo:

      He puesto el código que genera las gráficas como un comentario al archivo de datos. Realmente no hay mucha cosa más que hacer: el resto del código simplemente lee los datos de los archivos .csv individuales y genera un data.frame general con todo.

Los comentarios están cerrados.