A finales de julio se publicó en El Mundo uno de esos artículos que tiene un titular que echa para atrás: El español que quiere implantar la Policía Precrimen de 'Minority Report'. El español que... + cliché. Empezaba fuerte, pero el tema era interesante.

En varias partes del mundo, sobre todo en Estados Unidos, ya se utilizan técnicas de análisis de datos, machine learning, big data, inserte aquí su palabro preferido, para intentar planificar en qué zonas de la ciudad, y a qué horas, hay que aumentar la presencia policial para reducir ciertos tipos de delitos. Estos algoritmos utilizan datos históricos para generar sus predicciones, pero, por mucho que se quiera enlazar con Minority Report, su resultado no nos indicará que a las 15:45 Mengano va a robar un coche de alta gama, sino que en un área más o menos extensa habrá más probabilidad de impedir la comisión de un delito si se patrulla esa zona. Aunque esto se lleva haciendo desde hace ya bastante tiempo usando un poco de sentido común, automatizar este proceso puede llevar a encontrar patrones que normalmente un humano pasaría por alto.

El protagonista del artículo de El Mundo, Miguel Camacho Collados, tiene al menos cuatro artículos recientes sobre el tema, incluyendo su tesis doctoral, y según leo por encima parece centrarse en la planificación óptima cuando los recursos son escasos.


Hago aquí un inciso menor porque este eufemismo de uno de sus artículos publicados me ha encantado, pero no viene realmente a cuento de nada. La negrita es mía:

In the picture it can be seen that thefts are committed in almost all the territory, with the highest levels concentrated around Plaza Callao, a busy meeting place, Plaza Mayor, the central plaza of the city, and Lavapies, a difficult area.


El artículo de El Mundo simplemente comenta que esto parece que se va a empezar a aplicar en serio en España, pero no entra en la chicha del asunto: los problemas de estos sistemas. A lo largo de los últimos meses me he encontrado con artículos que profundizan en este aspecto: cuándo estos algoritmos no están funcionando adecuadamente y por qué. Si alguien leyó el artículo al que hago referencia y se lo estaba preguntando, aquí debajo dejo unas pinceladas.

Remarco que son pinceladas. El campo es relativamente nuevo y si quieren saber de verdad qué es lo que se está cociendo, en profundidad, lo único que les puedo recomendar es que se salten esto que están leyendo y vayan directamente a hacer una búsqueda a Google Scholar o a arxiv. Un buen texto introductorio lo tienen también en Weapons of Math Destruction, de Cathy O'Neil. Este artículo de Nature también es recomendable.

Sesgos de partida

Un sistema predictivo que funcione de forma razonable necesita partir de datos correctos. Si éstos presentan un sesgo de algún tipo (por ejemplo, solamente tenemos registros de ciertos crímenes cometidos en zonas determinadas), la predicción no será todo lo acertada que sería deseable. Particularmente, en el caso de los Estados Unidos, en el que la policía tiene un sesgo racista (1, 2, 3, por ejemplo -- el tercer enlace es algo menos académico1), los datos vienen viciados desde el origen.

Cajas negras

Muchos de estos sistemas están desarrollados por empresas privadas (por ejemplo, PredPol o HunchLab), que suelen ser celosillas en lo que a salvaguardar su propiedad intelectual se refiere. Todo este asunto de empresas privadas desarrollando algoritmos que dicen por dónde tiene que ir pasando la policía da para una secuela de Robocop, pero a estas alturas del siglo esta parte de la distopía ya hace tiempo que nos pasó por encima. Se puede argumentar que si se hacen las cosas bien y con los controles adecuados no tiene por qué pasar nada, pero después de pensar esto me acuerdo de Lexnet y se me pasa.

Más: When Government Rules by Software, Citizens Are Left in the Dark. How Peter Thiel's Secretive Data Company Pushed Into Policing. Un poco de cambio (quizá): Software used to predict crime can now be scoured for bias.

Eficacia

Hay pocos estudios que analicen la eficacia de estos métodos. A veces, como menciona esta noticia de Nature enlazada más arriba, las propias compañías han hecho estudios piloto con la colaboración de las autoridades locales, pero no han publicado los resultados. En 2014, RAND publicó un estudio que evaluaba la efectividad de una iniciativa de este tipo llevada a cabo en Louisiana en 2012, pero no encontró efectos significativos.

Parte de mí dice que si esto se utiliza es porque en alguna parte del engranaje hay un beneficio. La otra parte grita que el principal beneficio es un trasvase de fondos públicos a empresas privadas y me dice por lo bajini que deje de subirme al guindo.

Ya que estamos

Estos métodos y otros parecidos también se utilizan en otros puntos del sistema legal:

Big data has expanded to the criminal justice system. In Los Angeles, police use computerized “predictive policing” to anticipate crimes and allocate officers. In Fort Lauderdale, Fla., machine-learning algorithms are used to set bond amounts. In states across the country, data-driven estimates of the risk of recidivism are being used to set jail sentences.

¿Qué podría salir mal?

¿Qué es lo que se está prediciendo?

O dicho de otra forma: confundir la ubicación con la criminalidad.

Más: Predictive Policing Software Is More Accurate at Predicting Policing Than Predicting Crime.

Realimentación

Véase: Runaway Feedback Loops in Predictive Policing, o el peligro de reentrenar los modelos con sus propias predicciones.


Otro de los problemas de estos algoritmos es que tienden a centrarse en un conjunto de crímenes muy específicos (tráfico de drogas a pequeña escala o robos de coches o en domicilios, por ejemplo) que más o menos se pueden asociar a una determinada zona geográfica o a una aglomeración de duración determinada (el Rastro los domingos por la mañana), pero tienden a dejar de lado otras modalidades que, por daño económico y número de víctimas, serían mucho más importantes. Precisamente cogiendo este argumento y llevándolo a la sátira, hace no mucho se publicó un artículo de puro cachondeo (Predicting Financial Crime: Augmenting the Predictive Policing Arsenal) cuya conclusión básicamente pasaba por detener a todo varón blanco de mediana edad que pasease por Manhattan.

As a proof of concept, we have downloaded the pictures of 7000 corporate executives whose LinkedIn profiles suggest they work for financial organizations, and then averaged their faces to produce generalized white collar criminal subjects unique to each high risk zone.


Un proyecto de Google: Attacking discrimination with smarter machine learning.


  1. uno de los mejores vídeo que he visto últimamente de policías parando a una conductora negra es éste. Es poesía. Es épico. Jamás he oído en el audio de un vídeo al cámara sudar de esa manera.