El pasado fin de semana, el New York Times publicaba un estupendo análisis sobre el mercado de cuentas falsas de Twitter. Ya saben cómo va esto: si no son ustedes lo suficientemente populares, pueden acudir a compañías que hincharán su número de followers por un módico precio usando bots, y los seguidores de carne y hueso se darán hostias por seguirle según su estatus en la comunidad vaya aumentando. Es como el clásico dinero llama a dinero pero muy 2.0 y mucho 2.0.
Una parte importante del análisis consiste en unos gráficos que muestran cómo crece una cuenta a lo largo del tiempo. Se ve mejor con un ejemplo sacado de la propia noticia:
La cuenta representada pertenece a la política británica Martha Lane Fox. En este tipo de gráficas, el eje horizontal son los followers de esa cuenta, ordenados del primero al último, y el eje vertical contiene la fecha de creación de las cuentas de esos followers; cada punto es una cuenta. En este caso en particular, se ve cómo el crecimiento es normal hasta más o menos el follower número 75000, que llegó tras 6 años de existencia de la cuenta. A partir de ahí se ve que existen una serie de discontinuidades en el gráfico, no es todo lo "suave" que aparecía anteriormente. También aparecen una serie de rayas horizontales muy prominentes hacia el final. Estas anomalías, en las que la envolvente (la línea más oscura que marca los followers más recientes) prácticamente desaparece, indica que los followers del 80000 al 120000 (a ojo de buen cubero) no seguían el mismo patrón que los demás. De igual forma, los miles de followers que rodean la marca de los 200000 fueron creados mayoritariamente en 2011, 2012, 2014 y 2015 y empiezan a seguir a esa cuenta en masa. Es la marca que dejan los bots, o al menos ciertos tipos de bots.
Otra indicación que nos da esta gráfica es a qué velocidad se estaban adquiriendo followers nuevos. La interpretación es un poco contraintuitiva1: si la envolvente se pone horizontal, significa que se están ganando rápidamente (nos movemos mucho en el eje x pero poco en el eje y) y cuando se pone más vertical significa que se están ganando más despacio (al revés: nos movemos poco en el eje x y mucho en el eje y).
Según estaba leyéndome el artículo, empecé a pensar si habría alguna manera fácil de replicar ese tipo de gráfico usando Python o R, o ambos. Efectivamente, no es muy complicado (y aquí está el código para el que lo quiera). Ya que lo había hecho, el siguiente paso obvio era analizar un puñado de cuentas patrias, a ver qué iba saliendo.
Antes de seguir, unas anotaciones importantes:
- La ausencia de estos patrones no indica que una cuenta determinada no se ayude de bots de algún tipo. Simplemente quiere decir que, de haberlos, no los podemos encontrar con este método. Por ejemplo, puede haber bots que no sigan a la cuenta para no aumentar el cómputo de followers, pero que luego retuiteen sus mensajes de forma automática.
- Al revés: la presencia de patrones no indica necesariamente que la persona o personas que gestionan la cuenta hayan contratado uno de estos servicios. Uno no controla qué cuentas le siguen.
- Conclusión: lo único que indican las siguientes gráficas es que alguien, en alguna parte, hizo algo.
Al principio fui analizando cuentas según me venían a la cabeza, sin un criterio en particular. Luego encontré una lista con todos los diputados españoles e inspeccioné aquellos con más de 8000 followers. Después, tras una sugerencia de Iñaki que salió "bien", comencé a pasarle el script a cuentas dedicadas a comunicación digital, marketing y demás #cosas.
Tengo que decir que, desde el punto de vista de este tipo de análisis, la mayor parte de las cuentas exploradas tienen un aspecto bastante limpio, con unas pocas excepciones. Aquí debajo dejo unas pocas gráficas que me llamaron la atención, sin extenderme demasiado. Empiezo por los políticos.
Uno de los resultados que más se asemejan a los encontrados por el New York Times en su artículo original pertenece a la cuenta del famoso alcalde de Jun, José Antonio Rodríguez Salas:
Precisamente a mediados de 2013, coincidiendo con esas rayas horizontales, pasaba esto.
La cuenta de Esperanza Aguirre, por otra parte, tiene este aspecto:
Ese patrón curioso también aparece, exactamente en las mismas fechas, en este otro puñado de cuentas (aquí debajo hago un zoom para centrarme en los fragmentos relevantes):
He de decir que no tengo ni idea de qué puede ser eso. Se me ocurre que se podría buscar qué cuentas se solapan, por ejemplo, y ver qué hay ahí. Si alguien quiere recoger ese guante, todo suyo, que a mí ahora mismo me viene grande.
Por otra parte, en varias cuentas he encontrado lo siguiente:
¿Ven esa línea horizontal al principio, alrededor de finales de 2009 y principios de 2010? Parecía sospechoso: un montón de cuentas de creciente creación comienzan a seguir a @patxilopez en masa. Lo mismo ocurría con @ppmadrid, @mdcospedal o @edans, por poner unos pocos ejemplos. Cuando también encontré lo mismo en una de las cuentas que había mirado porque seguro que no salía nada raro (@aberron), pero a menor escala, le pregunté. Resulta que por aquella época su cuenta apareció como recomendada para seguir al crear un usuario nuevo, así que mucha gente simplemente le dio al botón de seguir sin pensarlo mucho. Eso es lo que parece que está ocurriendo en estos casos.
Como les comentaba más arriba, Iñaki, con quien estuve comentando este asunto mientras lo iba pariendo, me mandó en un momento dado un e-mail pidiéndome analizar la cuenta de un tal @juanfraescudero. Qué ojo, efectivamente:
Ahí es cuando empecé a mirar usuarios parecidos. Tirar del hilo fue fácil: si el propietario de la cuenta sale en su foto de perfil dando una charla con un micrófono de diadema es que íbamos bien. Aquí proporcionalmente sale algún resultado anómalo más que en la tanda de políticos, aunque el más llamativo es el de @marcvidal:
Hasta aquí hemos llegado. Simplemente quería mostrar cómo es posible inspeccionar cuentas de Twitter para detectar bots (o al menos para tener sospechas fundadas) mediante un método sencillo. He dejado todos los gráficos generados hasta la publicación de este artículo aquí. En el artículo solamente he resaltado los más evidentes, hay otro puñado que muestra alguna cosilla rara pero a menor escala. En todo caso, ya les digo que la mayoría parecen bastante normales (parecen, insisto, o al menos si hay algún patrón raro no sabría decir a qué se debe), pero ahí está por si se aburren mucho. Si tienen sugerencias de cuentas a explorar... se bajan el código y lo ejecutan.
-
igual se podría arreglar esto girando la gráfica, cambiando los ejes o similar. Por ahora, dado que el New York Times utilizó este formato, lo estoy dejando así, pero eso no quiere decir que sea el mejor para explorar este asunto. El hecho de que requiera un cierto esfuerzo de interpretación me lleva a pensar que falta trabajo en la composición. ↩