A principios de siglo yo también caí en la fiebre 2.0 que decía que, si entre todos etiquetábamos contenido de forma colaborativa, la mandanga buena acabaría subiendo a la superficie. Dicho y hecho, me hice una cuenta en el ahora difunto del.icio.us y empecé a guardar mis marcadores ahí. Esto tenía además la ventaja de que si mi ordenador fallaba, ya tenía una copia en sus servidores.

Tras la debacle de Google Reader saqué todo lo que pude de la nube y lo hospedé en sitios que yo controlaba. Empecé usando SemanticScuttle y posteriormente migré todo a Shaarli y ahí seguí guardando mis cosas.

Con el tiempo me di cuenta de que en realidad el gestor de marcadores era poco menos que una base de datos de solo escritura. De vez en cuando guardaba artículos que me parecían interesantes, pero puedo contar con los dedos de una mano las veces que he ido ahí a consultar algo. El problema de que nuestro disco duro pete y nos quedemos sin los marcadores locales se solventó hace ya años; todos los navegadores modernos sincronizan esto en nuestros perfiles de una forma u otra.

Consciente de que este Diógenes digital no vale en el fondo para nada (sobre todo si el único usuario del servidor soy yo y nunca voy a compartir nada con el mundo exterior), me encuentro con una colección pequeña (¡pero útil!) de marcadores locales y me planteo si me merece la pena mantener el servidor remoto.

Mientras decidía qué hacer, vi que tenía entre mis manos una base de datos con miles de enlaces guardados desde 2005 y hacía mucho tiempo que no hacía nada con R. Escribí un pequeño script para echarle un ojo a todos mis enlaces y comprobar si las páginas siguen en su sitio; la hipótesis, que no debería sorprender a nadie, es que cuanto más viejo es el enlace más probabilidades hay de que ya no podamos acceder. El resultado:

Número de marcadores que ya no funcionan por año de 
guardado

Conviene tener en cuenta que los datos son relativamente ruidosos porque algunos años guardaba mucho y otros muy poco, así que ese 33 % que no funciona de los 153 enlaces que guardé en 2012 es mucho más fiable que ese 25 % de 2016, cuando solamente recopilé 12. Se podría hacer alguna estimación estadística para corregir esto, pero estaríamos afinando sobre algo que ya es burdo de partida. Para saber si las páginas siguen ahí he usado un método muy simple (una petición HEAD usando curl) que tampoco tiene por qué ser excesivamente fiable.

¿Es esto una chapuza? En parte, sí. ¿Salen los resultados que nos esperábamos? Pues también. ¿Hay algo mejor en la vida? No.

No tengo sistema de comentarios. Si quieres decirme algo sobre este artículo, puedes ponerte en contacto conmigo mediante e-mail o Mastodon.