martes, marzo 15, 2016

Abramos más conjuntos de datos, porque ¿qué puede salir mal?

Nota: Este artículo lo escribí para el blog de la International Data Conference 2016. Podéis acceder al artículo original publicado el 16 de Febrero de 2016 en español Abramos más conjuntos de datos, ¿qué puede salir mal? y en inglés: Let’s open more datasets. What could go wrong?
En las conversaciones entre miembros de la comunidad de datos abiertos, en especial por parte de los responsables de proveer datos, es frecuente escuchar frases como “es necesario estimular la demanda de datos abiertos”, “no conseguimos llegar a los reutilizadores”, “sería interesante que los proveedores de datos y los reutilizadores hablasen más”. Estoy seguro de que habéis oído frases por el estilo en numerosas ocasiones.

Esta inquietud seguramente no es ajena a los organizadores del IODC, quienes deben ser conscientes de que las ediciones anteriores del evento han estado muy centradas en lo que suele llamarse el “lado de la oferta”, esto es en las organizaciones públicas encargadas de custodiar y proveer conjuntos de datos abiertos. Lo cierto es que en España, quizá por ser el Ministerio de Industria el encargado de promover las políticas de datos abiertos, siempre se ha fomentado que las empresas reutilizadoras hayan estado muy presentes en los eventos sobre datos abiertos. Y seguro que esto se notará en el programa de esta cuarta edición del IODC en Octubre.

Sin embargo, lo que me gustaría en este post es contaros un secreto que puede ayudar a entender por qué aparentemente no existe esa anhelada demanda de datos abiertos: Resulta que para las empresas reutilizadoras con frecuencia es más productivo obtener los datos de la web que utilizar portales de datos abiertos. Y es que, por desgracia, las tecnologías para la extracción de datos de documentos han avanzado en los últimos años con mucha mayor velocidad que la cantidad de conjuntos de datos en los portales.
 Y aunque no nos guste y sea muy poco eficiente, actualmente es el único camino posible en muchos sectores para que las empresas puedan generar valor a partir de datos. En otros sectores, directamente al no haber datos publicados ni en documentos ni en conjuntos de datos, no hay demanda que se pueda estimular. Las empresas, en especial las pequeñas, sobreviven con el valor que pueden crear y vender hoy, no de las promesas futuras.

Si fueseis una empresa, ¿dónde pondríais vosotros los recursos? ¿en una librería open source para mejorar un algoritmo de extracción de datos de pdfs o en participar en discusiones circulares acerca de la mejor forma de abrir datos?

A mí, como parte del “lado de la demanda”, me gustaría que el IODC 2016 fuese un punto de inflexión, no tanto para definir más estándares, más índices y más políticas y leyes, sino para obtener un compromiso de publicación de más conjuntos de datos útiles.

Si realmente se pretende fomentar la innovación y la creación de valor a partir de los datos abiertos propongo que se inunden los portales de conjuntos de datos útiles. ¿Qué puede salir mal? En realidad muchos de esos datos ya están dentro de documentos publicados en la web y se está desperdiciando mucho esfuerzo en extraerlos y limpiarlos cuando podría dedicarse a crear valor.