sábado, agosto 20, 2016

Algunas prácticas muy sencillas que facilitan la reutilización de conjuntos de datos abiertos

Nota: Este artículo lo escribí para el blog de la International Data Conference 2016. Podéis acceder al artículo original publicado el 12 de Mayo de 2016 en español Algunas prácticas muy sencillas que facilitan la reutilización de conjuntos de datos abiertos y en inglés: Some very simple practices to help with the reuse of open datasets
En los últimos años se han publicado un buen número de documentos dirigidos a ayudar a las administraciones que publican datos abiertos. En su post “Las buenas, las malas…y las mejores prácticas”, Martín hizo una excelente recopilación de hasta 19 documentos entre los que podemos encontrar guías, manuales, buenas prácticas, kits de herramientas, etc. El tipo de autores que han invertido recursos en estos materiales incluye desde Gobiernos nacionales, Gobiernos regionales, Fundaciones, Organismos de estandarización, la propia Comisión Europea, etc, con lo que podemos encontrar diferentes enfoques.
Por otra parte, se ha dedicado y se sigue dedicando una importante cantidad de esfuerzo al desarrollo de estándares para la liberación de conjuntos de datos abiertos, tanto de carácter general como para dominios concretos.

Photo by: Barn Images

Y sin embargo con demasiada frecuencia cuando se publican conjuntos de datos se olvidan reglas muy sencillas que facilitan la reutilización de datos abiertos de forma sostenible. Voy a mencionar sólo algunas de las dificultades que nos encontramos con frecuencia cuando exploramos un nuevo conjunto de datos y evaluamos si merece la pena incorporarlo a nuestro servicio:
  1. Los registros no contienen un campo de identificador único, lo cuál hace muy difícil monitorizar los cambios cuando se actualiza el dataset.
  2. Los registros no contienen un campo con la fecha de actualización, lo cuál también complica monitorizar qué registros han cambiado desde una versión de la publicación hasta la siguiente.
  3. Los registros no contienen un campo con la fecha de creación, lo cuál dificulta saber cuándo se han incorporado al conjunto de datos.
  4. Los campos no utilizan estándares comúnmente aceptados para el tipo de dato que contienen. Es frecuente en campos que contienen fechas y horas, o importes económicos, etc., pero también en otros.
  5. Inconsistencias entre el contenido del conjunto de datos y el equivalente publicado en HTML. Las inconsistencias pueden ser de muchos tipos, desde registros que se publican en la página web y no se exportan al conjunto de datos hasta diferencias en los campos que se publican en uno u otro formato.
  6. El registro se publica en el conjunto de datos mucho más tarde que en la propia página web. Esto puede hacer inútil la reutilización del conjunto de datos si el servicio en el que se están pensando requiere inmediatez.
  7. No se especifican de forma explícita los compromisos de publicación del conjunto de datos. No es tan importante juzgar estos compromisos como buenos o malos, sino que sean conocidos ya que es muy complicado planificar la reutilización de un conjunto de datos cuando no sabes a qué atenerte.
  8. No se proporciona un una descripción simple del contenido de cada campo del conjunto de datos y de la estructura del dataset así como los criterios relevantes para interpretar el contenido (listas de apoyo, criterios actualización, significado de los estados, etc.)
Como veis son prácticas que no son específicas del trabajo con datos abiertos, sino que tienen más que ver con la experiencia en los proyectos de desarrollo de software, o sencillamente con el sentido común.

Casi todas son muy sencillas de implementar y sin embargo son de gran importancia a la hora de convencer a alguien de que invierta su tiempo en un conjunto de datos abiertos. Porque como sabéis, lidiar con los problemas asociados al scrapping de páginas web puede llegar a ser más ventajoso que reutilizar conjuntos de datos abiertos. Y estas son algunas de las razones que pueden evitarlo.

No hay comentarios: