Un universo de datos: situaciÃ³n y perspectivas empresaglobal.es

Un universo de datos: situaciÃ³n y perspectivas

Abril de 2021

Francisco JesÃºs RodrÃguez | Roberto Knop

A pesar de las innovaciones que han tenido lugar en los Ãºltimos 20 aÃ±os, existen una serie de hÃ¡ndicaps que deben ser superados para llegar a alcanzar al menos las 3 Vs bÃ¡sicas del Big-Data: Volumen - Velocidad - Variedad. Es precisamente en la Ãºltima de estas Â«VÂ» donde se deben dedicar esfuerzos en los prÃ³ximos aÃ±os.

Con total seguridad habrÃ¡s escuchado en diversos medios mÃ¡ximas como Data is the new oil o que vivimos en la Â«Sociedad del DatoÂ» o que las empresas deben ser Data Driven.

Sin duda, si algo ha marcado el inicio de este nuevo milenio, ha sido hechos claves como:

la apariciÃ³n de numerosas fuentes de informaciÃ³n gracias al desarrollo de Internet,
el incremento de la capacidad de cÃ³mputo y de almacenaje de los procesadores y, mÃ¡s recientemente,
las facilidades que nos ofrece la computaciÃ³n en la nube.

Todos estos elementos ofrecen a amplios espectros de empresas la posibilidad de almacenar y gestionar grandes cantidades de datos, lo cual hace apenas 20 aÃ±os estaba prÃ¡cticamente relegado a grandes corporaciones que eran las que podÃan hacer grandes inversiones en equipos con suficiente potencia.

Vivimos en una nueva era, no hay duda, pero como sucede en cada era de la humanidad, aparecen soluciones a los problemas de la anterior, pero tambiÃ©n surgen otros nuevos que seguramente se resolverÃ¡n en la prÃ³xima. Si nos centramos en el momento actual, gran parte de las tecnologÃas del tipo open-source se estÃ¡n integrado como parte del dÃa a dÃa de las grandes corporaciones, de las empresas de tamaÃ±o medio y forman parte del ADN de las numerosas start-ups que surgen en la actualidad. Y es que el procesamiento de grandes volÃºmenes de informaciÃ³n estÃ¡ al alcance de cualquier instituciÃ³n con el simple gesto de solicitar un procesador potente a travÃ©s de alguno de los proveedores de software de la nube conocidos. Hoy en dÃa, a golpe de clic cualquier tÃ©cnico o incluso cualquier persona sin tener formaciÃ³n informÃ¡tica, puede Â«encenderÂ» una mÃ¡quina con la potencia que desee, utilizarla durante un tiempo para un determinado cÃ¡lculo, apagarla y ceder dicho uso a otro usuario que lo necesite.

La extensiÃ³n del uso de las tecnologÃas conocidas como Big-Data estÃ¡ en proceso, pero existen retos que deben superarse. Una visiÃ³n simplista del Big-Data, que es la metodologÃa de tratamiento de datos que cumplen las 3 condiciones bÃ¡sicas conocidas como las 3 Â«VÂ», actualmente numerosas compaÃ±Ãas pueden procesar y modelizar con datos muy pesados, como por ejemplo los procedentes de imÃ¡genes de satÃ©lite, de cÃ¡mara de vÃdeo e incluso aplicar estos avances a travÃ©s de la Inteligencia Artificial para la conducciÃ³n autÃ³noma o la gestiÃ³n del trÃ¡fico. Sin embargo, el problema se plantea cuando se quiere dotar de variedad a la informaciÃ³n. Aunque existirÃan problemas Ã©ticos y legales como los que se plantean en el Reglamente General de ProtecciÃ³n de Datos, numerosas situaciones en las que cruzar una diversidad de fuentes de informaciÃ³n son totalmente lÃcitas.

NormalizaciÃ³n

Si nos fijamos en los numerosos datos abiertos que se ofrecen a nivel de estadÃstica pÃºblica que comprenden mapas, imÃ¡genes, tablas, documentos, todos ofrecidos de modo gratuito y cumpliendo las especificaciones Ã©ticas y legales pertinentes, Â¿cÃ³mo de fÃ¡cil o de difÃcil serÃa asociar, por ejemplo, a un automÃ³vil autÃ³nomo del futuro informaciÃ³n relevante de una determinada regiÃ³n donde el conductor desee ir? Un problema como este es el que afrontan diariamente las empresas, y si bien es cierto que existen enormes cantidades de datos disponibles y procesables, el problema estÃ¡ en cÃ³mo unirlos para que sean diversos.

Un ejemplo sencillo es intentar relacionar informaciÃ³n a un nivel tan agregado como es el de los municipios espaÃ±oles. Este ejercicio deberÃa ser sencillo a dÃa de hoy, porque se supone que se estÃ¡ ante un nivel de dato en teorÃa tratable. Sin embargo, choca con algunos problemas como el de la normalizaciÃ³n. AsÃ, por ejemplo, aunque existe un cÃ³digo municipal que suele utilizar el INE, distintas administraciones tanto pÃºblicas como privadas en general no lo utilizan y publican datos usando sÃ³lo el nombre del municipio. Esto genera problemas al querer unificar informaciÃ³n, ya que el nombre de un municipio como por ejemplo Â«El ÃlamoÂ», es habitual encontrarlo con distintas denominaciones como Â«Ãlamo (El)Â» o Â«Ãlamo, ElÂ». Ello, sin contar las particularidades idiomÃ¡ticas de las distintas regiones, donde en ocasiones se escribe en las dos lenguas y otras veces en una de ellas. Por tanto, de un hecho formado sÃ³lo por unas 8100 entidades municipales, se requiere un trabajo intenso de unificaciÃ³n y de mantenimiento para la actualizaciÃ³n necesaria conforme se producen cambios a lo largo del tiempo por apariciones, desapariciones y fusiones de distintos municipios.

Indicadores de alta frecuencia

Las empresas y la sociedad en general quieren anticipar problemas, comportamientos de los distintos agentes de la sociedad, la evoluciÃ³n de la economÃa. Por ello, la construcciÃ³n de indicadores de alta frecuencia capaces de anticipar problemas con alertas diarias, horarias o personalizadas es sin duda otro de los retos que requieren la integraciÃ³n de distintas fuentes, tales como las publicaciones de determinados usuarios en Twitter, la aglutinaciÃ³n de las noticias que aparecen en distintos medios de prensa, o la renovaciÃ³n constante de determinadas bases de datos de las instituciones pÃºblicas. Todo resulta procesable, todo resultar ser un gran volumen de informaciÃ³n, pero falta el eslabÃ³n de la unificaciÃ³n.

Finalmente, nuestros sistemas de Machine Learning e Inteligencia Artificial podrÃan ser realmente potentes si fuesen capaces de integrar toda esta informaciÃ³n. Posibilitar el uso de aquello que se publica libremente, pero con cierto grado de unificaciÃ³n y centralizaciÃ³n es necesario si se desea que esas fuentes de informaciÃ³n que han eclosionado en la Ãºltima dÃ©cada y que son servidas y utilizables por el pÃºblico en general, resulten realmente Ãºtiles y potentes para la sociedad en su conjunto.