¿Y después del Big Data?Escrito por Jordi Torres el 27/01/2015 a las 21:21:2510506
(Catedrático de la UPC e investigador del BSC) Ahora que el Big Data ya ha empezado a penetrar en las empresas, las más dinámicas ya empiezan a preguntarse ¿Y después? Respuesta nada fácil, pero cómo saben una buena pista es siempre ver lo que se investiga en los laboratorios. Hasta hace poco sin duda el procesado y la gestión de los datos “Big” han ocupado parte importante de la investigación en la comunidad científica. Pero ahora también se ocupan de cómo obtener de manera automática los análisis predictivos y prescriptivos de estas grandes cantidades de datos que en general no van acompañados de ningún tipo de metadato para facilitar su interpretación.
El principal enfoque para abordar este nuevo reto es aplicar técnicas de inteligencia artificial que se basen por ejemplo en machine learning, deep learning, bayesian networks, procesado de lenguaje natural, además de otros muchos enfoques estadísticos para detectar automáticamente patrones, por decirlo de alguna manera, en grandes volúmenes de datos que de otra manera podrían pasar absolutamente desapercibidos. Sin duda hemos llegado a un punto en que la lógica de procesamiento se deriva de los datos para encontrar automáticamente modelos/teorías subyacentes en lugar de programar modelos para obtener soluciones a partir de los datos.
Podríamos decir que se trata de un análisis de datos “superior” al que hasta ahora se ha venido realizando. Por ello, y para distinguir este nuevo paradigma de análisis, hay quien le llama Cognitive Computing. A falta de un nombre mejor, de momento en nuestro grupo de investigación también lo llamaremos de este modo. Nuestra visión es que esta nueva capacidad de análisis será prestada a las aplicaciones de usuario de manera integrada con el procesado (con modelos cómo MapReduce por poner un ejemplo) y la gestión de los datos (con paradigmas NoSQL por ejemplo), a través del mismo stack de software que conformarán el middleware de los sistemas informáticos venideros.
Ahora bien, en este escenario del Big Data se ha constatado que ninguna plataforma es óptima para todos los roles: Hadoop, massively parallel enterprise data warehouses (EDW), in-memory processing and storage, streamming computing, NoSQL Data Bases, Document Data Bases, etc. Por ello se está evolucionando hacia un paradigma hibrido donde conviven varias tecnologías o plataformas. En este escenario de sistemas híbridos vemos ya las primeras propuestas solventes, cómo Apache Spark, que está ganando terreno gracias a su convergencia de diferentes tecnologías: Modelo de programación MapReduce(Hadoop), streaming processing, procesado in-memory, analytics integrado, estructura de datos en grafo, etc. Personalmente creo que Spark empujará Hadoop fuera de la foto a pesar de su actual impulso comercial.
No lo duden, se avecina una verdadera revolución en el campo de la informática que afectará a todos y cada uno de los ámbitos de nuestra vida. ¡Espero que para bien!
Jordi Torres UPC/BSC www.JordiTorres.eu @JordiTorresBCN
|