Big Data (y 5): ¿ Por qué se requieren nuevos modelos de programación?Escrito por Jordi Torres el 02/07/2013 a las 21:31:094140
(Catedrático de la UPC e investigador del BSC) Como hemos visto en anteriores artículos, no cabe duda de que los datos disponibles aumentarán de manera exponencial y muchas organizaciones querrán, no solo recolectarlos y almacenarlos, sino también utilizarlos, puesto que los datos solo les son útiles a las organizaciones si pueden hacer algo con ellos. Pero procesar estas grandes cantidades de datos almacenados distribuidamente de manera poco estructurada es un gran reto y tampoco en este caso sirven los métodos tradicionales de procesado, requiriéndose nuevos modelos de programación. Para conseguir el objetivo de procesar grandes conjuntos de datos, hace unos años Google creó el modelo de programación MapReduce. Pero fué el desarrollo Hadoop MapReduce, por parte de Yahoo, lo que propició un ecosistema de herramientas open source de procesamiento de grandes volúmenes de datos que la mayoría de implementaciones de otras empresas están utilizando actualmente. La innovación clave de MapReduce es la capacidad de hacer una consulta dividiéndola y ejecutándola en paralelo a la vez, a través de muchos servidores sobre un conjunto de datos inmenso. De este modo, por ejemplo, se resuelve el problema de los datos cuando son demasiado grandes para que quepan en una sola máquina. El problema de MapReduce y el almacenamiento con sistemas NoSQL es que no sigue la manera de procesar y almacenar que desde hace años estamos empleando y enseñando, y por eso se hace difícil “pensar” en este nuevo paradigma, que en cierto sentido, para entendernos, se tiene que “desaprender”. Ante esto han surgido proyectos como Hive. Un sistema datawarehouse basado en Hadoop que fue desarrollado por Facebook y ahora es un proyecto open source dentro del ecosistema de Hadoop. El interés principal de Hive es que ofrece la posibilidad de que los usuarios escriban consultas en SQL, que después se convierten en MapReduce de manera transparente para el programador. Ello permite a los programadores de SQL que no tienen experiencia en MapReduce usarlo e integrarlo en sus entornos habituales. Pero este es sólo un ejemplo, hay muchas más piezas en este inmenso ecosistema open source de Hadoop que permite abordar los retos de variabilidad, tiempo real, etc. que presenta el fenómeno Big Data, además de las propuestas que muchas empresas están ya lanzando al mercado. Hoy finalizamos esta serie de artículos de opinión que han tratado de manera divulgativa alguno de los retos tecnológicos del Big Data en los que trabajamos nuestro grupo de investigación del Barcelona Supercomputing Center (BSC) y UPC Barcelona Tech, para conseguir el manejo y procesado de los datos de manera eficiente y sostenible. No lo podemos tratar aquí por su extensión pero el lector debe ser consciente de la gran cantidad de energía que se requiere para alimentar los servidores de los centros de procesado y manejo de datos, convirtiéndose la energía probablemente en uno de los principales retos del Big Data a mi modo de ver. Pero evidentemente hay muchos más retos que se deben afrontar como la visualización, la privacidad, la seguridad, etc. Y sobre todo la de extracción de valor de los datos con nuevos algoritmos matemáticos para convertir los datos en información que de valor a la empresa. Espero haberles aportado conocimiento con esta serie de artículos divulgativos para ayudarles a estar alerta del fenómeno del Big Data y poder tener su propia opinión sobre lo que se nos avecina. Sin duda el Big Data representará un excitante cambio de ciclo en nuestro sector y en la sociedad en general. Y en mi opinión de mayor magnitud que la transformación vivida hace pocos años con lo que conocemos hoy como Web 2.0. A estas alturas ya no hay duda que estamos entrando en una nueva era gracias a una nueva generación de tecnologías y arquitecturas diseñadas para extraer valor a un gran número de datos de diversos tipos a la vez y en tiempo real. Muchas gracias por haberme seguido durante este tiempo. Jordi Torres, experto en Big Data en la UPC Barcelona Tech y el Barcelona Supercomputing Center -www.JordiTorres.eu
|