Por Antonio Orbe

Alt1040

Big Data (I): Historia del dato.

Big Data se ha convertido en el nuevo mantra de las Tecnologías de la Información IT. El 90% de los datos de todo el mundo se han creado en los últimos dos años. El 80% de los datos mundiales son no estructurados, es decir, no están en bases de datos al uso. Solo el 20% de todos los datos está disponible para sistemas tradicionales.

Las empresas se enfrentan a enormes desafíos en la gestión del aumento de la información ya que las tecnologías tradicionales de IT se quedan cortas. ¿Cómo hemos llegado a esto? Es Big Data.

Historia del dato

En el principio era el batch o proceso por lotes. El primer proceso de datos ocurrió haciendo estadísticas del censo. Unos operadores creaban fichas perforadas (primera y última vez en que se vieron los datos con los ojos) y el ordenador realizaba los cálculos. Poco después aparecieron los terminales y las cintas, que aún hoy se usan.

A continuación vino el online o proceso transaccional o interactivo. Los usuarios empezaron a interaccionar directamente con las máquinas. Esto supuso una revolución ya que no eran operadores los que introducían los datos sino los mismos usuarios. Estos usuarios eran empleados de la empresa y en seguida los mismísimos clientes.

De pronto el interactivo pasó a ser prioritario relegando al batch a la noche. Nada era más importante que atender al usuario y darle el mejor tiempo de respuesta, idealmente por debajo de 1s. Todos los recursos de computación debían estar al servicio del online. Durante el día ningún proceso estaba permitido en una instalación de IT ya que podía perturbar el sacrosanto online.

Pero los procesos nocturnos seguían existiendo. En el catalogo de procesos batch estaba copiar ficheros, consolidar datos, realizar copias de seguridad y crear informes. Así como una transacción online movía algunos registros de algunas bases de datos, los procesos batch movían cantidades ingentes de registros pertenecientes a todas las bases de datos de la empresa. El batch seguía creciendo.

Pronto resultó que los ejecutivos primero y el resto de los usuarios después demandaban más informes. En efecto, teniendo todos los datos a su alcance, se preguntaban ¿vendemos más en el norte? ¿Vendemos más por la mañana? ¿Quién hace las compras más baratas? Los programadores de IT escribían programas que generaban los informes que les pedían. El tiempo medio variaba de días a semanas. Para cuando el informe estaba listo, las necesidades habían cambiado.

Y los ordenadores fueron creciendo. Al principio, cada nueva generación de un producto suponía un alivio para los clientes ya que podían hacer más con menos. Pero, con el tiempo, el crecimiento fue tal que con cada nuevo ordenador, la empresa necesitaba un modelo más bajo de la gama. Empezaba a sobrar capacidad de proceso.

El online seguía creciendo y seguía siendo sagrado. Un banco podía procesar muchos millones de transacciones online. Pero el batch crecía más deprisa. Aparecieron nuevas herramientas de consulta o queries. Un usuario podía crear sus propios informes sin contar con los programadores de IT. Con el problema de que un query mal diseñado cruza millones de registros de varias tablas sin un control de rendimiento. Los usuarios submitían consultas que colapsaban los ordenadores. El jefe de IT se plantaba y bloqueaba las consultas durante el día porque perjudicaban el online.

La necesidad de consultas se hacía más imperiosa y los ejecutivos necesitaban más y mejor información para tomar decisiones. De modo que se empezaron a crear bases de datos de consultas. Por la noche, como parte del batch, se copiaban tablas a otras bases de datos, se generaban índices y se cocinaban para que las consultas pudieran ser ágiles. Había comenzado el datawarehouse, los datamars o la analítica de negocio.

El mundo transaccional llamado OLTP (On-Line Transactional Processing) había dado paso al OLAP (On-Line Analytical Processing). El análisis de grandes bases de datos dejaba de ser nocturno y se hacía diurno.

Mientras, los ordenadores seguían creciendo. Los fabricantes comenzaron a pensar en nuevos mercados ya que el tradicional OLTP apenas consumía máquina. Nuevos players se fueron añadiendo, empresas de software que creaban programas para analizar mejor los datos. Los clientes empezaron a pensar en usar aún mayores cantidades de datos, un objetivo antes impensable. El mercado de las consultas de grandes bases de datos comenzaba a estar maduro.

Había nacido Big Data.

Antonio Orbe - 9 de abril, 2012, 23:03

Big Data (II): De la información al conocimiento

Cada día creamos datos que vienen de una multiplicidad de fuentes: registros de tráfico, posts que ponemos en los sitios de social media, fotos y vídeos online, sensores que recogen información del clima, transacciones bancarias online, GPS, llamadas de teléfono o registros de los organismos gubernamentales. Juntos suman la cantidad de 2,5 trillones de bytes, tanto que el 90% de ellos se han creado en los últimos 2 años. Es Big Data.

Big Data es un conjunto de datos que es demasiado grande, se actualiza demasiado deprisa y no encaja en las estructuras de proceso de datos IT de las empresas.

De la información al conocimiento

La información son los datos que tenemos a nuestro alcance. Es abundante, se olvida y cambia. El conocimiento consiste en extraer lo valioso de la información, su riqueza y su profundidad. El conocimiento permite tomar decisiones razonadas y actuar en consecuencia. La información tiene poco valor si no se transforma en conocimiento. Grandes cantidades de datos son inútiles si no podemos sacar conclusiones. Es necesario pasar de la información al conocimiento.

Big Data tiene dos desafíos. Manejar ingentes cantidades de información y analizarla para entenderla.

En los últimos años han florecido las empresas que se dedican de una u otra forma al manejo de grandes volúmenes de datos, tanto en relación al hardware, como al software y a los servicios asociados. Oracle, el gigante de las bases de datos, tiene un producto llamado Exadata en el que lo combina todo en lo que se denomina un appliance.

Antes, Teradata ya se dedicaba al datawarehouse o almacén de datos. IBM siempre ha tenido productos relacionados con el mundo de Business Analytics. Hace poco compró Netezza, otro appliance en el que todo está incluido.

Desde el punto de vista del software, muchas empresas han saltado al mercado con productos que manejan grandes cantidades de datos, los estructuran en cubos de información preprocesada y los atacan con herramientas de consulta como Cognos, también comprada por IBM.

Big Data tiene tres dimensiones, las tres V:

Volumen. Terabytes o Petabytes de información inundan los proyectos de Big Data
Velocidad. El dato de ayer no sirve hoy, hay que responder al mundo cambiante al instante
Variedad. Los datos ya no solo están estructurados en bases de datos a la antigua usanza. Ahora incluyen audio, video , posts de social media y mucho más.

El análisis de los grandes datos puede descubrir patrones escondidos que antes era muy complicado procesar. Pero el manejo de los datos no es cosa fácil empezando por el principio. La calidad de los datos es esencial. Todas las empresas tienen registros con clientes duplicados o vacíos.

Desde el mismo inicio hasta el informe final se usan multitud de herramientas que quieren asegurar la fiabilidad de las conclusiones. Solo el portfolio de productos de IBM para la gestión de la información tiene decenas de productos, de calidad, de manejo, de reporting, de consolidación, de minería o de predicción.

Para algunas grandes empresas como Google, Big Data es una necesidad imperiosa. Nadie sabe cómo funciona o qué hacen con su masiva cantidad de datos pero es seguro que el coste de su gestión es muy elevado. Para Pymes, productos de alquiler, en la nube o de software libre están disponibles además de un hardware relativamente asequible.

Pero Big Data comienza a penetrar en mundos antes imposibles. El LHC, gran colisionador de hadrones del CERN genera tantos datos que la mayor parte de ellos se desechan, confiando en que no estén tirando nada importante.

Siempre es posible recolectar más y más datos y hacerse preguntas más complejas. En el mundo de la sanidad la gestión de todas las historias clínicas. Más aún, todas las imágenes médicas como radiografías y resonancias. Y siempre existirá un médico que quiera cruzar datos de, por ejemplo, todas las radiografías de pacientes con tumor que no han muerto en cinco años, tenían familia y no tenían antecedentes de alcohol.

Y querríamos saber los datos de consumo eléctrico de todos los contadores al minuto para tomar decisiones adecuadas de consumo. ¿Contadores? ¿Por qué no cada enchufe y cada electrodoméstico? O saber todos los tuits que hablan de un determinado tema y relacionarlos con noticias de prensa. O seguir el movimiento de cada vehículo en las carreteras. O estudiar la influencia de los rumores que se propagan en los social media sobre las bolsas y productos financieros.

El catalogo de preguntas que pueden hacerse las industrias, sectores y empresas es inacabable. Es Big Data.

Antonio Orbe - 11 de abril, 2012, 16:35

Licencia. Acerca del uso del contenido de nuestros blogs

A menos que se especifique lo contrario, todo el contenido y los comentarios de todos los blogs de Hipertextual se encuentran bajo licencia Creative Commons Reconocimiento 2.5, lo cual significa que eres libre de:

Copiar, distribuir y comunicar públicamente cualquiera de los posts escritos o comentarios hechos en nuestros blogs.
Darles usos derivados, por ejemplo modificarlos según tus necesidades.
Hacer uso comercial de nuestros posts o comentarios hechos. Por ejemplo, se pueden usar nuestros posts en un blog con fines comerciales o ser publicados en un medio masivo como periódicos o revistas.