sábado, 11 de mayo de 2013

Cheered by an ¿old? Whale [BigData]

Hace poco el camarada Xavier Picamal contestó a mi texto La Ballena Voladora  con otro llamado:

BIG, BIG... HURRA!

Desobedeciendo a los tópicos sobre segundas partes, siguió hurgando en la herida con:


Es evidente que mis lineas no merecían semejante reacción  (en realidad tampoco otras), pero a Xavier le a servido como excusa para escribir una pequeña reflexión sobre el tratamiento de datos, analizando los retos a los que nos enfrentamos, aportando y en algún momento sorprendiéndome.

Whale En este caso yo si que empezaré con una critica: mis primeros contactos con el mundo TIC datan del 92, montando redes con cables coaxiales y algún servicio estilo Proxy, incluso un IRC. Seguramente no estamos hablando de los mismo, pero para mi el salto generacional es relativo ;)

Aclarado lo cual, una de las cosas que me parece más interesante sobre el BigData es las reacciones que suscita. Poco a poco me he dado cuenta que esas reacciones vienen dada de la cantidad de retos que hay que abarcar cuando nos enfrentamos a la ballena.




Es por eso que aprovecho cualquier ocasión para concretar, abstraer de modas y tendencias; y aprender de los que saben. En este caso creo Xavier está hablando de 4 de estos retos, que intentaré centrar:
  • BigData supone un CAMBIO. De esto no hay duda, y además no sólo un cambio de estrategia a la hora de analizar datos sino también tecnológico (NoSQL, MapReduce). El cambio provoca rechazo, el cambio se ha de gestionar... el cambio es una oportunidad.
  • Las Preguntas Adecuadas, las tecnologías con el análisis de datos están evolucionando muy rápidamente pero de forma desordenada. Ésto ha generado muchas dudas en el usuario final y cada vez hay más voces clamando: "Si tenéis alguna idea para aprovechar tanta información, por favor, decírmelo!"
  • Integración, lo más importante de este punto es que viene dado por una necesidad. La necesidad de cruzar información de múltiples fuentes par disponer de una visión global o tomar decisiones sin dejar de analizar una parte del problema.
  • Estructura, bases de datos no relacionales, que existen desde hace tanto tiempo como las que si lo son. Yo mismo trabajo en un servicio que trabaja con ellas desde hace más de 20 años. Bases de datos mal nombradas "Documentales" que en realidad se refieren al concepto de documento de lenguajes de programación como JavaScript. Que junto a las Bases de Datos orientadas a Grafos, intentando dar solución a problemas concretos donde las relacionales se han quedado cortas.
En ningún momento se habla de datos grandes, la gran cantidad de información nos ha traído estos retos, pero no es el problema en sí. Xavier tiene perfil de Data Scientist y se nota. Pero la sorpresa más grande fue cuando encuentra una contradicción en mi texto, una contradicción en el uso de un método como el Just in Time cuando "aparentemente" hablaba de lo contrario.

Strong back
He de reconocer que no busqué la contradicción conscientemente, pero cada vez que la analizo tiene más sentido. La "mercadotécnia" de la que habla Xavier nos lleva a creer (a mi el primero) que nos enfrentamos a un gran cetáceo, con el que fracasaremos si intentamos hacerle bailar como una bailarina. Por eso no tenía sentido mi uso de JIT en el artículo.

El problema es que cuando lo escribí yo ya tenía en mente el problema al que BigData ha de dar solución y es un procesamiento de datos ágil, que cuando tengamos la pregunta adecuada (y tan difícil de encontrar) podamos pronunciarla de forma igualmente ágil (hablaba de Lenguaje Natural) y obteniendo un resultado veloz (es ahí donde aparece la visión de un corsé apretado)


La respuesta es evidente, no se trata de marketing ni jugar con metáforas, hay nuevas necesidades y nosotros como profesionales tenemos de intentar buscar respuestas que se adapten a cada caso.

Poco a poco se ve en la visualización de los datos como la respuesta a estos problemas y también poco a poco cosas como la Minería de Datos saldrá del ámbito típicamente Universitario y llegará a nuestro día a día.

Una vez más, gracias Xavier.
 
Imágenes: Whale, Strong back

sábado, 4 de mayo de 2013

BigData Week Barcelona 2013. Parte I: ¿Qué es el BigData?

Hace unos días se celebró en Barcelona la BigData Week


El evento, lejos de centrarse en el BigData, intentó explicar la explosión de datos que estamos sufrido en los últimos años, las oportunidades que ello nos brinda y como abordarlas.

Agradecer a Sebastián Greco su aviso, sin el cual no habría descubierto el evento. Y aclarar que solo pude estar presente un día, el jueves 25 en el que se centraron las sesiones oficiales del evento. Sin duda, una visión muy limitada de la semana.

Durante el jueves asistí a 6 mesas redondas, en las que se dió mucha información, tanta como para 3 artículos en el blog. Así será:
  • Parte I: ¿Qué es el BigData? incluyendo la Introducción, Presentación y la parte más Política (y la que estás leyendo en estos momentos)
  • Parte II: OpenData y PersonalData. Dos de las fuentes de datos más importantes.
  • Parte III: Oportunidades de Negocio e Infraestructuras. ¿Es BigData otra burbuja tecnológica?
Como todos los comentarios bajo mi visión e interpretación. Y lo primero que noté es que había dos objetivos claros:
  • Definir de que estamos hablando: BigData, OpenData, PersonalData ¿cuándo aplica uno o el otro? ¿qué retos suponen? ¿que requisitos tienen?
  • Darle Valor a los datos, escucharas a quien escucharas te quedaba claro que nada de todo esto tiene sentido si no hay un retorno. No podemos vivir los datos por encima de nuestras posibilidades. Quedan lejos las ponencias donde se filosofaba sin objetivo de nuevas tendencias.

Presentación

Buzzword Bingo: Big DataLa BigData Week es una iniciativa organizada simultáneamente en más de 20 países y en Barcelona por media140. Empresa en la que me gustaría destacar a la encargada del evento: Mònica Garriga ... muy presente en twitter e incluso aportando en las mesas redondas.

Si bien se planteó el bien el evento, no se pudo luchar contra su mayor enemigo: el nombre.




Usar el marketing de un término (BigData) puede servir para llegar a cierto publico, pero en este caso se quería ir mucho más lejos: aclarando de que estamos hablando y enfocar el futuro. Estoy seguro de que si hubiera estado en su mano, la gente de media140 habrían escogido otro nombre.

El espíritu del evento se puede resumir en uno de los primeros comentarios del día:

De la primera mesa redonda me gustaría destacar a Carlos Scolari, con su exposición permitió que los asistentes (yo como mínimo), descubriéramos la semiótica y abriéramos la mente . Visualizar un análisis de las relaciones existentes entre los personajes de todas las obras de Shakespeare o descubrir la evolución cromática de los Mangas durante un periodo de tiempo, logró que estuviéramos preparados para cualquier cosa.

¿ cuánto de BIG ha de ser el BigData ?

Big ears
Estar abiertos a nuevas posibilidades es imprescindible para hablar de BigData, pero es necesaria una base. Por eso se intentó definir el término. Uno de los grandes problemas para mi personalmente y que, diría, logré durante el evento:

Se puede empezar a hablar de BigData cuando, con TUS recursos, tienes problemas para procesar TU información



En ocasiones nos limitará el tamaño,  pero si tuviéramos la infraestructura de Google seguro que no tendríamos problemas. Es posible que la sola complejidad de los datos nos impida analizarlos. Pero también, como bien comentó mi estimado Xavier Picamal, el caudal puede ser la frontera.  Aunque el volumen sea pequeño, si tenemos que procesar "al momento" un gran caudal de información, seguramente estaremos traspasando el límite de un análisis tradicional y tengamos que empezar a analizar otro tipo de soluciones.

Claves

Durante la presentación fueron saliendo los temas que para mi son clave cuando hablamos de análisis de datos. Algunos demasiado por encima, pero ahí estaban:
  • Seguridad, ¿de quién son los datos? ¿hemos tomado propiedad de los datos?
  • Legalidad, con el ejemplo de una startup que tardó un año en empezar sólo por los problemas legales
  • Estructura, muy por encima, pero la visualización de datos no deja de ser una solución al problema de una estructura compleja
  • Obtención, ¿ya tenemos los datos? ¿tenemos que recopilarlos? ¿de donde los sacamos?
  • Velocidad, una de las grandes ventajas del BigData :: tomar decisiones rápido... o mejor dicho "sin perder el tiempo" @cscolari

El Fin Último del Análisis de Datos

Big Ass No se planteó así, quizás solo fue por la gran presencia de Administración publica en el evento, quizás por lo llamativo o polémico que puede llegar a ser, pero de lo primero que se habló fue de si es posible medir la opinión de la población en las redes sociales.

Tras la noticia de que Barack Obama creo un equipo de analistas de información para que le asesoraran durante las elecciones a la presidencia, muchos están intentando seguir la idea. A mi la idea me parece un fin último e inalcanzable, ya sólo podremos saber la opinión de alguien, en un instante de tiempo. Y aunque tuviéramos TODA su información, espero sinceramente que jamás tengamos la capacidad para procesarla.

Un tema más filosófico que técnico o de negocio, y que es fácil que se abra cuando se habla de análisis de datos. Evidentemente estos temas quedan reducidos a análisis de redes sociales, y durante la presentación ya se habló del sesgo de selección que suponía usar solo datos de twitter, debido a que sus usuarios tienen un perfil concreto de usuario de nuevas tecnologías.

Es por eso que me sorprendió encontrarme con afirmaciónes tan rotundas viniendo de un político:
Imagenes: Buzzword Bingo: Big Data, Big ears y Big Ass