Dos aplicaciones inmediatas para explotar datos

Hace tiempo estoy indagando más en el tema de aplicaciones para el uso de grandes conjuntos de datos: pueden leer un poco más aquí, aquí y aquí.

Creo que hay mucho potencial para explotar en los ámbitos del data mining o el sector llamado big data, pero ese valor intangible es a menudo complicado de comunicar o ilustrar claramente. Así que aquí hay dos ideas sobre cómo se pueden aplicar datos cotidianos de manera significativa para afectar nuestras decisiones futuras.

1. Finanzas personales

Si lees este blog, hay una alta probabilidad de que no prestes demasiada atención a tus finanzas personales (probabilidad, no necesidad). Pero en serio, deberías. Hay muchas maneras de empezar a capturar datos sobre tus finanzas – utilizando el registro de transacciones disponible a través de tu banco (seguramente a través de la banca por Internet), utilizando software de finanzas personales o en el caso más elemental, llevando un registro de todas las transacciones que realizas (depósitos, retiros, gastos, pagos, etc.) utilizando una planilla de Excel. Es quizás la más trabajosa, pero es una herramienta que seguro tienes disponible inmediatamente.

Digamos que empiezas a capturar datos básicos sobre cada transacción: la fecha, el lugar, y el monto, para empezar. Pero idealmente, también si es que está asociado a alguna cuenta, y si puede englobarse bajo alguna categoría (gastos de transporte), por ejemplo. Al principio, esto es trabajoso, molesto y no parece tener mucho sentido. Pero conforme vas acumulando más y más datos, empiezas a adquirir la posibilidad de encontrar patrones: si filtras, por ejemplo, todas tus transacciones del mes de marzo. O todas las del supermercado. O todos tus gastos en la categoría “entretenimiento”.

Y eso es tan sólo el principio. ¿Cuánto gastaste en entretenimiento en julio comparado a agosto? ¿Cómo se ha incrementado tu nivel de ahorro desde enero? Y así sucesivamente. Mientras más datos tienes, más patrones puedes empezar a encontrar. ¿Estás gastando cada mes más de lo que ganas? ¿Tienes un hueco en tus ahorros que compensar antes de fin de año? Probablemente no te darías cuenta de estas cosas a menos que empieces a hacer un seguimiento de la información.

2. Campañas de márketing en línea

Digamos que quieres promocionar un nuevo negocio haciendo publicidad vía Internet. El referente más importante en este segmento es Google, que ofrece la capacidad de posicionar anuncios publicitarios que acompañan y se ajustan a sus resultados de búsqueda. Cuando alguien busca algo asociado a tu negocio, Google muestra el anuncio junto a los resultados normales, y esto incrementa la posibilidad de que tus clientes te encuentren y generes más ventas.

Todo el modelo de publicidad de Google se basa sobre el procesamiento de enormes cantidades de datos, y muchos de los datos son mostrados de vuelta al usuario para que pueda optimizar su campaña. Al contratar publicidad en Google, tengo que escoger unas pocas variables: el texto de mi anuncio, el presupuesto diario que quiero dedicar a la campaña y los términos de búsqueda con los que quiero asociar mi anuncio. Empezando con eso, Google me empieza a reportar datos sobre la performance de mis anuncios: cuántas veces está apareciendo junto a qué términos, y de entre ésas, cuántas veces un usuario le hace click al anuncio. En función a eso puedo ver qué términos son buscados más frecuentemente y cuáles son más efectivos para mi anuncio, pudiendo mejorar mi anuncio o modificar su posición en función a los resultados que obtengo.

Si encuentro que mi anuncio, por ejemplo, aparece más frecuentemente junto a términos que no había anticipado, puedo optimizar el texto para apelar hacia esos términos o crear un segundo anuncio que ayude a captar más clicks. Si, además, combino la información de la campaña con información de estadísticas de tráfico (de un paquete como Google Analytics, por ejemplo), puedo tener acceso a más información como qué páginas reciben más visitas, cuánto tiempo permanecen los usuarios en mi sitio web, y así sucesivamente.

Estos dos usos seguramente no serán particularmente útiles para todo el mundo. Pero en aquellos casos donde sí lo son, pueden hacer una enorme diferencia en la manera como nos relacionamos cotidianamente con la información y qué decisiones tomamos a partir de ella. Y son ejemplos inmediatamente accesibles de cómo las aplicaciones basadas en datos están cobrando cada vez mayor importancia en nuestras actividades cotidianas.

Usar el pasado para impactar el futuro

Además de la cobertura noticiosa cotidiana sobre el mundo de las empresas tecnológicas y los start-ups de Silicon Valley, TechCrunch tiene de cuando en cuando muy buenos artículos describiendo tendencias emergentes en el mundo tecnológicos y analizando cómo cambian diferentes instituciones a partir de cambios en la tecnología (ayer comentaba sobre uno, justamente).

Ahora quería recomendar un muy buen artículo de Semil Shah sobre el potencial escondido en la explotación de bases de datos para encontrar información y tendencias relevantes para el futuro. Es un tema interesantísimo, y el punto de Shah es que apenas estamos encontrando las primeras exploraciones en lo que es un campo fascinante:

Now, let’s take big data one step further. Whether we’re all data scientists or not, we understand the scale of the opportunity. We know there’s smart money to invest in data storage, masking, security, retrieval, analysis, and visualizations. But, what about leveraging data for true discovery? Can new techniques in mathematics and physics help computer scientists create a new breed of programs to analyze datasets that traditional approaches cannot? How could our world change if we better understood the underlying mathematics behind the data? If finding insights within data is like finding a needle in a haystack, will the right math-based approaches help us build better magnets to draw out those needles? The conventional wisdom to date has been to apply these new techniques to the online world, where data is generated and stored in robust and zero-cost ways, but there is much, much more to explore.

Cada vez hay mejores herramientas para hacer cosas más interesantes con datos. Hay incluso herramientas abiertamente disponibles como Google Fusion Tables para capturar, ordenar y visualizar datos de diferentes maneras sencillas, y la enorme oportunidad de estas herramientas lo captura una muy buena cita en el artículo: podemos utilizar el pasado para impactar el futuro. Precisamente lo que está haciendo Hans Rosling al explotar bases de datos para informar nuestras decisiones sobre temas de desarrollo, o lo que hacen iniciativas en diversas ciudades para capturar datos que mejoren el diseño de políticas públicas.

Esto aún le genera mucha resistencia a muchas personas. Desde un lado más conceptual, porque tiene un tufillo de regreso al positivismo, al dato duro que norma sobre cualquier otra dimensión, pero no creo que se trate de eso. Tenemos ahora suficiente experiencia y bagaje conceptual para, justamente, evitar que esta exploración de los datos se haga de manera ingenua, y cerrarse ante esto es aún más tonto pues es como dar rienda suelta a que se formulen las peores interpretaciones. Al contrario, tenemos que estar detrás de este fenómeno para explotarlo, y también para encontrar sus limitaciones, sus legitimidades y sus contextos.

Una segunda resistencia, allí donde esto es más transformador, es que teniendo datos en la mano, se cierran ciertos caminos a que, por ejemplo, un político pueda querer hacer cualquier cosa. Es una versión más positiva del “papelito manda”, o mejor dicho, si no hay el debido trabajo de por medio, tenemos mejores herramientas para saber que ciertas obras no deben hacerse, o que deben hacerse de otra manera, precisamente porque podemos explotar la data del pasado para construir un mejor futuro.

Lifehacking

Todo el mercado de productos de autoyuda fue, o es, el momento negativo del espíritu, por ponerlo en términos hegelianos. Es decir, es el momento, o el lugar de nuestra cultura que hace evidente una falta, una carencia. Si nos esforzamos por hacer una lectura cultural-histórica del asunto, podríamos empezar a ver cómo la aparición del segmento de autoayuda evidencia todas aquellas cosas que se han ido identificando como faltantes en el discurso acelerado y prácticamente imparable de la Modernidad: el hecho de que nuestro conocimiento sobre el mundo y nuestra capacidad técnica crecen mucho más rápido que nuestra capacidad para darle sentido a este crecimiento o para detenernos a pensar si estamos yendo en la dirección correcta. Este aparato conceptual-industrial crece dejando una serie de huecos y de vacíos, matando dioses, y sin dejarnos muchos lugares a los cuales aferrarnos.

Los productos de autoayuda llenan ese hueco – nos dan “soluciones” simples, fácilmente reproducibles, para llenar el vacío existencial propio de la era moderna. El crecimiento espectacular de este mercado es testimonio de la necesidad cultural por este tipo de productos.

Pero el siguiente momento del espíritu, la evolución conceptual de este orden de cosas resulta menos facilista que el rubro de autoayuda. La cultura del lifehacking es la versión pragmática, efectivista del mundo de la autoayuda: la dedicación al perfeccionamiento de nuestros hábitos cotidianos para conseguir nuestros objetivos de la manera más eficiente y efectiva posible. La diferencia del espíritu del lifehacking es que no edulcora las cosas para hacer sentir a las personas únicas y especiales en el universo, con un propósito y una misión: es un enfoque, más bien, fuertemente ligado a la cultura tecnológica, con procesos iterativos de descubrimiento, experimentación, medición, y corrección. Parte del supuesto de que nuestras mentes y nuestros cuerpos son hackeables en la misma medida en que lo es una computadora, asumiendo que uno tenga las herramientas correctas.

La herramientas más importante en este proceso son los datos, y hoy día es más fácil que nunca tener acceso a los datos. Por ponerlo bajo un ejemplo cotidiano, podemos tomar el caso de las finanzas personales: un enfoque tradicional de finanzas personales, en la variante autoayuda, es el lugar común voluntarista de decir que uno debe fortalecer su propia capacidad para resistirse a los gustos y de esa manera vigilar sus finanzas personales, como una especie de culto al ascetismo. Suena bonito, pero en la práctica no tiene mucho contenido. En realidad, vamos a llegar mucho más lejos si empezamos a trabajar con datos: ¿cuánto gasto mensualmente, y en qué lo gasto? ¿Cuáles son mis fuentes de ingresos? ¿Cuáles son mis inversiones, y cuánto me rinden? Cuando empiezo a meter todos estos datos en una hoja de cálculo, puedo empezar a revelar tendencias que me resultaban desconocidas hasta que empecé la captura de datos. He estado gastando demasiado en algo sin saberlo, o podría gastar la misma cantidad en tal o cual sustituto y conseguir mejores resultados, etc. Me sigue sorprendiendo la cantidad de decisiones sobre este tipo de cosas que se hacen sin recurrir al análisis de los datos disponibles. Y no necesariamente significa que las finanzas personales deben estructurarse en torno a la administración de sacrificios, sino que el tener los datos a la mano permite formular objetivos coherentes, contra los cuales luego podemos realizar una planificación. Sin datos, las decisiones se toman en el vacío.

Los mismo está empezado a pasar, también, en el ámbito de la salud, conforme nuevas tecnologías en el sector nos están permitiendo capturar más y mejores datos, agregarlos y correlacionarlos para derivar conclusiones relevantes, o al menos sugerentes. Un artículo de la revista Wired relata la manera como Sergey Brin, co-fundador de Google, está explorando este uso masivo en la investigación del Parkinson. El acceso a información sobre sus genes le permitieron encontrar una predisposición hacia este mal; en consecuencia, puede anticipadamente modificar su comportamiento para privilegiar los factores ambientales que son conocidos para demorarlo o impedirlo, como haciendo ejercicio. En este sentido, Brin está hackeando su propia conducta para ajustarla en función a los datos a los que tiene disposición, y su hipótesis es que si empezamos a hacer esto a gran escala, y empezamos a acumular los datos de miles de personas, empezaremos a ver patrones que revelan información médicamente relevante sobre diferentes tipo de males.

Los productos de autoayuda no tienen mucho sentido porque son completamente indiferenciados, en la medida en que plantean soluciones genéricas para audiencias diversas. Además, el mercado mismo funciona sobre la suposición de que los productos no funcionan, para que los mismos consumidores sigan consumiendo más productos similares. Pero la noción de lifehacking, en cambio, apuesta por soluciones que se ajustan a patrones de personas que pueden ser comparadas porque los datos que se obtienen de ellas muestran ellos mismos patrones, de modo que podemos comparar y aplicar las mismas soluciones que sabemos que funcionan en los casos que más o menos se parecen. Además, todo el objetivo del hackeo es, precisamente, obtener una solución, que luego puede ser evaluada y corregida según los resultados que se encuentren. Se apoya sobre la idea tecnológica de que tenemos a nuestro alcance las herramientas para recolectar datos, y para compartirlos de maneras sencillas con otras personas. De esta manera podemos empezar a encontrar patrones para modificar nuestra conducta de las maneras que nos interesan.

Más sobre datos, aplicaciones y ciudades

Ayer escribí un poco sobre mi interés creciente por el tema del manejo de datos y cómo podemos extraer de la enorme cantidad de datos que capturamos (o que deberíamos capturar) información significativa para mejorar nuestras condiciones de vida.

Hay muchas aplicaciones en torno a esto que se están explorando para monitorear y optimizar diversos sistemas públicos en ciudades. De hecho, hace un tiempo compartí aquí un ejemplo de cómo Copenhague estaba utilizando bicicletas como sensores baratos para monitorear condiciones climáticas y de tráfico en la ciudad. Ahora encontré un artículo en Mashable sobre una serie de ciudades que están abriendo a sus ciudadanos sus bases de datos para que construyan aplicaciones utilizando la información que está allí sin explotar, para mejorar las condiciones de vida en la ciudad.

Major city governments across North America are looking for ways to share civic data — which normally resides behind secure firewalls — with private developers who can leverage it to serve city residents via web and mobile apps. Cities can spend on average between $20,000 and $50,000 — even as much as $100,000 — to cover the costs of opening data, but that’s a small price to pay when you consider how much is needed to develop a custom application that might not be nearly as useful.

Hay varias razones por las cuales esto es una gran iniciativa:

  • Fomenta la transparencia y la participación ciudadana. Por un lado, evidencia de parte del gobierno de la ciudad la disposición de abrir sus datos al público, y al brindar la oportunidad de crear maneras accesibles de interpretar esta información, permite que un número mayor de personas pueda entender y participar de la gestión municipal.
  • Permite mejorar las condiciones de vida en la ciudad. Creando aplicaciones que contextualizan datos sobre tráfico, criminalidad, educación, medio ambiente, etc., se tienen elementos mucho mejores para tomar decisiones en materia de políticas públicas. Éste es uno de los mejores rasgos de jugar SimCity: uno puede ver cómo cambios en la zonificación industrial afectan a lo largo del tiempo los patrones de contaminación o de tráfico en una zona de la ciudad, y puede adoptar medidas en función a eso. Con mejores fuentes de datos, lo mismo puede hacerse con ciudades reales.
  • Desarrolla un mercado y una base de talento locales. Al abrir las bases de datos para que los ciudadanos jueguen con ellas, se fomenta el desarrollo de habilidades en construcción de aplicaciones a nivel local, que luego pueden ser contratadas por la misma gestión municipal o por el sector privado o quien fuera. En términos simples, se genera un espacio de aprendizaje muy accesible donde los ciudadanos pueden aprender a hacer aplicaciones basadas en datos y empezar a hacerse un nombre con lo cual luego puede empezar a forjarse un mercado local en este rubro.

Por todo esto, no sólo no es descabellado, sino que sería también deseable explorar este tipo de aplicaciones en una ciudad como Lima. En Lima, sin embargo, quizás haya que empezar por capturar datos y consolidarlos en bases de datos accesibles, algo que no es imposible pero que ciertamente arrastra un costo. Las unidades de transporte público, por ejemplo, podrían estar equipadas con sensores que monitoreen su recorrido a lo largo del día, junto con una serie de factores además del tiempo, como condiciones medioambientales o contaminación sonora. Con una serie de sensores bien ubicados en líneas estratégicas, uno podría construirse una figura razonable de los patrones de tráfico, los cuellos de botella y los focos de contaminación en puntos clave de la capital.

(Obviamente esta información y toda su riqueza serían seguramente objetadas por gremios que no quieren ser monitoreados, ya que eso evidenciaría, expondría y documentaría las infracciones que cometen cotidianamente. A mi juicio, una razón más por la cual implementar algo así, a pesar del costo político.)

Otro lugar muy importante donde podría ensayarse esto es en la mejora de la seguridad ciudadana, construyendo sistemas que hagan extremadamente fácil para una persona reportar incidentes o crímenes y empezar a compilar toda esa información de manera sistemática. Debidamente organizada, esto permitiría construir un mapa de criminalidad e inseguridad en Lima que correlacionara no solamente ubicación geográfica, sino también hora, fecha, contexto, y todas las demás variables ambientales cuya influencia en la tasa de criminalidad podría luego empezar a explorarse. Ésta sería, a mi juicio, una inversión mucho más razonables y realista que los gastos más bien aparatosos y propagandísticos que muchos municipios hacen para dar la impresión de que hacen algo por la seguridad ciudadana – instalar cámaras de vigilancia puede estar muy bien, pero a menos que se tenga un plan integral y sistemático para hacer algo con esa nueva fuente de información, en realidad es tirar plata al tacho, jugar con las expectativas de la población y solamente intentar crear una falsa sensación de seguridad.

(Imaginen por ejemplo una aplicación que correlacione un mapa de criminalidad con la posición de uno vía GPS, y le emita una alerta vía celular cuando uno se acerca o se encuentra en un área de alta peligrosidad, junto con una serie de recomendaciones. Quizás son cosas que uno viviendo en una ciudad más o menos internaliza, pero que podría tener enormes aplicaciones, por ejemplo, para el turismo.)

Datos

Una de mis obsesiones recientes es con el manejo de datos, una de tantas cosas que me fascinan y de las que no sé ni remotamente lo suficiente.

Hoy día tenemos mayor capacidad que nunca para capturar, almacenar y procesar todo tipo de datos, y de hecho lo hacemos todo el tiempo y ni siquiera nos damos cuenta. Todos esos datos se almacenan en miles de bases de datos, usualmente aisladas, usualmente perdidas y usualmente poco explotadas. Pero lo que se puede hacer con esos datos es espectacular y es algo en lo que poco a poco estamos ganando terreno.

Permítanme llevar su atención a la obra de Hans Rosling, quien se ha vuelto popular en los últimos años principalmente a través de sus presentaciones en las charlas TED. Rosling es alguien que no solamente está trabajando en el problema de cómo extraer información y conocimiento relevantes a partir de cadenas de datos en apariencia sin relación y conexión, sino además en el problema posterior, de cómo ilustrar y presentar esa información y esas conexiones de maneras que muestren su relevancia a un público general y amplio, y sirvan para informar a la opinión pública.

Éste es uno de los temas comunes de Rosling, presentado para la BBC:

Ésta es la charla TED del 2006 donde Rosling presenta su trabajo con la visualización de datos estadísticos a partir de información médica en los últimos doscientos años:

Es espectacular. Y es ilustrativo porque cuando uno empieza a mapear la manera como cambian los datos a través del tiempo, y ése es justamente el punto de Rosling, se empiezan a desmontar una serie de mitos y preconcepciones que uno puede tener respecto al desarrollo global.

Ésta es una de las cosas que más me interesan últimamente: cómo extraer información relevante, de manera sistemática, a partir de la multiplicidad de datos que nos rodea. Esto es especialmente relevante porque ahora tenemos sensores en todas partes, y podemos empezar a mapear información con dispositivos tan sencillos como un celular.

Es muy poco lo que yo sé de estadística, pero sé lo suficiente como para saber que en un futuro no muy lejano (que se parece más bien al presente), el manejo de datos y estadísticas se convertirá en una de esas habilidades fundamentales para navegar la realidad. Como señalaba McLuhan hace ya varias décadas, la época de la energía eléctrica, de la automatización, está marcada por el movimiento de la actividad económica y de la fuerza de trabajo hacia el reconocimiento y la detección de patrones. Cuando se rompe con la linealidad del trabajo mecánico con la aparición de la automatización, tenemos que reestablecer nuestra relevancia con actividades de un valor más alto, y allí donde los datos son abundantes, lo que es más bien escaso es nuestra capacidad para digerirlos y procesarlos de manera interesante.

Por ejemplo – hace unos días descubrí que el Banco Central de Reserva del Perú publica una enorme cantidad de indicadores económicos y financieros, y que mantiene una base de datos de acceso público con información de casi dos décadas. Información que recoge los cambios en las principales variables económicas del desarrollo económico peruano de los últimos años, y esto es excelente, y espero que sean muchas más las agencias del gobierno que publican este tipo de información. Con acceso a estos datos, con un poco de creatividad y un poco de tiempo, podríamos empezar a extraer una serie de conclusiones sumamente interesantes, si empezamos a cruzar los cambios en los indicadores con, por ejemplo, acontecimientos históricos nacionales e internacionales, movimientos políticos, procesos sociales, etc. Son muchas las conclusiones que podríamos empezar a trazar, simplemente trazando correlaciones entre diferentes conjuntos de datos.