Una lectura computacional del Informe Final de la CVR, 2

Siguiendo en la línea de mi post anterior, algunas muestras más generadas por el código que tengo y el tipo de preguntas o narrativas que se pueden generar cuando se examinan. En el caso anterior, a manera de ejemplo generé mapeos simples de términos como “PCP-SL” o “MRTA” en el documento de la cronología de eventos que está incluido en el Informe Final de la Comisión de la Verdad y Reconciliación. Aunque son interesantes, no son terriblemente profundos.

Pero también podemos hacer otros tipos de mapeos. Por ejemplo, si queremos hacer un poco de historia política reciente, podemos mapear búsquedas de los principales personajes de la historia política durante el periodo de violencia interna en el Perú entre 1978 y el año 2000. A manera de ejemplo, estos son los resultados de mapear en el documento la incidencia de los nombres de presidentes peruanos en este periodo (Belaúnde, García, Fujimori, Paniagua, Toledo), a lo largo del mismo periodo. Mayor o menor frecuencia puede indicar mayor o menor participación en la vida política a lo largo de este periodo, al menos en lo que refiere a lo documentado por la CVR.

Belaúnde:

1978: ##1
1979: ##1
1980: ###################################12
1981: #######################8
1982: ############################################15
1983: ##################################################17
1984: #########################################14
1985: ##1
1986: ##1
1987: ##1
1988: ########3
1989: ##1
1990: ##1
1991: ##1
1992: ##1
1993: ########3
1994: ##1
1995: 0
1996: ##1
1997: 0
1998: ##1
1999: #####2
2000: #################6

García (el término es problemático por ser un apellido bastante común, se presta a usos potencialmente ambiguos):

1978: #1
1979: ###2
1980: 0
1981: #1
1982: ###2
1983: ########5
1984: ########5
1985: #####################################22
1986: ##################################################29
1987: ####################12
1988: #####################################22
1989: ##################################################29
1990: ####################12
1991: ######4
1992: ###############9
1993: ###2
1994: #############8
1995: ########5
1996: ###2
1997: #1
1998: #1
1999: ######4
2000: ########5

Fujimori:

1978: 0
1979: 0
1980: 0
1981: 0
1982: 0
1983: 0
1984: 0
1985: 0
1986: 0
1987: 0
1988: 0
1989: 1
1990: ########################42
1991: ######################38
1992: ###############################54
1993: ##############################52
1994: ###############################55
1995: ################################56
1996: #########################43
1997: ##########################46
1998: ##############25
1999: #############################51
2000: ##################################################86

Paniagua:

1978: 0
1979: 0
1980: 0
1981: 0
1982: ##########1
1983: 0
1984: ##########1
1985: 0
1986: 0
1987: 0
1988: 0
1989: 0
1990: 0
1991: 0
1992: 0
1993: 0
1994: 0
1995: 0
1996: 0
1997: 0
1998: 0
1999: 0
2000: ##################################################5

Toledo:

1978: 0
1979: 0
1980: 0
1981: 0
1982: 0
1983: 0
1984: 0
1985: 0
1986: 0
1987: 0
1988: 0
1989: #####2
1990: 0
1991: 0
1992: 0
1993: 0
1994: #######################8
1995: ########3
1996: 0
1997: 0
1998: 0
1999: #####2
2000: ##################################################17

Cuando vemos los mapeos en comparación, ¿qué tipo de observaciones podemos hacer? Primero que nada, podemos ver que las “estelas” de Belaúnde y García son más extensas que las de los demás. Como podríamos anticipar, Fujimori no existe antes del 89: la data no hace sino validar su categoría de “outsider” al sistema política partidario, y su incremento abrupto y marcado en los años subsiguiente coincide con el descenso en la frecuencia de los demás nombres – coincidente con el desmantelamiento de la clase política tradicional que operó el fujimorismo. Paniagua tiene un rol menor en los ochentas y luego virtualmente desaparece hasta la transición del 2000, mientras que Toledo registra solamente en periodos electorales (1995 y 2000).

En realidad estos cuadros no muestran nada que no sepamos ya – de hecho, a muchas de estas observaciones sólo podemos llegar porque ya sabemos muchas de estas cosas, y apenas comparamos nuestro conocimiento con lo que muestra la data. Lo interesante está, creo, en que la data, sin haber sido diseñado para eso (o para siquiera ser considerada como data) efectivamente valida estos patrones. Si no supiéramos varias de las cosas que ya sabemos, y trabajáramos con documentos menos estructurados, un análisis de este tipo nos mostraría tendencias para poder volver sobre estos vacíos y patrones y examinar en detalle por qué se dan discrepancias o se generan tendencias.

En este caso los ejemplos nos sirven más bien para validar que la herramienta efectivamente arroja datos válidos y por extensión, potencialmente interesantes. Si nos mostrara patrones que no tienen mayor sentido, alrededor de los no podemos construir una narrativa coherente, entonces pensaríamos o que el algoritmo está mal diseñado o que mi capacidad de programación es muy pobre. Felizmente, parece que ambas cosas no son (totalmente) ciertas porque de hecho tenemos resultados en apariencia válidos, con lo cual podemos seguir buscando nuevas cadenas y combinaciones y comparaciones que nos empiecen a insinuar cosas que no sabemos.

Con lo cual vale la pena mencionar algo más sobre el código: por ahora, a lo mucho hay una o dos funciones interesantes y una capacidad muy pobre de representación gráfica. Pero espero ir ampliando esto con el tiempo para darle mayor utilidad. Por lo cual cualquier feedback me sirve para ir pensando en maneras cómo se pueden generar interrogaciones sistemáticas extendiendo el código. Una de las primeras cosas que quiero agregar, además, es la capacidad para generar mejores gráficos que reflejen con mayor claridad los patrones, y quizás incluso con la capacidad de comparar múltiples resultados al mismo tiempo (por ejemplo, la data presentada arriba sería mucho más útil comparada lado a lado que como cinco gráficos separados). También quiero buscar la manera de hacer búsquedas por colocaciones (bigramas, trigramas o enegramas) para poder buscar nombres completos, nombres de organizaciones e instituciones.

Una lectura computacional del Informe Final de la CVR

He estado trabajando últimamente en un proyecto que involucra el uso de procedimientos computacionales para el análisis de datos, trabajando en el desarrollo de programas en Python para catalogar y analizar datos o para procesar textos en busca de patrones. Una de las cosas interesantes que ha salido de esto es un trabajo a partir del Informe Final de la Comisión de la Verdad y Reconciliación peruana, que además este año cumple diez años de haber sido publicado. El Informe Final es un esfuerzo masivo de investigación que involucró a un equipo enorme trabajando a través del Perú durante varios años, y es quizás el documento más comprehensivo de nuestra historia reciente sobre nuestra historia reciente. Se trata de nueve tomos más sus anexos, para un total de, si mal no recuerdo, alrededor de ocho mil páginas.

Por ello mismo, es sumamente difícil poder leerlo todo – a pesar de que lo he intentado varias veces, nunca lo he logrado. Existe Hatun Willakuy, la versión abreviada del IF en un solo volumen, pero obviamente no tiene la misma densidad y profundidad de información. De modo que se me ocurrió que el texto mismo del informe podría prestarse para una forma de lectura lejana (lo opuesto a una lectura cercana) donde el texto es tomado como la base de un análisis computacional que procesa el texto en busca de patrones significativos. Esto es totalmente un experimento, pero la idea del experimento es realizar este tipo de lecturas no con la intención de que un algoritmo agote el significado del texto, sino de que podamos utilizar un algoritmo para alzar preguntas y exponer áreas de interrogación que quizás no hubiéramos considerado antes. Esta aclaración es importante porque este tipo de herramientas de análisis basadas en computación o métodos en el ámbito de las humanidades digitales son suficientemente nuevas como para que su uso se pueda confundir o malinterpretar en el sentido de que intentemos dejar que la computadora responda preguntas, cuando en realidad es más interesante que genere posibilidades de interrogación.

Como un primer experimento dentro de lo espero se vaya volviendo un proyecto más completo con el tiempo (y que espero pueda resultar de interés a otras personas que se quieran ir sumando), he trabajado con la cronología de eventos entre 1978-2000 que forma parte de los anexos del informe. El archivo original en PDF, por supuesto, no está disponible en un formato fácilmente analizable, así que lo primero que hice fue convertirlo en un archivo de texto que pudiera ser analizado. Luego, dividí el archivo en secciones por año, para poder hacer un análisis comparativo a lo largo del tiempo. Todo el código que he generado está disponible en Github como el proyecto CVR Analytics para que cualquiera lo clone o analice. El código se apoya en el módulo NLTK para procesamiento y análisis del lenguaje natural, y es todavía un trabajo en progreso – de hecho, varias cosas importantes como la identificación de eventos y fechas todavía no funcionan como deberían.

Pero incluso en su forma actual se pueden formular algunas preguntas interesantes. La función word_map(), por ejemplo, permite buscar un término específico en el texto y visualizar la frecuencia con la que aparece en la cronología año por año. Esto genera algunos resultados interesantes, aún cuando muchos de ellos pueden ser esperables. Por ejemplo, una búsqueda por “PCP-SL” como término genera lo siguiente:

1978: 0
1979: ###2
1980: ########5
1981: #############8
1982: ####################################21
1983: #####################################22
1984: ##################################################29
1985: ##################11
1986: #############8
1987: #################10
1988: ########################14
1989: ################################19
1990: ######################13
1991: #########################15
1992: ####################################21
1993: ########################14
1994: ######################13
1995: #####3
1996: ###2
1997: #1
1998: ###2
1999: #1
2000: #1

Una búsqueda por “MRTA” genera la siguiente distribución:

1978: 0
1979: 0
1980: ##1
1981: 0
1982: ########3
1983: ##1
1984: ######################8
1985: #################################12
1986: #############5
1987: #################################12
1988: ##############################11
1989: ##################################################18
1990: #################################12
1991: ################6
1992: ###################7
1993: ################6
1994: ##1
1995: #####2
1996: ######################8
1997: #################################12
1998: 0
1999: ########3
2000: #####2

(Soy consciente de que mis visualizaciones son un poco crudas, pero vamos, esto es sólo una prueba de concepto.)

Otra función interesante es la de yearly_collocations(), que utiliza las funciones incluidas en NLTK para generar bigramas frecuentes: palabras que coinciden juntas con una inusual frecuencia. Las colocaciones para los años 1979-1981, por ejemplo, son éstas:

1978
Building collocations list
Asamblea Constituyente; Movimientos sociales; Francisco Morales; Hugo
Blanco; Óscar Molina; Cisneros Vizquerra; Partidos políticos; paro
nacional; Blanco Galdós; Fuerzas Armadas; Molina Pallochia; Morales
Bermúdez; alto nivel; decretos legislativos; las elecciones; origen
político; más alto; Luis Cisneros; Alva Orlandini; Estados Unidos
1979
Building collocations list
Partidos políticos; Morales Bermúdez; Francisco Morales; Junta
Militar; Movimientos sociales; Pacto Andino; Partido Comunista; Bedoya
Reyes; Cuadros Paredes; Raúl Haya; otro lado; Armando Villanueva; Por
otro; movimiento popular; Víctor Cuadros; Víctor Raúl; Luis Bedoya;
garantías individuales; las Fuerzas; Asamblea Constituyente
1980
Building collocations list
Belaunde Terry; Richter Prada; Partidos políticos; Pedro Richter;
origen político; Barrantes Lingán; Movimientos sociales; Manuel
Ulloa; Elecciones Generales; Alfonso Barrantes; Ulloa Elías; José
María; Orrego Villacorta; Silva Ruete; Eduardo Orrego; San Martín;
Armando Villanueva; Mientras tanto; Javier Silva; del Interior

Claramente no es un análisis perfecto – parte de los problemas que he encontrado hasta ahora han girado en torno al trabajo con un texto en español, cuando la mayoría de documentación y cuerpos de análisis disponibles están todos en inglés, de modo que el análisis es muchas veces menos que perfecto. Pero es un punto de partida, y muchos de los problemas seguramente pueden corregirse (seguramente con facilidad por alguien con mejor manejo del código que yo). Lo que quiero señalar con esto es simplemente que este tipo de análisis de textos masivos, como el Informe Final, pueden servir para elucidar preguntas y evidenciar patrones que de otra manera podrían permanecer ocultos en el texto y pasar desapercibidos a una lectura pormenorizada.

De ninguna manera esto es un mejor modo de lectura, o reemplaza al trabajo exegético y analítico que las humanidades y las ciencias sociales están acostumbradas a hacer. Pero ciertamente puede servir como un complemento, ayudando a abrir líneas de investigación u oportunidades de trabajo a seguir explorando. En mi caso, representa un primer experimento para seguir trabajando no sólo como aproximación analítica sino con suerte para luego complementarlo con un trabajo productivo, tomando no sólo la cronología sino también otras partes del informe y procesándolas para generar visualizaciones, archivos, o reinterpretaciones que permitan que un público más amplio pueda aproximarse a esta información y navegarla sin tener que saltar la valla altísimo de enfrentarse al informe en su totalidad.

Y claro, nunca está de más decir que cualquier comentario o pregunta sobre esto es bienvenido, para ir mejorando y ampliando el proyecto en otras direcciones.

Dos aplicaciones inmediatas para explotar datos

Hace tiempo estoy indagando más en el tema de aplicaciones para el uso de grandes conjuntos de datos: pueden leer un poco más aquí, aquí y aquí.

Creo que hay mucho potencial para explotar en los ámbitos del data mining o el sector llamado big data, pero ese valor intangible es a menudo complicado de comunicar o ilustrar claramente. Así que aquí hay dos ideas sobre cómo se pueden aplicar datos cotidianos de manera significativa para afectar nuestras decisiones futuras.

1. Finanzas personales

Si lees este blog, hay una alta probabilidad de que no prestes demasiada atención a tus finanzas personales (probabilidad, no necesidad). Pero en serio, deberías. Hay muchas maneras de empezar a capturar datos sobre tus finanzas – utilizando el registro de transacciones disponible a través de tu banco (seguramente a través de la banca por Internet), utilizando software de finanzas personales o en el caso más elemental, llevando un registro de todas las transacciones que realizas (depósitos, retiros, gastos, pagos, etc.) utilizando una planilla de Excel. Es quizás la más trabajosa, pero es una herramienta que seguro tienes disponible inmediatamente.

Digamos que empiezas a capturar datos básicos sobre cada transacción: la fecha, el lugar, y el monto, para empezar. Pero idealmente, también si es que está asociado a alguna cuenta, y si puede englobarse bajo alguna categoría (gastos de transporte), por ejemplo. Al principio, esto es trabajoso, molesto y no parece tener mucho sentido. Pero conforme vas acumulando más y más datos, empiezas a adquirir la posibilidad de encontrar patrones: si filtras, por ejemplo, todas tus transacciones del mes de marzo. O todas las del supermercado. O todos tus gastos en la categoría “entretenimiento”.

Y eso es tan sólo el principio. ¿Cuánto gastaste en entretenimiento en julio comparado a agosto? ¿Cómo se ha incrementado tu nivel de ahorro desde enero? Y así sucesivamente. Mientras más datos tienes, más patrones puedes empezar a encontrar. ¿Estás gastando cada mes más de lo que ganas? ¿Tienes un hueco en tus ahorros que compensar antes de fin de año? Probablemente no te darías cuenta de estas cosas a menos que empieces a hacer un seguimiento de la información.

2. Campañas de márketing en línea

Digamos que quieres promocionar un nuevo negocio haciendo publicidad vía Internet. El referente más importante en este segmento es Google, que ofrece la capacidad de posicionar anuncios publicitarios que acompañan y se ajustan a sus resultados de búsqueda. Cuando alguien busca algo asociado a tu negocio, Google muestra el anuncio junto a los resultados normales, y esto incrementa la posibilidad de que tus clientes te encuentren y generes más ventas.

Todo el modelo de publicidad de Google se basa sobre el procesamiento de enormes cantidades de datos, y muchos de los datos son mostrados de vuelta al usuario para que pueda optimizar su campaña. Al contratar publicidad en Google, tengo que escoger unas pocas variables: el texto de mi anuncio, el presupuesto diario que quiero dedicar a la campaña y los términos de búsqueda con los que quiero asociar mi anuncio. Empezando con eso, Google me empieza a reportar datos sobre la performance de mis anuncios: cuántas veces está apareciendo junto a qué términos, y de entre ésas, cuántas veces un usuario le hace click al anuncio. En función a eso puedo ver qué términos son buscados más frecuentemente y cuáles son más efectivos para mi anuncio, pudiendo mejorar mi anuncio o modificar su posición en función a los resultados que obtengo.

Si encuentro que mi anuncio, por ejemplo, aparece más frecuentemente junto a términos que no había anticipado, puedo optimizar el texto para apelar hacia esos términos o crear un segundo anuncio que ayude a captar más clicks. Si, además, combino la información de la campaña con información de estadísticas de tráfico (de un paquete como Google Analytics, por ejemplo), puedo tener acceso a más información como qué páginas reciben más visitas, cuánto tiempo permanecen los usuarios en mi sitio web, y así sucesivamente.

Estos dos usos seguramente no serán particularmente útiles para todo el mundo. Pero en aquellos casos donde sí lo son, pueden hacer una enorme diferencia en la manera como nos relacionamos cotidianamente con la información y qué decisiones tomamos a partir de ella. Y son ejemplos inmediatamente accesibles de cómo las aplicaciones basadas en datos están cobrando cada vez mayor importancia en nuestras actividades cotidianas.

#edupunkarg

El fin de semana estuve en Rosario, Argentina, para la III Jornada Intercátedras Digicom/Datos, excelentemente titulada “Aprendiendo en tiempos de bárbaros, zombies y post-humanos”. Conocí a Alejandro Piscitelli, quien dirige una de las cátedras involucradas, en el McLuhan Galaxy Barcelona 2011, y por él pude participar de este encuentro de no-docentes y no-alumnos dedicados a “hackear la educación” (además de a los cuchillos, los pandas, los canguros, y discusiones particularmente largas sobre las mejores estrategias para sobrevivir a una invasión zombie. Hardcore-geek-style, en otras palabras). Si quieren ver un poco el tipo y volumen de actividad que adquirieron las jornadas pueden pasear por el hashtag #edupunkarg en Twitter. Fue una excelente jornada, la verdad, con muchísimo que comentar y aún más para procesar.

Hice una presentación durante la sesión inicial de la jornada. Intenté volver sobre ideas que he ido explorando hace tiempo aquí en el blog, en otros textos y presentaciones. intentando explorar la manera como nuestra cultura, o al menos la cultura más próxima y cercana al cambio tecnológico, está progresivamente desplazándose de una concepción que podríamos llamar “ingenua” de la tecnología, hacia una cultura permeada por la ética hacker y articulada en torno a varios de sus principios (ética hacker que, por cierto, no es autónoma, sino que en una medida considerable se articula ella misma alrededor de lo que las tecnologías digitales nos permiten). Hay algo que está pasando, algo que amerita mayor análisis, cuando en una época empezamos a ver que nuestros referentes culturales de certeza y estabilidad empiezan a derrumbarse o cuestionarse.

Creo que se puede hablar aquí de tres “desplazamientos”. El primero es el desplazamiento de un entendimiento de la tecnología como una herramienta, al de la tecnología como lenguaje: siguiendo a McLuhan, entender la tecnología como una forma de lenguaje o gramática implica quitar el énfasis en el objeto o el soporte tecnológico, y empezar a observar con mayor atención las relaciones sociales y los protocolos que construimos en torno y a partir de la introducción de una tecnología. Cuando McLuhan señala que “el medio es el mensaje”, el mensaje del medio es su impacto sensorial y social y sus efectos sobre nuestra conducta como cultura, los cuales se nos vuelven completamente transparentes cuando pensamos que las tecnologías son sólo vehículos para nuestras ideas y nuestra voluntad.

El segundo desplazamiento va en la misma dirección: el paso de los espectadores a los usuarios. La lógica y el lenguaje de los nuevos medios es de espacios de co-creación, o mejor dicho, espacios abiertos donde nadie tiene que pedir permiso para ensayar y exploras nuevos tipos de expresiones. Esto no es posible en el modelo de los medios tradicionales, donde para comunicarse masivamente uno tiene que pedir permiso; esa necesidad de pedir permiso y de recibirlo quiere decir que la comunicación aparecía como si tuviera algún tipo de garantía. Alguien, por alguna razón, tiene que haber aprobado esto. Pero, como vemos en casos como el de Rupert Murdoch y News of the World, toda esa garantía es meramente aparente, una ilusión producto de la escasez de canales: el nuevo ecosistema mediático diluye esa ilusión en la medida que le permite a cualquier persona tener un canal. Cuando el espectador se vuelve usuario, cuando deviene prosumidor, es imbuido con un conjunto de superpoderes que evidencian que, en verdad, no tienen nada particularmente especial: cualquiera puede comunicar mensajes masivamente, sin tener que pedirle permiso a nadie, pero por lo mismo, sin ofrecer ningún tipo de garantía. En este ecosistema se vuelve clave desarrollar las habilidades para navegar un flujo de información sobre el cual, a priori, no podemos formular ningún juicio.

El tercer desplazamiento es consecuencia de los dos anteriores: el paso de los consumidores, a los hackers. O, lo que es más o menos lo mismo, el paso de consumidores a ciudadanos, en la medida en que la ciudadanía empieza a redefinirse en términos hackerísticos. Prometedor, pero también peligroso. La ciudadanía así concebida implica entender la realidad que nos rodea como un gran libro abierto, reinterpretable, hackeable. En lugar de ver instituciones que se consumen, a las cuales uno se adapta, el hacker ve problemas, instituciones perfectibles, procesos mejorables. De esta manera es como el ciudadano empieza a apropiarse del espacio, de lo público, de la cultura. Se vuelve de esta manera en el núcleo de una ciudadanía activa, abierta y transparente.

Pero esto es también peligroso, y es un gran desafío, y se desprenden de eso tres preocupaciones sobre las cuales debemos preocuparnos en los siguientes meses/años, si es que no lo hemos hecho ya. La primera es que, si la lógica y la ética hacker empiezan a volverse tan impregnadas en nuestros procesos sociales/culturales, entonces se vuelve pertinente aprender a hackear (y entender cómo se aprende a hackear). Como proceso cultural, o como habilidad técnica, o en realidad como ambos, ya no es algo que se puede dejar simplemente a “otros”, sino que se vuelve una responsabilidad personal también.

La segunda preocupación es que tenemos que desarrollar la habilidad para identificar patrones rápida y efectivamente. Como ya lo señalaba McLuhan, la habilidad para identificar patrones en la cultura será la marca del futuro: las personas que consigan afinar esta habilidad tendrán una ventaja considerable sobre todos los demás. Esto es claro, por ejemplo, en focos de innovación como Silicon Valley, donde la diferencia entre identificar patrones o de crearlos se diluye casi completamente. Identificar los patrones a tiempo, darles nombre, significarlos, tematizarlos, es básicamente crearlos. Aprender a hacer esto a nivel cotidiano se convierte en una habilidad básica para nuestra adaptación a nuevos modelos culturales.

La tercera preocupación, quizás la más preocupante, es que a medida que más y más procesos se mediatizan digitalmente o adquieren al menos mayor significación digital, el tema de la brecha tecnológica se vuelve infinitamente más importante. Si la ciudadanía requiere cada vez más de aprender a hackear, y aprender a identificar patrones y actuar sobre ellos rápidamente, entonces ese segmento enorme de la población que ya de por sí se está quedando atrás en lo tecnológico, se empieza a convertir en una ciudadanía de segunda categoría. Y para los que más nos interesa explorar estas transformaciones y sus posibilidades, y que además podemos corroborar cómo estos espacios o no-espacios virtuales y comunitarios se enriquecen y vuelven más interesantes mientras más gente participe, se nos impone la responsabilidad de hacer algo al respecto. Empezando por tematizarlo, y por discutirlo, pero sobre todo, aprendiendo lo que significa diseñar tecnologías y protocolos para la inclusión.

Éste es un poco el resumen de lo que presenté en #edupunkarg. Aquí también están las diapositivas de la presentación:

La jornada misma merece un comentario aparte. Las sesiones del primer día fueron, digamos, más teóricas o exploratorias, y revisando varias experiencias concretas de hackeo de la educación, de la evaluación, de lo contenidos y demás. Hackear la educación fue el tema recurrente de toda la jornada, visto desde el punto de vista de investigadores, de alumnos, de docentes, de profesionales, o más bien, visto sobre todo desde no-lugares: no intentando definir perspectivas a partir de profesiones o trabajos, sino ver cómo todas se conjugaban entre sí en colaboratorios.

Surgieron muchas preguntas y muchas propuestas. ¿Cómo actualizar, por ejemplo, lo que es la evaluación en un salón de clase para que deje de ser simplemente un “cumplir con el sistema” y se vuelva una herramienta realmente útil para el alumno? Podemos repensar por completo la evaluación cuando podemos empezar a capturar, procesar y sistematizar datos casi en tiempo real. Aníbal Rossi de la Universidad Nacional de Rosario presentó una experiencia en la que el algoritmo de Google sirvió como modelo para procesar las autoevaluaciones de los alumnos de un curso: en lugar de analizar cómo los alumnos evaluaban entre sí, evaluar cómo los mejor evaluados evaluaban a los demás. Si empezamos a llevar este modelo a niveles más complejos podemos incluir más fuentes de datos, procesamientos más complejos, e incluso cursos que terminan evaluándose y corrigiéndose a sí mismos y brindando información sobre el grupo y sobre cada individuo en cualquier momento, en tiempo real.

Personalmente me tocó participar en muchas de las discusiones que involucraban el uso de los videojuegos como herramientas educativas, algo que me interesa particularmente por mi experiencia con el Laboratorio de Videojuegos de Lima. En sesiones temáticas grupales, el segundo día de la jornada consistió básicamente en una experiencia de diseño: primero explorando un problema y desarmándolo en sus elementos componentes, y a partir de ellos buscando posibilidades de acción y de impacto. El resto del día fue una oportunidad para diseñar colectivamente recursos y productos para, en este caso, la integración de los videojuegos en el proceso educativo, trabajando por un lado con docentes, por otro lado con jugadores. Salieron buenas ideas, que con suerte serán reunidas pronto en un primer prototipo y eventualmente en un producto que podamos mostrar al público. Lo increíble es lo rápido que un grupo de gente puede hackear este proceso: en menos de un día teníamos un contexto, una serie de ideas, diversas posibilidades para un producto, e incluso los principios de un prototipo. Quizás con un poco más de tiempo habríamos podido cerrar la jornada con un prototipo funcional terminado, analizado, y con feedback capturado.

En fin. Fue una sesión sumamente interesante, que a mí particularmente me sirvió para entender mucho mejor lo que está sucediendo en Argentina en términos de estudios de medios y tecnología y cómo se están leyendo y sobre todo aplicando diversas ideas. Mucha gente muy creativa, muy bien informada, con muchos fundamentos, y con muchísimas buenas ideas para explorar y desarrollar. Así que tengo muy buenas expectativas de ver los resultados que saldrán de esto en las próximas semanas.

Usar el pasado para impactar el futuro

Además de la cobertura noticiosa cotidiana sobre el mundo de las empresas tecnológicas y los start-ups de Silicon Valley, TechCrunch tiene de cuando en cuando muy buenos artículos describiendo tendencias emergentes en el mundo tecnológicos y analizando cómo cambian diferentes instituciones a partir de cambios en la tecnología (ayer comentaba sobre uno, justamente).

Ahora quería recomendar un muy buen artículo de Semil Shah sobre el potencial escondido en la explotación de bases de datos para encontrar información y tendencias relevantes para el futuro. Es un tema interesantísimo, y el punto de Shah es que apenas estamos encontrando las primeras exploraciones en lo que es un campo fascinante:

Now, let’s take big data one step further. Whether we’re all data scientists or not, we understand the scale of the opportunity. We know there’s smart money to invest in data storage, masking, security, retrieval, analysis, and visualizations. But, what about leveraging data for true discovery? Can new techniques in mathematics and physics help computer scientists create a new breed of programs to analyze datasets that traditional approaches cannot? How could our world change if we better understood the underlying mathematics behind the data? If finding insights within data is like finding a needle in a haystack, will the right math-based approaches help us build better magnets to draw out those needles? The conventional wisdom to date has been to apply these new techniques to the online world, where data is generated and stored in robust and zero-cost ways, but there is much, much more to explore.

Cada vez hay mejores herramientas para hacer cosas más interesantes con datos. Hay incluso herramientas abiertamente disponibles como Google Fusion Tables para capturar, ordenar y visualizar datos de diferentes maneras sencillas, y la enorme oportunidad de estas herramientas lo captura una muy buena cita en el artículo: podemos utilizar el pasado para impactar el futuro. Precisamente lo que está haciendo Hans Rosling al explotar bases de datos para informar nuestras decisiones sobre temas de desarrollo, o lo que hacen iniciativas en diversas ciudades para capturar datos que mejoren el diseño de políticas públicas.

Esto aún le genera mucha resistencia a muchas personas. Desde un lado más conceptual, porque tiene un tufillo de regreso al positivismo, al dato duro que norma sobre cualquier otra dimensión, pero no creo que se trate de eso. Tenemos ahora suficiente experiencia y bagaje conceptual para, justamente, evitar que esta exploración de los datos se haga de manera ingenua, y cerrarse ante esto es aún más tonto pues es como dar rienda suelta a que se formulen las peores interpretaciones. Al contrario, tenemos que estar detrás de este fenómeno para explotarlo, y también para encontrar sus limitaciones, sus legitimidades y sus contextos.

Una segunda resistencia, allí donde esto es más transformador, es que teniendo datos en la mano, se cierran ciertos caminos a que, por ejemplo, un político pueda querer hacer cualquier cosa. Es una versión más positiva del “papelito manda”, o mejor dicho, si no hay el debido trabajo de por medio, tenemos mejores herramientas para saber que ciertas obras no deben hacerse, o que deben hacerse de otra manera, precisamente porque podemos explotar la data del pasado para construir un mejor futuro.