Agregado por Germán Tessmer el 12 12-03:00 marzo 12-03:00 2020 en Destacados, Informes Especiales, Publicaciones | 0 comments

¿De quién son nuestros datos?

Por Germán Tessmer
@Gerkandar

La irrupción vertiginosa y creciente de tecnologías digitales y de técnicas de procesamientos de datos asociadas, han llevado a especialistas de diversos campos a realizarse esa pregunta. En la actualidad, nuestros datos personales constituyen una formidable fuente de recursos económicos para quienes los poseen y saben utilizarlos. Conocer patrones de comportamiento y de consumo, permite a una enorme variedad de empresas realizar una mejor focalización y discriminación de precios ante el público objetivo al que buscan ofrecerle sus productos.

Pero eso no es todo, el uso de este tipo de tecnologías permite ir aún más lejos, al habilitar la posibilidad de modificar pautas de comportamiento; por ejemplo, creando anuncios e incentivos focalizados en el público de interés, o utilizando palabras clave que sirvan como disuasorios específicos para cada grupo de personas. O también, mediante la creación de sistemas de puntuación crediticia, como es el sistema Zhima Credit de Alipay. Y los casos siguen.

Si el escenario –ya de por si complejo- fuera el de regular a favor de cierta noción de bien común las relaciones que se establecen entre organizaciones privadas y los particulares, el papel del Estado tendría un objetivo ambicioso, pero definido. El problema es que este tipo de herramientas tranquilamente pueden adaptarse para influir en el comportamiento de la ciudadanía a nivel de las decisiones en el plano de lo económico, sino también de lo político y social. Lo cual representa un enorme desafío para cualquier democracia moderna que, por definición, es un gobierno de opinión.

Por ejemplo, durante 2019 se ha debatido ampliamente sobre el papel determinante que tuvo el uso de técnicas de big data en el resultado del Brexit; como así también el proyecto piloto de crédito social implementado en la ciudad china de Rongcheng, un registro de antecedentes en que las buenas acciones suman puntos, y las infracciones a la ley restan.

Más allá de la novedad en la creación y uso de datos, lo cierto es que los países con cierto grado de desarrollo hace varias décadas que vienen recolectando información estadística sobre su población. Una de las virtudes que posee este tipo de relevamiento, es que -por lo general- se busca que la información recabada sea representativa de la población de referencia. La otra, es que una parte significativa de esa información ha sido, desde prácticamente sus inicios, de acceso abierto.

La representatividad es una característica deseable ya que permite tener un panorama completo y no sesgado; algo que no necesariamente ocurre con la información recolectada en las bases de datos privadas (generalizando: los datos que voluntariamente brindamos cuando instalamos una aplicación en el celular o navegamos por redes sociales). Pero el logro de esta característica tiene un costo, y ese es el despliegue de recursos que los organismos de estadísticas oficiales insumen para su obtención.

Así, la pregunta sobre los derechos de propiedad de la información personal se enfrenta a un panorama complejo y difícilmente generalizable. Por una parte, algunas empresas pueden disponer de información del comportamiento de la población en territorios donde el estado no releva. Por otra parte, esa información seguramente esté sesgada, dado que –por ejemplo- no toda la población de un territorio usa la misma aplicación, sino un subconjunto que no es necesariamente representativo. Lo contrario sucede, en algunos casos, con la información pública.

De esta forma, la pregunta con la que inicia este artículo tiene una enorme cantidad de matices, tanto por sus buenas consecuencias: por ejemplo, una mejor planificación de las políticas públicas basadas en evidencia; como por aquellas no deseables: por ejemplo, un vulneramiento sistemático de la intimidad y privacidad de las personas (o incluso otros efectos más pequeños, como la publicación de información tendenciosa o metodológicamente mal estimada).

Las novedades, a veces imponen su lógica. Entre las exigencias de mayor y mejor información, iniciativas ciudadanas de datos y gobierno abierto, proyectos de regulación de empresas que generen ganancias con bases de datos, entre otros; a veces se pierde de vista el uso, difusión y entendimiento de los datos ya existentes. El informe que presenta este artículo, tiene como objetivo construir sobre lo sólido, al facilitar el acceso e interpretación de uno de los relevamientos más importantes de nuestro país.

En Argentina, uno de los mejores relevamientos de los que se dispone a nivel poblacional es la Encuesta Permanente de Hogares (EPH). Es un programa nacional de producción sistemática y permanente de indicadores sociales que lleva a cabo el Instituto Nacional de Estadística y Censos (INDEC), que permite conocer las características sociodemográficas y socioeconómicas de la población. Con los datos obtenidos en esta encuesta se proporcionan regularmente, datos referidos a tasas oficiales de empleo, desocupación, subocupación y pobreza; entre otros.

Las bases de datos de EPH son un insumo indispensable para los informes y trabajos que se realizan en nuestra agencia. Sin embargo, para quien no esté familiarizado con su manejo, o solo quiera realizar alguna consulta puntual, su manejo puede suponer un alto costo de entrada. Por ejemplo, la que pueda realizar un estudiante motivado de una carrera de grado. Con el Manual EPH – Observatorio (y las bases de datos correspondientes) se ha buscado facilitar el acceso a las mismas, proponiendo un uso más más intuitivo.

Las bases EPH – Observatorio son presentadas en formato RDATA, es decir, para ser utilizadas en el programa de código libre R. El manual presenta una ficha como la que se muestra en la imagen anterior, para cada variable, de forma que la interpretación de la misma sea auto-conclusiva. Cada variable ha sido renombrada con un nombre no codificado, y etiquetada para que su significado pueda ser leído directamente desde la interfaz del programa. Lo mismo se ha hecho con los valores internos de cada variable. En vez de presentar números solo interpretables con el manual original de EPH, también se han etiquetado los significados de cada valor. Asimismo, se han incorporado nuevas variables, que se pueden clasificar en tres grupos:

Producto del cálculo de dos o más variables dentro de la base original
Producto del cruce con datos externos a EPH
Producto del desglose de clasificadores cerrados

Las bases y el manual van a estar disponibles en el apartado dedicado a la Encuesta Permanente de Hogares (EPH), como así también en el perfil del Repositorio Hipermedial de la UNR. Ambas van a recibir mantenimiento a medida que INDEC releve nuevos trimestres.

La pregunta sobre de quienes son nuestros datos, aún no está resuelta. Sin embargo, podemos invertir en facilitar el acceso a la que efectivamente ya está disponible, formar conciencia sobre lo que es un estándar deseable de información; y a partir de esa base, exigir medidas que sin inhibir las iniciativas de mejor y más información, vulneren privacidades y derechos. Esperamos con este pequeño aporte facilitar el trabajo de nuestros investigadores en el amplio campo de las ciencias sociales, con injerencia en datos poblacionales. Universidad pública, siempre.

Ver en Repositorio Hipermedial UNR
Bases para descargar de EPH-Observatorio para ser utilizadas en R:

Artículo

¿De quién son nuestros datos?

Ver en Repositorio Hipermedial UNR
Bases para descargar de EPH-Observatorio para ser utilizadas en R:

Datos abiertos

¿Qué es Puente Académico?

¿Qué es UNR I+D?

Suscripción a newsletter

Artículo

¿De quién son nuestros datos?

Ver en Repositorio Hipermedial UNR Bases para descargar de EPH-Observatorio para ser utilizadas en R:

Datos abiertos

¿Qué es Puente Académico?

¿Qué es UNR I+D?

Suscripción a newsletter

Ver en Repositorio Hipermedial UNR
Bases para descargar de EPH-Observatorio para ser utilizadas en R: