La verdadera promesa de los datos sintéticos
Los investigadores del MIT lanzan la Bóveda de Datos Sintéticos, un conjunto de herramientas de código abierto destinadas a ampliar el acceso a los datos sin comprometer la privacidad.
Cada año, el mundo genera más datos que el año anterior. Sólo en 2020, se estima que se «crearán, capturarán, copiarán y consumirán» 59 zettabytes de datos, según la Corporación Internacional de Datos, suficiente para llenar alrededor de un billón de discos duros de 64 gigabytes.
Pero sólo porque los datos estén proliferando no significa que todos puedan usarlos. Las empresas e instituciones, legítimamente preocupadas por la privacidad de sus usuarios, a menudo restringen el acceso a los conjuntos de datos – a veces dentro de sus propios equipos. Y ahora que la pandemia de Covid-19 ha cerrado laboratorios y oficinas, impidiendo que la gente visite los almacenes de datos centralizados, compartir información de manera segura es aún más difícil.
Sin acceso a los datos, es difícil crear herramientas que realmente funcionen. Introducir datos sintéticos: los desarrolladores e ingenieros de información artificial pueden usar como sustituto de los datos reales.
Los datos sintéticos son un poco como los refrescos dietéticos. Para ser efectivos, tienen que parecerse a los «reales» en ciertas formas. La gaseosa dietética debe verse, saber y burbujear como la gaseosa normal. Del mismo modo, un conjunto de datos sintéticos debe tener las mismas propiedades matemáticas y estadísticas que el conjunto de datos del mundo real que representa. «Se parece, y tiene un formato parecido», dice Kalyan Veeramachaneni, investigador principal del Laboratorio de Datos para la IA (DAI) y científico investigador principal del Laboratorio de Sistemas de Información y Decisión del MIT. Si se ejecuta a través de un modelo, o se utiliza para construir o probar una aplicación, se desempeña como lo harían los datos del mundo real.
Pero – así como la soda dietética debe tener menos calorías que la variedad regular – un conjunto de datos sintéticos también debe diferir de uno real en aspectos cruciales. Si se basa en un conjunto de datos reales, por ejemplo, no debe contener o incluso insinuar ninguna información de ese conjunto de datos.
Enhebrar esta aguja es difícil. Después de años de trabajo, Veeramachaneni y sus colaboradores revelaron recientemente un conjunto de herramientas de generación de datos de código abierto – una ventanilla única donde los usuarios pueden obtener tantos datos como necesiten para sus proyectos, en formatos desde tablas hasta series temporales. Lo llaman la Bóveda de Datos Sintéticos.
Maximizar el acceso manteniendo la privacidad
Veeramachaneni y su equipo intentaron crear datos sintéticos por primera vez en 2013. Se les había encomendado la tarea de analizar una gran cantidad de información del programa de aprendizaje en línea edX, y querían traer a algunos estudiantes del MIT para ayudar. Los datos eran sensibles, y no podían ser compartidos con estas nuevas contrataciones, así que el equipo decidió crear datos artificiales con los que los estudiantes pudieran trabajar en su lugar, pensando que «una vez que escribieran el software de procesamiento, podríamos usarlo en los datos reales», dice Veeramachaneni.
Este es un escenario común. Imagina que eres un desarrollador de software contratado por un hospital. Se le ha pedido que construya un tablero que permita a los pacientes acceder a los resultados de sus pruebas, recetas y otra información de salud. Pero no se le permite ver ningún dato real del paciente, porque es privado.
La mayoría de los desarrolladores en esta situación harán «una versión muy simplista» de los datos que necesitan, y harán lo mejor que puedan, dice Carles Sala, un investigador del laboratorio de AID. Pero cuando el tablero se pone en marcha, hay una buena posibilidad de que «todo se caiga», dice, «porque hay algunos casos límite que no estaban teniendo en cuenta».
Los datos sintéticos de alta calidad, tan complejos como lo que se pretende reemplazar, ayudarían a resolver este problema. Las empresas e instituciones podrían compartirlos libremente, permitiendo a los equipos trabajar de forma más colaborativa y eficiente. Los desarrolladores podrían incluso llevarlo en sus portátiles, sabiendo que no estaban poniendo en riesgo ninguna información sensible.
Perfeccionar la fórmula – y manejar las restricciones
En 2013, el equipo de Veeramachaneni se dio dos semanas para crear un fondo de datos que pudieran utilizar para ese proyecto edX. La línea de tiempo «parecía realmente razonable», dice Veeramachaneni. «Pero fallamos completamente». Pronto se dieron cuenta de que si construían una serie de generadores de datos sintéticos, podían hacer el proceso más rápido para todos los demás.
En 2016, el equipo completó un algoritmo que capta con precisión las correlaciones entre los diferentes campos en un conjunto de datos reales – piensa en la edad, la presión arterial y el ritmo cardíaco de un paciente – y crea un conjunto de datos sintéticos que preserva esas relaciones, sin ninguna información de identificación. Cuando se les pidió a los científicos de datos que resolvieran problemas usando estos datos sintéticos, sus soluciones fueron tan efectivas como las hechas con datos reales el 70 por ciento de las veces. El equipo presentó esta investigación en la Conferencia Internacional de Ciencia de Datos y Análisis Avanzado del IEEE en 2016.
Para el siguiente paso, el equipo profundizó en la caja de herramientas de aprendizaje automático. En 2019, el estudiante de doctorado Lei Xu presentó su nuevo algoritmo, CTGAN, en la 33ª Conferencia sobre Sistemas de Procesamiento de Información Neural en Vancouver. CTGAN (por «redes adversarias generativas tabulares condicionales») utiliza las GAN para construir y perfeccionar tablas de datos sintéticos. Las GANs son pares de redes neuronales que «juegan entre sí», dice Xu. La primera red, llamada generador, crea algo – en este caso, una fila de datos sintéticos – y la segunda, llamada discriminador, trata de decir si es real o no.
«Eventualmente, el generador puede generar [datos] perfectos, y el discriminador no puede decir la diferencia», dice Xu. Los GAN se usan más a menudo en la generación de imágenes artificiales, pero también funcionan bien para los datos sintéticos: CTGAN superó las técnicas clásicas de creación de datos sintéticos en el 85 por ciento de los casos probados en el estudio de Xu.
La similitud estadística es crucial. Pero dependiendo de lo que representan, los conjuntos de datos también vienen con su propio contexto y limitaciones vitales, que deben ser preservados en los datos sintéticos. El investigador del laboratorio de la AID, Sala, da el ejemplo del libro de contabilidad de un hotel: un huésped siempre se va después de registrarse. Las fechas en un conjunto de datos sintéticos de reservas de hotel también deben seguir esta regla: «Tienen que estar en el orden correcto», dice.
Los grandes conjuntos de datos pueden contener un número de diferentes relaciones como esta, cada una estrictamente definida. «Los modelos no pueden aprender las restricciones, porque éstas dependen mucho del contexto», dice Veeramachaneni. Así que el equipo ha finalizado recientemente una interfaz que permite a la gente decir a un generador de datos sintéticos dónde están esos límites. «Los datos se generan dentro de esas limitaciones», dice Veeramachaneni.
Esos datos precisos podrían ayudar a las empresas y organizaciones de muchos sectores diferentes. Un ejemplo es la banca, donde el aumento de la digitalización, junto con las nuevas normas de privacidad de datos, han «disparado un creciente interés en las formas de generar datos sintéticos», dice Wim Blommaert, jefe de equipo de los servicios financieros del ING. Las soluciones actuales, como el enmascaramiento de datos, a menudo destruyen información valiosa que los bancos podrían utilizar para tomar decisiones, dijo. Una herramienta como SDV tiene el potencial de esquivar los aspectos sensibles de los datos mientras preserva estas importantes limitaciones y relaciones.
Una bóveda para gobernarlos a todos
La Bóveda de Datos Sintéticos combina todo lo que el grupo ha construido hasta ahora en «todo un ecosistema», dice Veeramachaneni. La idea es que los interesados -desde estudiantes hasta desarrolladores de software profesionales- puedan venir a la bóveda y obtener lo que necesitan, ya sea una mesa grande, una pequeña cantidad de datos de series temporales, o una mezcla de muchos tipos de datos diferentes.
La bóveda es de código abierto y expandible. «Hay un montón de áreas diferentes en las que nos damos cuenta de que los datos sintéticos también pueden ser utilizados», dice Sala. Por ejemplo, si un grupo particular está subrepresentado en un conjunto de datos de muestra, los datos sintéticos pueden ser usados para llenar esos vacíos – un esfuerzo sensible que requiere mucha delicadeza. O las empresas también pueden querer usar los datos sintéticos para planificar escenarios que aún no han experimentado, como un gran aumento en el tráfico de usuarios.
A medida que los casos de uso sigan apareciendo, se desarrollarán más herramientas y se añadirán a la bóveda, dice Veeramachaneni. Puede que ocupe al equipo durante otros siete años por lo menos, pero están listos: «Sólo estamos tocando la punta del iceberg».