Los investigadores del MIT lanzan la Bóveda de Datos Sintéticos, un conjunto de herramientas de código abierto destinadas a ampliar el acceso a los datos sin comprometer la privacidad.
Cada año, el mundo genera más datos que el año anterior. Sólo en 2020, se estima que se «crearán, capturarán, copiarán y consumirán» 59 zettabytes de datos, según la Corporación Internacional de Datos, suficiente para llenar alrededor de un billón de discos duros de 64 gigabytes.
Pero sólo porque los datos estén proliferando no significa que todos puedan usarlos. Las empresas e instituciones, legítimamente preocupadas por la privacidad de sus usuarios, a menudo restringen el acceso a los conjuntos de datos – a veces dentro de sus propios equipos. Y ahora que la pandemia de Covid-19 ha cerrado laboratorios y oficinas, impidiendo que la gente visite los almacenes de datos centralizados, compartir información de manera segura es aún más difícil.
Sin acceso a los datos, es difícil crear herramientas que realmente funcionen. Introducir datos sintéticos: los desarrolladores e ingenieros de información artificial pueden usar como sustituto de los datos reales.
Los datos sintéticos son un poco como los refrescos dietéticos. Para ser efectivos, tienen que parecerse a los «reales» en ciertas formas. La gaseosa dietética debe verse, saber y burbujear como la gaseosa normal. Del mismo modo, un conjunto de datos sintéticos debe tener las mismas propiedades matemáticas y estadísticas que el conjunto de datos del mundo real que representa. «Se parece, y tiene un formato parecido», dice Kalyan Veeramachaneni, investigador principal del Laboratorio de Datos para la IA (DAI) y científico investigador principal del Laboratorio de Sistemas de Información y Decisión del MIT. Si se ejecuta a través de un modelo, o se utiliza para construir o probar una aplicación, se desempeña como lo harían los datos del mundo real.
Pero – así como la soda dietética debe tener menos calorías que la variedad regular – un conjunto de datos sintéticos también debe diferir de uno real en aspectos cruciales. Si se basa en un conjunto de datos reales, por ejemplo, no debe contener o incluso insinuar ninguna información de ese conjunto de datos.
Enhebrar esta aguja es difícil. Después de años de trabajo, Veeramachaneni y sus colaboradores revelaron recientemente un conjunto de herramientas de generación de datos de código abierto – una ventanilla única donde los usuarios pueden obtener tantos datos como necesiten para sus proyectos, en formatos desde tablas hasta series temporales. Lo llaman la Bóveda de Datos Sintéticos.
Maximizar el acceso manteniendo la privacidad
Veeramachaneni y su equipo intentaron crear datos sintéticos por primera vez en 2013. Se les había encomendado la tarea de analizar una gran cantidad de información del programa de aprendizaje en línea edX, y querían traer a algunos estudiantes del MIT para ayudar. Los datos eran sensibles, y no podían ser compartidos con estas nuevas contrataciones, así que el equipo decidió crear datos artificiales con los que los estudiantes pudieran trabajar en su lugar, pensando que «una vez que escribieran el software de procesamiento, podríamos usarlo en los datos reales», dice Veeramachaneni.
Este es un escenario común. Imagina que eres un desarrollador de software contratado por un hospital. Se le ha pedido que construya un tablero que permita a los pacientes acceder a los resultados de sus pruebas, recetas y otra información de salud. Pero no se le permite ver ningún dato real del paciente, porque es privado.
La mayoría de los desarrolladores en esta situación harán «una versión muy simplista» de los datos que necesitan, y harán lo mejor que puedan, dice Carles Sala, un investigador del laboratorio de AID. Pero cuando el tablero se pone en marcha, hay una buena posibilidad de que «todo se caiga», dice, «porque hay algunos casos límite que no estaban teniendo en cuenta».
Los datos sintéticos de alta calidad, tan complejos como lo que se pretende reemplazar, ayudarían a resolver este problema. Las empresas e instituciones podrían compartirlos libremente, permitiendo a los equipos trabajar de forma más colaborativa y eficiente. Los desarrolladores podrían incluso llevarlo en sus portátiles, sabiendo que no estaban poniendo en riesgo ninguna información sensible.
Perfeccionar la fórmula – y manejar las restricciones
En 2013, el equipo de Veeramachaneni se dio dos semanas para crear un fondo de datos que pudieran utilizar para ese proyecto edX. La línea de tiempo «parecía realmente razonable», dice Veeramachaneni. «Pero fallamos completamente». Pronto se dieron cuenta de que si construían una serie de generadores de datos sintéticos, podían hacer el proceso más rápido para todos los demás.
En 2016, el equipo completó un algoritmo que capta con precisión las correlaciones entre los diferentes campos en un conjunto de datos reales – piensa en la edad, la presión arterial y el ritmo cardíaco de un paciente – y crea un conjunto de datos sintéticos que preserva esas relaciones, sin ninguna información de identificación. Cuando se les pidió a los científicos de datos que resolvieran problemas usando estos datos sintéticos, sus soluciones fueron tan efectivas como las hechas con datos reales el 70 por ciento de las veces. El equipo presentó esta investigación en la Conferencia Internacional de Ciencia de Datos y Análisis Avanzado del IEEE en 2016.
Para el siguiente paso, el equipo profundizó en la caja de herramientas de aprendizaje automático. En 2019, el estudiante de doctorado Lei Xu presentó su nuevo algoritmo, CTGAN, en la 33ª Conferencia sobre Sistemas de Procesamiento de Información Neural en Vancouver. CTGAN (por «redes adversarias generativas tabulares condicionales») utiliza las GAN para construir y perfeccionar tablas de datos sintéticos. Las GANs son pares de redes neuronales que «juegan entre sí», dice Xu. La primera red, llamada generador, crea algo – en este caso, una fila de datos sintéticos – y la segunda, llamada discriminador, trata de decir si es real o no.
«Eventualmente, el generador puede generar [datos] perfectos, y el discriminador no puede decir la diferencia», dice Xu. Los GAN se usan más a menudo en la generación de imágenes artificiales, pero también funcionan bien para los datos sintéticos: CTGAN superó las técnicas clásicas de creación de datos sintéticos en el 85 por ciento de los casos probados en el estudio de Xu.
La similitud estadística es crucial. Pero dependiendo de lo que representan, los conjuntos de datos también vienen con su propio contexto y limitaciones vitales, que deben ser preservados en los datos sintéticos. El investigador del laboratorio de la AID, Sala, da el ejemplo del libro de contabilidad de un hotel: un huésped siempre se va después de registrarse. Las fechas en un conjunto de datos sintéticos de reservas de hotel también deben seguir esta regla: «Tienen que estar en el orden correcto», dice.
Los grandes conjuntos de datos pueden contener un número de diferentes relaciones como esta, cada una estrictamente definida. «Los modelos no pueden aprender las restricciones, porque éstas dependen mucho del contexto», dice Veeramachaneni. Así que el equipo ha finalizado recientemente una interfaz que permite a la gente decir a un generador de datos sintéticos dónde están esos límites. «Los datos se generan dentro de esas limitaciones», dice Veeramachaneni.
Esos datos precisos podrían ayudar a las empresas y organizaciones de muchos sectores diferentes. Un ejemplo es la banca, donde el aumento de la digitalización, junto con las nuevas normas de privacidad de datos, han «disparado un creciente interés en las formas de generar datos sintéticos», dice Wim Blommaert, jefe de equipo de los servicios financieros del ING. Las soluciones actuales, como el enmascaramiento de datos, a menudo destruyen información valiosa que los bancos podrían utilizar para tomar decisiones, dijo. Una herramienta como SDV tiene el potencial de esquivar los aspectos sensibles de los datos mientras preserva estas importantes limitaciones y relaciones.
Una bóveda para gobernarlos a todos
La Bóveda de Datos Sintéticos combina todo lo que el grupo ha construido hasta ahora en «todo un ecosistema», dice Veeramachaneni. La idea es que los interesados -desde estudiantes hasta desarrolladores de software profesionales- puedan venir a la bóveda y obtener lo que necesitan, ya sea una mesa grande, una pequeña cantidad de datos de series temporales, o una mezcla de muchos tipos de datos diferentes.
La bóveda es de código abierto y expandible. «Hay un montón de áreas diferentes en las que nos damos cuenta de que los datos sintéticos también pueden ser utilizados», dice Sala. Por ejemplo, si un grupo particular está subrepresentado en un conjunto de datos de muestra, los datos sintéticos pueden ser usados para llenar esos vacíos – un esfuerzo sensible que requiere mucha delicadeza. O las empresas también pueden querer usar los datos sintéticos para planificar escenarios que aún no han experimentado, como un gran aumento en el tráfico de usuarios.
A medida que los casos de uso sigan apareciendo, se desarrollarán más herramientas y se añadirán a la bóveda, dice Veeramachaneni. Puede que ocupe al equipo durante otros siete años por lo menos, pero están listos: «Sólo estamos tocando la punta del iceberg».
Entrevistas robóticas, aprendizaje automático y el futuro del reclutamiento de la fuerza de trabajo.
Esto afectaría a todos los aspectos de las funciones de RR.HH. como la forma en que los profesionales de RR.HH. se embarcan y contratan a la gente, y la forma en que los entrenan.
La inteligencia artificial (IA) está cambiando todos los aspectos de nuestras vidas y eso también a un ritmo rápido. Esto incluye también nuestras vidas profesionales. Los expertos esperan que en los próximos días, la IA se convierta en una parte más importante de nuestras carreras ya que todas las empresas están avanzando en la adopción de dicha tecnología. Están usando más máquinas que usan tecnología de IA que afectaría nuestras actividades profesionales diarias. Muy pronto, veríamos el aprendizaje de la máquina y el aprendizaje profundo en RRHH también. Afectaría a todos los aspectos de RRHH (recursos humanos) como la forma en que los profesionales de RRHH se embarcan y contratan a la gente, y la forma en que los entrenan.
Impacto en la incorporación y el reclutamiento
Las empresas también están utilizando el aprendizaje automático y el aprendizaje profundo en recursos humanos para ayudar a proporcionar formación en el trabajo a los empleados. Sólo porque hayas conseguido un trabajo y te hayas establecido en él, no significa que lo sepas todo. Necesitas obtener capacitación relacionada con el trabajo para que puedas seguir mejorando. Aquí es donde los expertos esperan que la IA juegue un papel importante en los próximos años. También ayudará a una generación de profesionales de una organización a transferir sus habilidades a sus sucesores. Esto asegurará que ninguna empresa sufra nunca de falta de habilidades. Aumento de la fuerza de trabajo La robótica en los recursos humanos desempeñará un papel importante en el mejoramiento de las personas que trabajan en las organizaciones en las que la dirección aplica esa tecnología. Una de las principales razones por las que la gente tiene tanto miedo de usar la IA en una organización es que sienten que les sustituiría y que harían todo lo que pueden hacer ahora. Esto, en consecuencia, provocará la pérdida de puestos de trabajo. Sin embargo, en el escenario actual, la IA se trata de aumentar esa fuerza de trabajo. Esto significa que le ayudaría a realizar su trabajo con mayor eficiencia. Contrariamente a la opinión popular, no te reemplazaría.
Vigilancia del lugar de trabajo
Las empresas también pueden utilizar el aprendizaje automático y el aprendizaje profundo en RRHH para mejorar su trabajo de vigilancia de la fuerza de trabajo. Esto es incómodo para varios empleados ya que sienten que dicha tecnología invadiría la privacidad de su lugar de trabajo. Recientemente, Gartner realizó una encuesta en la que encontró que más de la mitad de las empresas con una facturación anual superior a los 750 millones de dólares utilizan herramientas digitales para obtener datos sobre las actividades de sus empleados y supervisar su rendimiento general. Como parte de esto, analizan sus correos electrónicos para averiguar cuán comprometidos y contentos están con su trabajo.
El uso de los robots del lugar de trabajo
Aparte de la robótica en RRHH, las empresas hoy en día también utilizan robots físicos que pueden moverse por sí mismos. Esto es especialmente cierto para las empresas de almacenamiento y fabricación. Los expertos esperan que pronto esto se convierta en una característica común en muchos otros lugares de trabajo también. Las empresas especializadas en movilidad están creando robots de entrega que pueden moverse por el lugar de trabajo y entregar los artículos directamente a su escritorio. Las empresas tecnológicas también están desarrollando robots de seguridad. Los expertos creen que se convertirían en algo común porque pueden garantizar la seguridad de las propiedades comerciales contra los intrusos. Las empresas también están desarrollando software para ayudarte a aparcar tus coches en tu oficina.
Por: Kathryn Mayer | 10 de agosto, 2020
Cuando COVID-19 apareció por primera vez en enero, Jo Deal, director de recursos humanos de la empresa de software LogMeIn, comenzó a reunirse diariamente con el director ejecutivo y el asesor general de la empresa sobre la situación. Sus preguntas originales eran logísticas y basadas en escenarios: ¿Dejamos que la gente viaje? ¿Qué sucede con los empleados que regresan de una conferencia?
Las cosas progresaron rápidamente a medida que aumentaba el número de casos y la Organización Mundial de la Salud declaró al COVID-19 como una pandemia en marzo. Cuando eso sucedió, Deal comenzó a reunirse con el director ejecutivo y el asesor general sobre la crisis que se avecinaba tres o cuatro veces al día.
«Las cosas se movían muy rápido en ese momento», dice. «Todavía nos reunimos a diario, aunque muchos meses después».
Aunque las primeras conversaciones giraban en torno a la logística (por ejemplo, qué empleados trabajarían desde casa y cuál era la mejor manera de trasladar a los trabajadores de forma remota, por ejemplo), las preguntas evolucionaron rápidamente a asuntos más personales: ¿Cómo ayudamos a los empleados? ¿Cómo se sienten? ¿Qué podemos hacer?
“Hablamos mucho sobre flexibilidad y empatía y trabajamos con nuestros líderes para capacitarlos para tratar de conocer a la gente donde están”, dice Deal. «Y, realmente, todos los días, simplemente sobrevive».
Meses después de la pandemia del coronavirus, los líderes de recursos humanos han sido una voz clara y resonante para sus empresas. Son socios importantes para los ejecutivos C-suite, liderando el camino en iniciativas como trasladar a los trabajadores a lugares remotos y repensar las ofertas de beneficios.
«RR.HH. está desempeñando el papel que siempre ha desempeñado, pero lo está desempeñando de manera exponencial», dice Jill Smart, presidenta de la Academia Nacional de Recursos Humanos y ex CHRO del gigante de consultoría Accenture. “Y como lo están haciendo tan bien, creo que la profesión de RR.HH. saldrá de esto [más fuerte] porque van a tener un papel clave”.
La pandemia ha otorgado a los ejecutivos de RR.HH. roles clave elevados en sus organizaciones y una voz prominente en medio de la agitación, pero también se han convertido en una fuente importante sobre cómo tratar a los empleados, continuar con la cultura y liderar el camino en un momento en que los empleados están experimentando colectivamente más conmoción en su vida personal y profesional que nunca.
El rol de los líderes de RR.HH. en las organizaciones históricamente ha estado centrado en la organización: mantener el cumplimiento, mitigar el riesgo, hacer cumplir las políticas. Los empleados tradicionalmente no se sienten cómodos con los líderes de recursos humanos.
Muchos CHRO insisten en que los líderes de RR.HH. experimentados han caminado durante mucho tiempo la línea entre ser el aliado de los empleados y la organización. Pero también reconocen que una triple amenaza de crisis (la pandemia, el malestar social y la consiguiente agitación económica) los está impulsando a centrarse más en los empleados que nunca. Se centran en la conexión, la empatía y la salud mental de los empleados. Y es hora de hundirse o nadar para los líderes de recursos humanos que no habían priorizado el bienestar de los empleados en el pasado.
Archivos
- enero 2025
- diciembre 2024
- noviembre 2024
- octubre 2024
- septiembre 2024
- agosto 2024
- julio 2024
- junio 2024
- mayo 2024
- abril 2024
- marzo 2024
- enero 2024
- noviembre 2023
- octubre 2023
- septiembre 2023
- agosto 2023
- junio 2023
- mayo 2023
- abril 2023
- marzo 2023
- febrero 2023
- noviembre 2022
- octubre 2022
- septiembre 2022
- agosto 2022
- julio 2022
- junio 2022
- mayo 2022
- abril 2022
- marzo 2022
- enero 2022
- diciembre 2021
- noviembre 2021
- septiembre 2021
- junio 2021
- mayo 2021
- abril 2021
- marzo 2021
- febrero 2021
- enero 2021
- diciembre 2020
- noviembre 2020
- octubre 2020
- septiembre 2020
- agosto 2020
- julio 2020
- junio 2020
- mayo 2020
- abril 2020
- marzo 2020
- febrero 2020
- enero 2020
- diciembre 2019
- septiembre 2019
- agosto 2019
- julio 2019
- junio 2019
- mayo 2019
- marzo 2019
- febrero 2019
- enero 2019
- diciembre 2018
- noviembre 2018
- octubre 2018
- septiembre 2018
- agosto 2018
- julio 2018
- junio 2018
- mayo 2018
- abril 2018
- marzo 2018
- enero 2018
- diciembre 2017
- agosto 2017
- julio 2017
- febrero 2017