La ciencia busca las leyes básicas de la naturaleza. Las matemáticas buscan nuevos teoremas que se basen en los antiguos. La ingeniería construye sistemas para resolver las necesidades humanas. Las tres disciplinas son interdependientes pero distintas. Es muy raro que una persona haga simultáneamente contribuciones fundamentales a las tres, pero Claude Shannon era una persona rara.
A pesar de ser el protagonista del reciente documental The Bit Player -y de que su trabajo y filosofía de investigación han inspirado mi propia carrera- Shannon no es precisamente un nombre conocido. Nunca ganó un Premio Nobel y no era una celebridad como Albert Einstein o Richard Feynman, ni antes ni después de su muerte en 2001. Pero hace más de 70 años, en un único e innovador artículo, sentó las bases de toda la infraestructura de comunicación que subyace a la era moderna de la información.
Shannon nació en Gaylord, Michigan, en 1916, hijo de un empresario local y una profesora. Tras licenciarse en ingeniería eléctrica y matemáticas por la Universidad de Michigan, escribió una tesis de máster en el Instituto Tecnológico de Massachusetts que aplicaba una disciplina matemática llamada álgebra de Boole al análisis y la síntesis de circuitos de conmutación. Fue un trabajo transformador, que convirtió el diseño de circuitos de un arte a una ciencia, y ahora se considera que fue el punto de partida del diseño de circuitos digitales.
A continuación, Shannon puso la mira en un objetivo aún mayor: la comunicación.
Claude Shannon escribió una tesis de maestría que puso en marcha el diseño de circuitos digitales, y una década más tarde escribió su documento seminal sobre la teoría de la información, «Una teoría matemática de la comunicación».
La comunicación es una de las necesidades humanas más básicas. Desde las señales de humo hasta las palomas mensajeras, pasando por el teléfono y la televisión, el ser humano siempre ha buscado métodos que le permitieran comunicarse más lejos, más rápido y de forma más fiable. Pero la ingeniería de los sistemas de comunicación siempre estuvo ligada a la fuente y el medio físico específicos. Shannon, en cambio, se preguntó: «¿Existe una gran teoría unificada para la comunicación?». En una carta de 1939 a su mentor, Vannevar Bush, Shannon esbozó algunas de sus ideas iniciales sobre «las propiedades fundamentales de los sistemas generales para la transmisión de inteligencia». Tras trabajar en el problema durante una década, Shannon publicó finalmente su obra maestra en 1948: «Una teoría matemática de la comunicación».
El núcleo de su teoría es un modelo sencillo pero muy general de comunicación: Un transmisor codifica la información en una señal, que es corrompida por el ruido y decodificada por el receptor. A pesar de su simplicidad, el modelo de Shannon incorpora dos ideas clave: aislar las fuentes de información y de ruido del sistema de comunicación que se va a diseñar, y modelar ambas fuentes de forma probabilística. Imaginó que la fuente de información generaba uno de los muchos mensajes posibles para comunicar, cada uno de los cuales tenía una determinada probabilidad. El ruido probabilístico añadía más aleatoriedad para que el receptor pudiera desentrañar.
Antes de Shannon, el problema de la comunicación se consideraba principalmente un problema de reconstrucción de señales deterministas: cómo transformar una señal recibida, distorsionada por el medio físico, para reconstruir el original con la mayor precisión posible. La genialidad de Shannon reside en su observación de que la clave de la comunicación es la incertidumbre. Al fin y al cabo, si supiera de antemano lo que le voy a decir en esta columna, ¿qué sentido tendría escribirla?
Diagrama esquemático del modelo de comunicación de Shannon, extraído de su documento.
Esta única observación desplazó el problema de la comunicación de lo físico a lo abstracto, permitiendo a Shannon modelar la incertidumbre utilizando la probabilidad. Esto supuso un shock total para los ingenieros de comunicación de la época.
En este marco de incertidumbre y probabilidad, Shannon se propuso determinar sistemáticamente el límite fundamental de la comunicación. Su respuesta se divide en tres partes. El concepto de «bit» de información, utilizado por Shannon como unidad básica de incertidumbre, desempeña un papel fundamental en las tres. Un bit, que es una abreviatura de «dígito binario», puede ser un 1 o un 0, y el documento de Shannon es el primero en utilizar la palabra (aunque él dijo que el matemático John Tukey la utilizó primero en un memorando).
En primer lugar, Shannon ideó una fórmula para el número mínimo de bits por segundo para representar la información, un número que denominó tasa de entropía, H. Este número cuantifica la incertidumbre que supone determinar qué mensaje generará la fuente. Cuanto menor sea la tasa de entropía, menor será la incertidumbre y, por tanto, más fácil será comprimir el mensaje en algo más corto. Por ejemplo, enviar mensajes de texto a un ritmo de 100 letras inglesas por minuto significa enviar uno de los 26100 mensajes posibles cada minuto, cada uno representado por una secuencia de 100 letras. Se podrían codificar todas estas posibilidades en 470 bits, ya que 2470 ≈ 26100. Si las secuencias fueran igualmente probables, la fórmula de Shannon diría que la tasa de entropía es efectivamente de 470 bits por minuto. En realidad, algunas secuencias son mucho más probables que otras, y la tasa de entropía es mucho menor, lo que permite una mayor compresión.
En segundo lugar, proporcionó una fórmula para el número máximo de bits por segundo que pueden comunicarse de forma fiable frente al ruido, que denominó capacidad del sistema, C. Se trata de la velocidad máxima a la que el receptor puede resolver la incertidumbre del mensaje, lo que la convierte en el límite de velocidad de la comunicación.
Por último, demostró que la comunicación fiable de la información de la fuente frente al ruido es posible si y sólo si H < C. Así, la información es como el agua: Si el caudal es inferior a la capacidad de la tubería, la corriente pasa de forma fiable.
Aunque se trata de una teoría de la comunicación, es, al mismo tiempo, una teoría de cómo se produce y transfiere la información: una teoría de la información. Por eso Shannon es considerado hoy «el padre de la teoría de la información».
Sus teoremas condujeron a algunas conclusiones contraintuitivas. Supongamos que usted está hablando en un lugar muy ruidoso. ¿Cuál es la mejor manera de asegurarse de que su mensaje llega? ¿Quizás repetirlo muchas veces? Ése es sin duda el primer instinto de cualquiera en un restaurante ruidoso, pero resulta que no es muy eficaz. Seguro que cuantas más veces te repitas, más fiable será la comunicación. Pero has sacrificado la velocidad por la fiabilidad. Shannon nos mostró que podemos hacerlo mucho mejor. Repetir un mensaje es un ejemplo de utilizar un código para transmitir un mensaje, y utilizando códigos diferentes y más sofisticados, se puede comunicar rápidamente – hasta el límite de velocidad, C – manteniendo cualquier grado de fiabilidad.
Otra conclusión inesperada que se desprende de la teoría de Shannon es que, sea cual sea la naturaleza de la información (un soneto de Shakespeare, una grabación de la Quinta Sinfonía de Beethoven o una película de Kurosawa), siempre es más eficaz codificarla en bits antes de transmitirla. Así, en un sistema de radio, por ejemplo, aunque tanto el sonido inicial como la señal electromagnética enviada por el aire son formas de onda analógicas, los teoremas de Shannon implican que lo óptimo es digitalizar primero la onda sonora en bits, y luego mapear esos bits en la onda electromagnética. Este sorprendente resultado es la piedra angular de la moderna era de la información digital, en la que el bit reina como moneda universal de la información.
Shannon también tenía un lado lúdico, que a menudo llevaba a su trabajo. Aquí, posa con un laberinto que construyó para un ratón electrónico, llamado Theseus.
La teoría general de la comunicación de Shannon es tan natural que es como si hubiera descubierto las leyes de la comunicación del universo, en lugar de inventarlas. Su teoría es tan fundamental como las leyes físicas de la naturaleza. En ese sentido, era un científico.
Shannon inventó nuevas matemáticas para describir las leyes de la comunicación. Introdujo nuevas ideas, como la tasa de entropía de un modelo probabilístico, que se han aplicado en ramas matemáticas de gran alcance, como la teoría ergódica, el estudio del comportamiento a largo plazo de los sistemas dinámicos. En ese sentido, Shannon era un matemático.
Pero, sobre todo, Shannon era un ingeniero. Su teoría estaba motivada por problemas prácticos de ingeniería. Y aunque era esotérica para los ingenieros de su época, la teoría de Shannon se ha convertido en el marco estándar en el que se basan todos los sistemas de comunicación modernos: ópticos, submarinos e incluso interplanetarios. Personalmente, he tenido la suerte de formar parte de un esfuerzo mundial por aplicar y ampliar la teoría de Shannon a la comunicación inalámbrica, aumentando la velocidad de las comunicaciones en dos órdenes de magnitud a lo largo de múltiples generaciones de estándares. De hecho, el estándar 5G que se está implantando actualmente utiliza no uno, sino dos códigos prácticos probados para alcanzar el límite de velocidad de Shannon.
Aunque Shannon murió en 2001, su legado sigue vivo en la tecnología que conforma nuestro mundo moderno y en los dispositivos que creó, como este autobús teledirigido
Shannon descubrió la base de todo esto hace más de 70 años. ¿Cómo lo hizo? Centrándose implacablemente en la característica esencial de un problema e ignorando todos los demás aspectos. La simplicidad de su modelo de comunicación es una buena ilustración de este estilo. También sabía centrarse en lo que es posible, más que en lo que es inmediatamente práctico.
El trabajo de Shannon ilustra el verdadero papel de la ciencia de alto nivel. Cuando empecé a estudiar en la universidad, mi asesor me dijo que el mejor trabajo era podar el árbol del conocimiento, en lugar de hacerlo crecer. Entonces no sabía qué pensar de este mensaje; siempre pensé que mi trabajo como investigador era añadir mis propias ramitas. Pero a lo largo de mi carrera, cuando tuve la oportunidad de aplicar esta filosofía en mi propio trabajo, empecé a entenderlo.
Cuando Shannon empezó a estudiar la comunicación, los ingenieros ya tenían una gran colección de técnicas. Fue su trabajo de unificación el que podó todas estas ramitas de conocimiento en un único árbol coherente y encantador, que ha dado sus frutos a generaciones de científicos, matemáticos e ingenieros.
Aunque el primer director de datos se contrató hace casi 20 años, muchas organizaciones están empezando a darse cuenta del valor de los datos y buscan a alguien que supervise sus operaciones de datos.
La función de director de datos se desarrolló cuando las organizaciones empezaron a darse cuenta del valor de los datos.
Capital One contrató al primer Chief Data Officer (CDO) conocido en 2002, pero hasta hace 10 años esta función seguía siendo bastante rara. Desde entonces, sin embargo, las organizaciones se han dado cuenta de que los datos son un activo, y muchas han tomado medidas para maximizar su valor, incluyendo la contratación de un director de datos.
La necesidad de un director de datos surgió porque, cuando las organizaciones comenzaron el proceso de obtener valor de los datos, éstos solían estar desorganizados. Por lo tanto, las organizaciones necesitaban a alguien que supervisara la tarea, a veces monumental, de unir datos de fuentes dispares y convertirlos en una herramienta funcional para impulsar el proceso de toma de decisiones.
En los años transcurridos desde entonces, la función se ha hecho más común, y la responsabilidad del director de datos es permitir que las organizaciones obtengan el máximo valor de sus datos.
Un estudio de NewVantage Partners publicado en enero de 2021 reveló que el 76 % de lo que denominó empresas de primer orden –grandes corporaciones como American Express, Bank of America, Capital One, Cigna, JPMorgan Chase, Liberty Mutual, Mastercard, McDonalds, Visa y Walmart– tienen ahora directores de datos y/o directores de análisis, frente al 12 % en 2012 y el 65 % en 2020.
Pero mientras que las grandes empresas, y sectores enteros como los servicios financieros, han estado a la vanguardia de la contratación de directores de datos, otros, como las organizaciones educativas, están empezando a reconocer la importancia de la función y a incorporar directores de datos a sus plantillas. La misma encuesta de NewVantage Partners reveló que solo el 24,4 % de los encuestados afirma haber forjado una cultura de datos y el 24 % dice haber creado una organización basada en los datos.
La pandemia, por su parte, ha puesto de manifiesto el valor de los datos.
Recientemente, Cindi Howson, directora de estrategia de datos del proveedor de análisis ThoughtSpot y presentadora del podcast The Data Chief, se tomó el tiempo de hablar sobre el papel del director de datos. En una entrevista, explica cómo se originó la función, cómo ha evolucionado desde entonces y hacia dónde puede dirigirse.
¿Cuáles son las responsabilidades de un director de datos?
Cindi Howson: Un director de datos es una persona que, en la primera generación, puso en orden la casa de datos de una empresa, reuniendo los datos bajo un paraguas en lugar de en silos, asegurándose de que estuvieran seguros. El cambio, una vez que la empresa ha hecho eso, es obtener valor de sus datos. En este punto, a veces se produce una bifurcación de funciones entre el director de datos y el director de análisis. Incluso vemos que algunos combinan estos términos para convertir a alguien en un CDAO [chief data and analytics officer]. Pero la cuestión es obtener valor empresarial de los datos.
¿Qué diferencia hay entre un director de datos y un director de análisis?
Howson: Si pensamos que el objetivo de los datos es extraer valor de ellos, no debería haber ninguna diferencia. Yo los veo como una misma cosa. Se trata de una maduración del papel: un CDO maduro es el director de análisis. Dicho esto, hay algunas organizaciones en las que el director de análisis se ocupa mucho más del lado de la ciencia de los datos de las organizaciones, pero en última instancia el director de análisis debería ser responsable de organizar los datos, salvaguardarlos, aplicarlos al valor del negocio y crear productos de datos. Si no lo están haciendo, será mejor que lo haga otro.
¿Cuándo empezó a surgir el papel de director de datos y por qué?
Howson: Algunos de los primeros directores de datos se encontraban en los servicios financieros, en algunas de las empresas de tarjetas de crédito, y se dieron cuenta de que estaban recogiendo muchos datos, pero estaban aislados y el departamento de TI los controlaba y los almacenaba y capturaba. Pero limpiarlos y hacerlos utilizables requería un conjunto de habilidades ligeramente diferente. Por eso también se está viendo que las líneas de información del CDO cambian con el tiempo. Originalmente, la función surgió de TI –y muchos CDO todavía dependen del CIO–, pero cada vez se ve más que el CDO
depende del CEO o del director digital.
¿Qué tan común es esta función ahora?
Howson: Depende de la encuesta que se mire, y algunos sectores están mucho más maduros. En general, si miro todas las encuestas –Bain, Gartner, NewVantage Partners– diría que dos tercios de las organizaciones con muchos datos tienen un CDO. Pero hay algunas empresas grandes, multimillonarias, que no tienen un CDO. He visto que Peloton está contratando a su primer CDO, y mira su crecimiento en el último año. El año pasado, fue la primera vez que el CDC dijo que necesitaba un CDO; su casa de datos definitivamente no está en orden. Y ahora, en los últimos años, todas las agencias federales tienen su propio CDO, pero si nos remontamos a cinco años atrás eso no existía.
¿Qué organizaciones necesitan un director de datos y cuáles pueden prescindir de él?
Howson: Creo que todas las empresas que quieren estar orientadas a los datos necesitan un CDO, pero ¿las empresas que no están orientadas a los datos van a sobrevivir? Si nos preguntamos si una organización más pequeña necesita un CDO, esa responsabilidad puede residir en alguien que desempeñe una doble función. En un restaurante, podría ser el director de operaciones, o podrían tenerlo externalizado a través de una agencia que proporcione un CDO virtual. Todos necesitan datos. Puede que no tengan a alguien con el título de CDO, pero tendrán a alguien que tenga la responsabilidad de almacenar los datos, protegerlos y luego extraer valor de ellos.
Antes ha mencionado los sectores: ¿hay algunos sectores en los que se contratan más directores de datos que en otros?
Howson: Casi coincide con la madurez de los datos y el análisis de la industria. Si pensamos en los servicios financieros y en los viajes, ambos son sectores con gran cantidad de datos y tienden a tener directores de datos. En el otro extremo del espectro, los sectores menos maduros en cuanto a datos y análisis tienden, por desgracia, a ser los más importantes, como el de la educación y el de los proveedores de servicios sanitarios, que son muy diferentes de los pagadores de servicios sanitarios. Los pagadores de seguros son más maduros, pero los proveedores como los grandes sistemas hospitalarios –la
Clínica Mayo acaba de contratar a su primer CDO, por ejemplo– no lo son.
¿Qué es lo que un director de datos permite hacer a una organización con sus datos que no puede hacer una organización sin un director de datos?
Howson: Aquí es donde el CDO es un conector y un colaborador. Cuando se piensa en la captura de datos, está muy aislada. Tomemos como ejemplo una gran organización minorista. El comercio minorista es un sector muy rico en datos, pero tiene a los departamentos de ventas y marketing haciendo campañas publicitarias y de marketing, y luego tiene a los gestores de la cadena de suministro, a los comercializadores y a los sistemas de gestión de personal, y todos estos sistemas operativos están separados. Ahora, imagina que quieres intentar averiguar cómo dotar de personal a un almacén o a una entrega de comercio electrónico frente a cómo dotar de personal a las tiendas físicas. Tendrá que buscar en todos esos silos para averiguar la demanda, ver dónde se encuentran los empleados, averiguar si hay que hacer un anuncio y, si lo hace, averiguar si hay suficiente producto disponible. Necesitas esos datos en un lugar común, y si no los tuvieras nunca obtendrías ninguna visibilidad, ya sea una visión de 360 grados de los clientes, análisis de la cadena de suministro o análisis de la mano de obra.
¿Siguen existiendo obstáculos que los directores de datos tienen que superar en sus funciones o los directores de datos son ya aceptados en algunas partes de la jerarquíaorganizativa?
Howson: Ser un CDO es a la vez el mejor trabajo y el peor. Es el mejor trabajo porque el mundo se ha dado cuenta de la importancia absoluta de los datos para nuestra sociedad y para todas las empresas. Algunas personas con visión de futuro se han dado cuenta de ello en los últimos años, pero la pandemia, desde el punto de vista de las operaciones empresariales hasta el punto de vista de la atención sanitaria, ha lanzado los datos al centro del escenario. No se puede encender la televisión o leer un periódico donde no se hable de datos en algún contexto. Esto es una buena noticia para los CDO.
La mala noticia es que es uno de los trabajos más difíciles. Tienes que conocer la tecnología, hay grandes riesgos en las implicaciones y tienes que conocer el negocio. La empresa te empuja a hacer más, más rápido, y pide a los CDO que rompan las barreras, innoven y asuman riesgos. Pero el departamento de TI dice: «Vaya, esto es peligroso», por lo que se les presiona desde ambos lados, y creo que los CDO se agotan y se machacan, por lo que es un papel con mucha rotación.
¿Cuál es el panorama de los directores de datos? ¿Se convertirá en una función tan común como la del director financiero u otra función de la dirección?
Howson: Si eres una organización nativa digital, ¿tendrás realmente una función de CDO? Por ejemplo, acabo de tener como invitado en mi podcast al director de algoritmos, que es un avance del director de análisis, de Daily Harvest. Ellos no tienen un CDO formal. Necesita datos para crear los algoritmos. Es solo parte del proceso, y tal vez su casa de datos estaba en orden desde el principio en lugar de tenerlo construido en los sistemas transaccionales en las instalaciones. Entonces se convierte realmente en un producto de datos. Si se piensa en pasar de los datos a la información, es algo que se da por hecho, mientras que en el mundo predigital estaba mucho más orientado al proceso.
Archivos
- marzo 2024
- enero 2024
- noviembre 2023
- octubre 2023
- septiembre 2023
- agosto 2023
- junio 2023
- mayo 2023
- abril 2023
- marzo 2023
- febrero 2023
- noviembre 2022
- octubre 2022
- septiembre 2022
- agosto 2022
- julio 2022
- junio 2022
- mayo 2022
- abril 2022
- marzo 2022
- enero 2022
- diciembre 2021
- noviembre 2021
- septiembre 2021
- junio 2021
- mayo 2021
- abril 2021
- marzo 2021
- febrero 2021
- enero 2021
- diciembre 2020
- noviembre 2020
- octubre 2020
- septiembre 2020
- agosto 2020
- julio 2020
- junio 2020
- mayo 2020
- abril 2020
- marzo 2020
- febrero 2020
- enero 2020
- diciembre 2019
- septiembre 2019
- agosto 2019
- julio 2019
- junio 2019
- mayo 2019
- marzo 2019
- febrero 2019
- enero 2019
- diciembre 2018
- noviembre 2018
- octubre 2018
- septiembre 2018
- agosto 2018
- julio 2018
- junio 2018
- mayo 2018
- abril 2018
- marzo 2018
- enero 2018
- diciembre 2017
- agosto 2017
- julio 2017
- febrero 2017