Las caras de Chernoff
Herman es conocido por ser un profesor inspirador y ha influido enormemente en un gran número de sus estudiantes de doctorado y asociados de investigación postdoctoral, quienes a su vez han contribuido enormemente al campo de la estadística.
Haseeb Rizvi, Jagdish S. Rustagi and David Siegmund (1983)

El matemático (especialista en estadística) Herman Chernoff (1923) cumple hoy 103 años. Ha trabajado fundamentalmente en análisis secuencial (enfoque estadístico en el que los datos se evalúan de forma continua en lugar de esperar a una única muestra fija) y diseño óptimo (enfoque matemático y estadístico que maximiza la eficiencia de un experimento mientras minimiza los recursos utilizados).
En 1973, publicó un artículo en el que proponía representar conjuntos de variables distintas –procedentes de muestreos estadísticos– mediante caras con distintas expresiones: su idea se basa en que –las personas– somos capaces de distinguir y clasificar con facilidad rasgos faciales.
Cambiando datos por expresiones faciales
Chernoff introduce el artículo del siguiente modo:
Se presenta un método novedoso para representar datos multivariantes. Cada punto en un espacio de k dimensiones, con k ≤ 18, se representa mediante un dibujo de un rostro cuyos rasgos –como la longitud de la nariz y la curvatura de la boca– se corresponden con las componentes del punto. De este modo, cada observación multivariante se visualiza como un rostro dibujado por ordenador. Esta presentación facilita que la mente humana capte muchas de las regularidades e irregularidades esenciales presentes en los datos.
Su método propone que cada dato se represente mediante una cara. A cada variable se le asocia un rasgo de esa cara, por ejemplo: superficie de la cara,
forma de la cara, longitud de la nariz, localización de la boca, curvatura de la sonrisa, grosor de la boca, localización de los ojos, separación de los ojos, tamaño de la pupila, etc.
Chernoff descubrió que las personas podían interpretar cómodamente un rostro que expresaba grandes cantidades de datos. Comentaba:
En este punto se pueden tratar hasta 18 variables, pero sería relativamente fácil aumentar ese número agregando otras características como orejas, cabello y líneas faciales.
El artículo de Chernoff se basó en datos recopilados a partir de observaciones de fósiles y de registros geológicos.
Una de las páginas del trabajo (página 362) contiene 87 caras (correspondientes a datos de 87 especímenes fósiles) cada una ligeramente diferente. Algunas tienen ojos pequeños y brillantes, otras tienen ojos grandes, sorprendidos y bien abiertos. Hay bocas anchas, pequeñas y medianas. También varían las formas de las cabezas. De este modo, cada espécimen se representa por una cara que es la única que representa las especiales características que posee.

Un ejemplo
Imaginemos, por ejemplo, que se quiere estudiar el nivel de vida –a través de diferentes factores– en las comunidades autónomas del estado. Una forma de dibujar las caras sobre cada región podría ser la siguiente (este es un ejemplo inventado, probablemente con las variables poco representativas de la calidad de vida):
- una boca más sonriente indica mayor consumo de pescado por persona al año,
- una boca más larga representa la cantidad de automóviles por cada cien habitantes,
- una boca más cerca de la nariz indica la cantidad de ordenadores personales por cien habitantes,
- una nariz más grande representa mayor cantidad de teléfonos móviles por cada cien habitantes,
- una cara más ancha indica el número de tituladas o titulados superiores por cada cien habitantes,
- unas cejas más arqueadas representan menor consumo de agua por persona y año,
- un mentón más pronunciado corresponde a un mayor consumo de electricidad por persona y año, etc.
Situando estas siete variables a través de caras sobre cada comunidad autónoma, tendríamos un mapa visual de los niveles de vida en cada lugar.
Aunque parece una broma…
Algunos autores han utilizado la idea de Chernoff y propuesto algunas mejoras. Por ejemplo, en 1981, Bernhard Flury y Hans Riedwyl propusieron caras de Chernoff asimétricas. Lo justificaban de la siguiente manera:
Partiendo de la idea de Chernoff de representar datos multivariados mediante caras, se propone un nuevo rostro en la que los parámetros de la izquierda y derecha pueden variarse por separado. Esta nueva cara se puede aplicar de la misma manera que la cara de Chernoff habitual (con 36 variables representables en lugar de 18). Entre las aplicaciones específicas de la nueva cara se encuentran la representación de comparaciones por pares multivariadas y la búsqueda visual de valores atípicos. […]. En comparación con la cara de Chernoff, la nueva construcción es más realista, degenera menos y evita en la medida de lo posible las influencias mutuas de los diferentes parámetros de la cara.
Es decir, proponían eliminar la simetría vertical de las caras, para no desperdiciar espacio que podía usarse para incluir más variables. Los autores defendían que estos rostros asimétricos son útiles, por ejemplo, para visualizar bases de datos de gemelos idénticos.
Y la literatura también se ha dejado seducir por esta idea. En la novela de ciencia ficción Blindsight (2006) de Peter Watts, uno de los personajes usa una variante de las caras de Chernoff, argumentando que se trata de un método más eficiente para representar datos, ya que una gran parte del cerebro humano está dedicada al reconocimiento facial.
Asintió con la cabeza, dirigiendo su atención a una mujer sin ojos. «El diámetro del cráneo se relaciona con la masa total. La longitud de la mandíbula se relaciona con la transparencia electromagnética a un angstrom. Ciento trece dimensiones faciales, cada una presentando una variable diferente. Las combinaciones de componentes principales se presentan como relaciones de aspecto de múltiples características». Se giró hacia mí, con sus ojos desnudos y brillantes ligeramente desviados. «Te sorprendería la cantidad de materia gris que se dedica al análisis de imágenes faciales. Es una lástima desperdiciarla en algo tan contraintuitivo como los gráficos de residuos o las tablas de contingencia».
Y es que, como muy bien sabemos, una imagen vale más que mil palabras… o que una familia de datos estadísticos.
Referencias
- Herman Chernoff, The Use of Faces to Represent Points in K-Dimensional Space Graphically, Journal of the American Statistical Association 68 (342) (1973) 361–368
- John J. O’Connor and Edmund F. Robertson, Herman Chernoff, MacTutor History of Mathematics archive, University of St Andrews, 2006
- Marc Abrahams, Smile! You too can understand statistics, The Guardian, 26 enero 2010
- Chernoff and the Face Value of Numbers, Neatorama
- Chernoff faces, Wikipedia
Sobre la autora: Marta Macho Stadler es profesora de Topología en el Departamento de Matemáticas de la UPV/EHU, y editora de Mujeres con Ciencia
