La digitalización masiva de libros, unida a técnicas cada vez más complejas de análisis de datos, permite realizar estudios de todo tipo, como por ejemplo la densidad de vocabulario de un texto.
El investigador Zack Booth Simpson realizó en el año 2000 un estudio, basándose en manuales digitalizados por el Proyecto Gutenberg: en cada libro contó el número total de palabras y la cantidad de palabras diferentes, es decir, el ‘tamaño’ de su vocabulario. Por supuesto, los textos más voluminosos contenían mayor número de palabras, pero ¿mayor variedad de ellas? La medida relevante de la riqueza del vocabulario es su densidad, es decir, el cociente del número de palabras diferentes entre el número total de ellas.
¿Y cuál resultó ser el libro más rico en vocabulario? Moby Dick de Herman Melville: con 17.227 palabras diferentes para un total de 211.763 –el cociente es 0,0813–; esto significa que Melville introduce una nueva palabra ¡en casi todas las líneas!
Este gráfico –extraído y adaptado del blog ‘Science Étonnante’– resume algunos datos del estudio de Zack Booth Simpson:
El libro menos rico en vocabulario es La Biblia: 12.867 palabras diferentes para 790.126 totales –el cociente es 0,0163–: posee una densidad cinco veces menor que Moby Dick.
Más recientemente, el lingüista Matthew Jockers ha estudiado una base de datos de 3.600 libros digitalizados, para los que ha calculado cerca de 500 características diferentes basadas en el vocabulario, la puntuación, los temas tratados, etc. Todas estas propiedades definen coordenadas para cada libro, y es posible calcular ‘la distancia’ entre dos libros en este espacio de dimensión tan grande.
Imagen de Matthew Jockers, University of Nebraska-Lincoln, tomada de Future Tech
La anterior imagen muestra una representación de cómo funciona esta distancia entre libros: si dos puntos están cerca, los libros que representan se parecen en muchos de los aspectos estudiados. En el pequeño grupo destacado en la esquina superior izquierda se sitúa Moby Dick y los pocos libros que le son próximos.
Nota: La novelaMoby Dickde Herman Melville se publicó en 1851. Narra el viaje del barco ballenero Pequod en su obstinada persecución de una gran ballena blanca. El texto incluye minuciosas descripciones de la caza de ballenas en el siglo XIX y gran abundancia de detalles sobre la vida marinera de aquella época.
Visto en Pourquoi Moby Dick est un livre exceptionnel (et autres enseignements de la littérature numérique…), Science Étonnante, 4 de febrero de 2013.
Sobre la autora: Marta Macho Stadler es profesora de Topología en el Departamento de Matemáticas de la UPV/EHU, y colaboradora asidua en ZTFNews, el blog de la Facultad de Ciencia y Tecnología de esta universidad.
Copépodo
Bueno, ahora no me siento tan mal por no habérmelo conseguido leer en inglés. Lo intenté con ahínco hace unos años pero entre la jerga marinera, y la minuciosidad de las descripciones acabé dándome por vencido en menos de cien páginas. ¡Es un consuelo saber que no lo hice sin motivo!
arukard
Bueno, eso depende, para aprender el idioma debe ser muy bueno, me gusta entretenerme viendo series de TV y películas en inglés para de paso buscar palabras nuevas para aprender sus diferentes significados. Me divierto y aprendo a la vez.
supermacios
Esto me parece acoj… Extraordinario. Enhorabuena y gracias.
Inma
Es un libro que tengo en la estantería hace tiempo, lo intententaré leer, aunque en principio no me motiva demasiado.
Ezequiel Del Bianco
Cuando mencionan que el peor libro es La Biblia, debe ser porque no analizaron la serie Twilight.
J.J
Menor densidad de vocabuladio no significa «peor»
Lo Mejor de la Semana (7 de abril-13 de abril) | Hablando de Ciencia | Artículos
[…] La riqueza ¿matemática? ¿lingüística? de Moby Dick […]
La ballena blanca cumple 163 años | :: ZTFNews.org
[…] que Melville introduce una nueva palabra ¡en casi todas las líneas! Más información en Moby Dick, un libro extraordinario (Cuaderno de Cultura Científica, 10 de abril de […]
miquel àngel
Muy interesante el análisis, un buen principio.
Aunque contar palabras no se puede calificar de muy sofisticado, que digamos.
Seguro que pronto veremos estudios de comparación también masivos (lo único destacable de este estudio, a mi juicio) donde se incluya la longitud de las frases, número de verbos, adjetivos, nombres propios y comunes, subordinaciones y más elementos de estilo, quizás ordenados cronológicamente también.
Big data para la literatura, seguro que algún resultado sorprendería.
Moby Dick, un libro extraordinario |
[…] artículo Moby Dick, un libro extraordinario de Marta Macho Stadler (Departamento de Matemáticas, ZTF-FCT) se publicó en el blog Cuaderno de […]
Moby Dick, un libro extraordinario – Título del sitio
[…] https://culturacientifica.com/2013/04/10/moby-dick-un-libro-extraordinario/ […]
Solo respira el domingo — Cuaderno de Cultura Científica
[…] Quizás por reunir en una sola obra tal diversidad temática, la novela de Herman Melville es el texto de mayor densidad de vocabulario de que se tiene constancia. En ningún otro hay tantas palabras diferentes en comparación con el […]
Igandean soilik hartzen du arnasa – Zientzia Kaiera
[…] tematikoa obra bakar batean biltzen duelako izango da, agian, Herman Melvillen eleberri hori ezagutzen den hiztegi dentsitate handieneko testua. Beste ezein testutan ez dago hainbeste hitz ezberdin, hitzen guztizkoarekin alderatuta. Moby Dick […]
Igandean soilik hartzen du arnasa
[…] tematikoa obra bakar batean biltzen duelako izango da, agian, Herman Melvillen eleberri hori ezagutzen den hiztegi dentsitate handieneko testua. Beste ezein testutan ez dago hainbeste hitz ezberdin, hitzen guztizkoarekin alderatuta. Moby Dick […]