El 23 de abril, en conmemoración de la muerte de Miguel de Cervantes, se celebra tanto el Día Internacional del Libro como el Día del Idioma Español.
Definicion.de, en un análisis que fusiona ambos eventos, examinó el vocabulario de 35 libros en busca de textos que fueran tanto complejos como accesibles para los lectores.
Para lograr este objetivo, emplearon inteligencia artificial y software de procesamiento del lenguaje natural para desglosar cada obra y obtener resultados.
La selección de libros incluyó 35 obras reconocidas en español, abarcando una amplia diversidad de autores de diferentes épocas y estilos. A continuación, se detallan los autores analizados por país:
- Argentina: Ernesto Sábato, Jorge Luis Borges y Julio Cortázar.
- Brasil: Paulo Coelho.
- Chile: Gabriela Mistral, Isabel Allende, José Donoso y Roberto Bolaño.
- Colombia: Gabriel García Márquez y Laura Restrepo.
- Cuba: Alejo Carpentier y Zoé Valdés.
- España: Almudena Grandes, Ana María Matute, Ángeles Mastretta, Antonio Machado, Arturo Pérez-Reverte, Gustavo Adolfo Bécquer, Benito Pérez Galdós, Carlos Ruiz Zafón, Carmen Laforet, Miguel de Cervantes, Federico García Lorca, Javier Marías, María Dueñas y Miguel Delibes.
- Guatemala: Miguel Ángel Asturias.
- México: Carlos Fuentes, Elena Poniatowska, Juan Rulfo y Rosario Castellanos.
- Nicaragua: Gioconda Belli.
- Perú: Mario Vargas Llosa.
- Uruguay: Cristina Peri Rossi y Mario Benedetti.
Cada libro fue almacenado minuciosamente, palabra por palabra, en una base de datos.
Se llevó a cabo la lematización de cada término, un proceso que agrupa todas las variantes de una palabra bajo su forma base. Por ejemplo, «comió», «comerá» y «comen» se unifican bajo el lema «comer». Esta técnica, esencial en el procesamiento del lenguaje natural, garantiza resultados más precisos al considerar solo los lemas en lugar de todas las formas variantes de una palabra. Sin embargo, nos enfrentamos al desafío de que, en libros más extensos, había una mayor cantidad de palabras únicas, pero un menor porcentaje de estas en relación al total. Esto es comprensible: un libro de 100.000 palabras puede contener más vocabulario, pero también habrá más repeticiones que en uno de 5.000 palabras.
La solución surgió en colaboración con la inteligencia artificial.
La IA nos ofreció varias metodologías potenciales, como dividir la cantidad de lemas distintos por la raíz cuadrada del total de palabras del libro, o dividirlo por su logaritmo. Sin embargo, aunque estos cálculos reducían la influencia de la longitud del libro, seguían estando afectados por el número total de palabras de cada obra.
Consideramos también la opción de comparar muestras de tamaño uniforme de cada texto, pero esto dejaba fuera del análisis gran parte del contenido en algunos casos.
Finalmente, optamos por utilizar ventanas móviles. Desarrollamos un código que evaluó la diversidad del lenguaje de cada libro en fragmentos de 1.000 palabras, calculando el promedio total de variedad de lemas como resultado para cada obra. Esta metodología aseguró que todo el contenido del libro fuera considerado en el análisis, minimizando los factores que podrían distorsionar los resultados finales.
De esta manera, obtuvimos un puntaje de diversidad léxica para cada libro, en una escala del 1 al 100, donde un puntaje más alto representa una mayor amplitud del lenguaje utilizado.
El resultado fue el siguiente:
Alejo Carpentier se alza con la puntuación más alta gracias a su obra «El reino de este mundo» de 1949. La riqueza de su vocabulario está estrechamente ligada a su profunda formación cultural y musical.
En segundo lugar se encuentra Zoé Valdés con «Te di la vida entera» de 1996. Resulta impactante que tanto el primer como el segundo puesto correspondan a dos escritores nacidos en Cuba, siendo ellos los únicos representantes de la isla en la lista de 35 autores.
Jorge Luis Borges ocupa el tercer puesto con «Ficciones» de 1944. El autor, olvidado por la Academia Sueca, completa el podio con su inigualable estilo.
No se observa una correlación entre la longitud de la obra y la puntuación obtenida por su diversidad léxica. Tanto obras extensas como breves, tanto entre las mejor clasificadas como las peor clasificadas, están presentes.
Lo mismo ocurre con la fecha de publicación; no hay patrones claros que indiquen que los libros más antiguos o recientes se clasifiquen mejor en términos de diversidad léxica.
Para un lector principiante, podría ser beneficioso comenzar con los libros ubicados en la parte inferior de la tabla de clasificación y avanzar gradualmente hacia arriba, aumentando progresivamente el nivel de complejidad de la lectura.
Puedes leer el informe completo en esta web