Close Menu

    Subscribe to Updates

    Get the latest creative news from FooBar about art, design and business.

    What's Hot

    China estrena una cúpula hinchable gigante que envuelve las obras para reducir ruido y contaminación

    julio 8, 2025

    Tres fallecidos y un herido grave en un choque frontal en Arcos de la Frontera

    julio 8, 2025

    Violencia y tensión en Sabadell tras una convocatoria para desalojar un local ya recuperado por su dueño

    julio 4, 2025
    Facebook X (Twitter) Instagram
    Facebook X (Twitter) Instagram
    AnalytiksAnalytiks
    • Portada
    • Actualidad
    • Política
    • Turismo
    • Tecnología
    • Motor
    • Empresas
    • Lifestyle
    • Madrid
    • Contacto
    AnalytiksAnalytiks
    Portada » La inteligencia artificial revela los libros con el vocabulario más rico
    Noticias de Cultura

    La inteligencia artificial revela los libros con el vocabulario más rico

    adminBy adminabril 19, 2024No hay comentarios4 Mins Read
    Facebook Twitter Pinterest LinkedIn Tumblr Email
    Share
    Facebook Twitter LinkedIn Pinterest Email

    El 23 de abril, en conmemoración de la muerte de Miguel de Cervantes, se celebra tanto el Día Internacional del Libro como el Día del Idioma Español.

    Definicion.de, en un análisis que fusiona ambos eventos, examinó el vocabulario de 35 libros en busca de textos que fueran tanto complejos como accesibles para los lectores.

    Para lograr este objetivo, emplearon inteligencia artificial y software de procesamiento del lenguaje natural para desglosar cada obra y obtener resultados.

    La selección de libros incluyó 35 obras reconocidas en español, abarcando una amplia diversidad de autores de diferentes épocas y estilos. A continuación, se detallan los autores analizados por país:

    • Argentina: Ernesto Sábato, Jorge Luis Borges y Julio Cortázar.
    • Brasil: Paulo Coelho.
    • Chile: Gabriela Mistral, Isabel Allende, José Donoso y Roberto Bolaño.
    • Colombia: Gabriel García Márquez y Laura Restrepo.
    • Cuba: Alejo Carpentier y Zoé Valdés.
    • España: Almudena Grandes, Ana María Matute, Ángeles Mastretta, Antonio Machado, Arturo Pérez-Reverte, Gustavo Adolfo Bécquer, Benito Pérez Galdós, Carlos Ruiz Zafón, Carmen Laforet, Miguel de Cervantes, Federico García Lorca, Javier Marías, María Dueñas y Miguel Delibes.
    • Guatemala: Miguel Ángel Asturias.
    • México: Carlos Fuentes, Elena Poniatowska, Juan Rulfo y Rosario Castellanos.
    • Nicaragua: Gioconda Belli.
    • Perú: Mario Vargas Llosa.
    • Uruguay: Cristina Peri Rossi y Mario Benedetti.

    Cada libro fue almacenado minuciosamente, palabra por palabra, en una base de datos.

    Se llevó a cabo la lematización de cada término, un proceso que agrupa todas las variantes de una palabra bajo su forma base. Por ejemplo, «comió», «comerá» y «comen» se unifican bajo el lema «comer». Esta técnica, esencial en el procesamiento del lenguaje natural, garantiza resultados más precisos al considerar solo los lemas en lugar de todas las formas variantes de una palabra. Sin embargo, nos enfrentamos al desafío de que, en libros más extensos, había una mayor cantidad de palabras únicas, pero un menor porcentaje de estas en relación al total. Esto es comprensible: un libro de 100.000 palabras puede contener más vocabulario, pero también habrá más repeticiones que en uno de 5.000 palabras.

    La solución surgió en colaboración con la inteligencia artificial.

    La IA nos ofreció varias metodologías potenciales, como dividir la cantidad de lemas distintos por la raíz cuadrada del total de palabras del libro, o dividirlo por su logaritmo. Sin embargo, aunque estos cálculos reducían la influencia de la longitud del libro, seguían estando afectados por el número total de palabras de cada obra.

    Consideramos también la opción de comparar muestras de tamaño uniforme de cada texto, pero esto dejaba fuera del análisis gran parte del contenido en algunos casos.

    Finalmente, optamos por utilizar ventanas móviles. Desarrollamos un código que evaluó la diversidad del lenguaje de cada libro en fragmentos de 1.000 palabras, calculando el promedio total de variedad de lemas como resultado para cada obra. Esta metodología aseguró que todo el contenido del libro fuera considerado en el análisis, minimizando los factores que podrían distorsionar los resultados finales.

    De esta manera, obtuvimos un puntaje de diversidad léxica para cada libro, en una escala del 1 al 100, donde un puntaje más alto representa una mayor amplitud del lenguaje utilizado.

    El resultado fue el siguiente:

    Alejo Carpentier se alza con la puntuación más alta gracias a su obra «El reino de este mundo» de 1949. La riqueza de su vocabulario está estrechamente ligada a su profunda formación cultural y musical.

    En segundo lugar se encuentra Zoé Valdés con «Te di la vida entera» de 1996. Resulta impactante que tanto el primer como el segundo puesto correspondan a dos escritores nacidos en Cuba, siendo ellos los únicos representantes de la isla en la lista de 35 autores.

    Jorge Luis Borges ocupa el tercer puesto con «Ficciones» de 1944. El autor, olvidado por la Academia Sueca, completa el podio con su inigualable estilo.

    No se observa una correlación entre la longitud de la obra y la puntuación obtenida por su diversidad léxica. Tanto obras extensas como breves, tanto entre las mejor clasificadas como las peor clasificadas, están presentes.

    Lo mismo ocurre con la fecha de publicación; no hay patrones claros que indiquen que los libros más antiguos o recientes se clasifiquen mejor en términos de diversidad léxica.

    Para un lector principiante, podría ser beneficioso comenzar con los libros ubicados en la parte inferior de la tabla de clasificación y avanzar gradualmente hacia arriba, aumentando progresivamente el nivel de complejidad de la lectura.

    Puedes leer el informe completo en esta web

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email

    Related Posts

    Alerta en España por estafa en WhatsApp que aprovecha videollamadas para robar información bancaria

    junio 4, 2025

    España es el segundo país más atacado del mundo por cibercriminales

    junio 3, 2025

    WhatsApp estrena personalización de chats: así puedes cambiar el color de las burbujas sin instalar apps externas

    mayo 21, 2025
    Lo último
    • China estrena una cúpula hinchable gigante que envuelve las obras para reducir ruido y contaminación julio 8, 2025
    • Tres fallecidos y un herido grave en un choque frontal en Arcos de la Frontera julio 8, 2025
    • Violencia y tensión en Sabadell tras una convocatoria para desalojar un local ya recuperado por su dueño julio 4, 2025
    • Prisión provisional para la madre de la bebé hallada muerta en una planta de reciclaje de Loeches julio 4, 2025
    • Simuladores de inversión: ¿Sirven realmente? julio 4, 2025
    Te puede interesar

    Un 25% del tráfico mundial de internet podría verse afectado por el ataque a cables submarinos

    marzo 6, 2024

    Descubre el nuevo Renault 5 eléctrico. Un clásico reinventado.

    marzo 4, 2024

    Desarrollan un super DVD con más de un millón de Gb de capacidad

    marzo 4, 2024
    Top Reviews
    Advertisement
    Demo
    Analytiks
    Facebook X (Twitter) Instagram Pinterest Vimeo YouTube
    • Home
    • Política de privacidad
    • Aviso legal
    • info@analytiks.es
    © 2025 Analytiks - Periódico Digital

    Type above and press Enter to search. Press Esc to cancel.

    Gestionar consentimiento
    Para ofrecer las mejores experiencias, utilizamos tecnologías como las cookies para almacenar y/o acceder a la información del dispositivo. El consentimiento de estas tecnologías nos permitirá procesar datos como el comportamiento de navegación o las identificaciones únicas en este sitio. No consentir o retirar el consentimiento, puede afectar negativamente a ciertas características y funciones.
    Funcional Siempre activo
    El almacenamiento o acceso técnico es estrictamente necesario para el propósito legítimo de permitir el uso de un servicio específico explícitamente solicitado por el abonado o usuario, o con el único propósito de llevar a cabo la transmisión de una comunicación a través de una red de comunicaciones electrónicas.
    Preferencias
    El almacenamiento o acceso técnico es necesario para la finalidad legítima de almacenar preferencias no solicitadas por el abonado o usuario.
    Estadísticas
    El almacenamiento o acceso técnico que es utilizado exclusivamente con fines estadísticos. El almacenamiento o acceso técnico que se utiliza exclusivamente con fines estadísticos anónimos. Sin un requerimiento, el cumplimiento voluntario por parte de tu proveedor de servicios de Internet, o los registros adicionales de un tercero, la información almacenada o recuperada sólo para este propósito no se puede utilizar para identificarte.
    Marketing
    El almacenamiento o acceso técnico es necesario para crear perfiles de usuario para enviar publicidad, o para rastrear al usuario en una web o en varias web con fines de marketing similares.
    Administrar opciones Gestionar los servicios Gestionar {vendor_count} proveedores Leer más sobre estos propósitos
    Ver preferencias
    {title} {title} {title}