Un informático ayuda a preservar un idioma en peligro de extinción para las generaciones futuras

Un informático ayuda a preservar un idioma en peligro de extinción para las generaciones futuras

El idioma chino en peligro de extinción se está preservando para las generaciones futuras con la ayuda del Departamento de Investigación de Ciencias de la Computación.

Usando procesamiento de lenguaje natural (NLP), técnicas informáticas diseñadas para comprender el habla y el texto tanto como los humanos pueden, se está preservando el idioma Gyalrong y la historia cultural que conlleva.

Se dice que el gyalrong, hablado por una pequeña minoría en la provincia china de Sichuan, data de hace más de 1000 años, pero ahora se estima que tiene menos de 33 000 hablantes.

La mayoría de las personas que hablan el idioma son personas mayores y debido a que muchos jóvenes abandonan los pueblos donde se habla para buscar trabajo en las ciudades, menos personas tienen la oportunidad de aprender el idioma de los mayores.

Predice que el declive del idioma, que tiene poca documentación y se considera extremadamente difícil de aprender, será irreversible en las próximas décadas.

Xutan Peng, Ph. D. estudiante en el Departamento de Ciencias de la Computación de la universidad, está utilizando su investigación para acelerar el desarrollo de un libro para enseñar un idioma en peligro de extinción a los escolares locales.

«Mucha gente dice que el idioma es el ADN de la cultura», dijo Xutan.

«Cuando el idioma muere, este rico monumento cultural corre el peligro de perderse para siempre». Cosas como las viejas historias que los mayores transmiten a sus hijos y nietos ya no existirán, y no será posible que las generaciones futuras aprendan sobre la cultura y la cultura. tradiciones».

Su método toma textos de Gyalrong y los resume en mandarín usando un método automatizado. Del mismo modo, el trabajo lingüístico que a los lingüistas les llevaría meses o años sumergirse en la cultura se puede realizar muy rápidamente.

«Una forma de verlo es que hay dos bibliotecas, una al lado de la otra, que tienen la misma estructura pero solo proporcionan textos en mandarín y Gyalrong», dijo Xutan.

«Si dos libros similares, sobre el mismo tema, están en el mismo lugar en ambas bibliotecas y mueves todos los edificios al mismo lugar, puedes conectar los dos para identificar el patrón.

«Entonces, siempre que podamos tener una buena idea de las palabras que se usan con frecuencia, podemos usar este método para pensar con más cuidado sobre cómo conectarnos».

Puede obtener más información sobre este método, conocido como incrustación de palabras interlingüísticas (CLWE), en los artículos «Refinamiento de la incrustación de palabras interlingüísticas mediante la optimización de normas ℓ1» y «Comprensión de la linealidad de las asignaciones de incrustación de palabras interlingüísticas». El método utilizado para escribir Gyalrong también se basa en la investigación del artículo original de Xutan, «Resumir el texto histórico en idiomas modernos».

Los resultados del trabajo de Xutan ya están dando sus frutos, con un pequeño grupo de escolares chinos, cuyas familias pueden hablar con Gyalrong, estudiar y comentar el libro. Esperamos que a esta primera versión le sigan otros volúmenes a medida que se recopilen más datos.

Su éxito ha atraído la atención de los productores de documentales, quienes han transmitido la historia en la Televisión Central de China.

«Es un proyecto único y satisfactorio en el que trabajar», dijo Xutan.

«Y aunque sea pequeño, estamos ayudando mucho a la gente. También muestra un futuro muy brillante para este tipo de enfoque para ayudar a preservar los idiomas que están al borde de la extinción».

Xutan quiere explorar cómo se puede adaptar este método para ayudar a documentar otros idiomas en peligro de extinción.

Dr. Mark Stevenson, profesor principal en el grupo de investigación de lenguaje natural, dijo: «Los idiomas en peligro de extinción, como el Gyalrong, enfrentan un riesgo real de extinción. Preservarlos para las generaciones futuras.

Publicar comentario