TAdeep: Traducción automática en profundidad

Nombre del proyecto: TAdeep: Traducción automática en profundidad
Código oficial: TIN2015-70214-P
IP: Kepa Sarasola
Organismo financiador: MINECO -FEDER
Comienzo: 2016/01/01
Final: 2018/12/31

Descripción:

La traducción automática (TA) de calidad sigue siendo un reto en 2015.

Las empresas usuarias y los usuarios particulares se han familiarizado con las ventajas y limitaciones de su uso. Mientras las primeras focalizan en aumentar la productividad, combinando las memorias de traducción, las herramientas de TA y los entornos de postedición; los segundos la usan intensivamente aunque no siempre les ofrece la calidad que quisieran.

Apoyándonos en los trabajos y resultados del proyecto previo TACARDI (MINECO-lTIN2012-38523-C02-01) y de nuestra actual participación en el proyecto europeo QTLeap (FP7-ICT-2013.4.1-610516) proponemos investigar en técnicas que mejoren el estado del arte en sistemas de TA, centrándonos en dos aspectos:

  • TA basada en análisis profundo y en aprendizaje en profundidad. Durante los tres últimos años en el área del procesamiento del lenguaje natural (PLN) ha habido una revolución con la irrupción de las redes neuronales y su aplicación por medio del "word embedding" y "deep-learning". Por otro lado, nuestro trabajo adaptando las herramientas Depfix y TectoMT a la traducción entre pares en-es y en-eu dentro del segundo proyecto (usando sintaxis profunda y semántica), nos deja una tecnología ideal como banco de pruebas para nuevos avances en este área.
  • TA adaptada a dominios específicos. Dadas las limitaciones de calidad de los sistemas de TA, una buena adaptación al dominio es una de las mejores garantías de mejora de la calidad: en dominios técnicos como el de informática del proyecto QTLeap, las redes sociales del proyecto TACARDI u otros de gran actualidad como el dominio médico y el de consumo se pueden conseguir mejoras que sean interesantes comercialmente.

Los idiomas implicados en el proyecto serán inglés, español y euskera. Los dos primeros por razones de volumen de información y de posibilidades de llegar al mercado, y el tercero por el reto que suponen las características del idioma: al ser morfológicamente más rico, de orden libre y disponer de menos recursos, es un banco de pruebas ideal para que las conclusiones de este proyecto puedan ser extrapoladas a otros pares de idiomas.

El grupo IXA de la UPV/EHU tiene el know-how y la experiencia necesaria para hacer frente a este proyecto. Somos expertos en TA, morfología, sintaxis, semántica y aprendizaje automático. Lluís Màrquez nos asesorará en temas de aprendizaje automático y evaluación.

La colaboración con la Fundación Elhuyar añade potencialidad práctica al proyecto, aportando:

  • Provisión de recursos (corpus, léxicos...). basado en su trabajo previo en lexicografía así como WaC (Web as Corpus)
  • Evaluación de resultados. Una sección de la Fundación Elhuyar tiene gran experiencia en evaluación.
  • Cercanía al mercado y prueba de prototipos. La fundación Elhuyar participa con la conocida fundación Consumer (consumer.es) en un proyecto para adaptar la TA al dominio de consumo.

Sobre el interés que despierta la TA en el ámbito de I+D+i se pueden citar varios indicadores a nivel europeo y mundial:

  • El informe "Strategic Research Agenda For Multilingual Europe 2020" de METANET
  • El informe europeo de LT-Innovate 2013 "Status and Potential of the European Language Technology Markets"
  • El congreso anual de North American Aassociation of Computational Linguistics.

Además, este proyecto está relacionado con dos de los retos sociales del plan de la Estrategia Española de Investigación, Desarrollo e Investigación: "Cambios e innovaciones sociales" y "Economia y sociedad digital".

 

PALABRAS CLAVE: RADUCCIÓN AUTOMÁTICA, APRENDIZAJE EN PROFUNDIDAD, TECTOMT