Welcome to TAdeep (MINECO-FEDER project)

Proiektuaren izena: TAdeep: Itzulpengintza automatiko sakona
Proiektuaren kode ofiziala: TIN2015-70214-P
Ikertzaile nagusia: Kepa Sarasola
Erakundea: MINECO-FEDER
Hasiera data: 2016/01/01
Bukaera data: 2018/12/31

Deskribapena:

Kalitatezko Itzulpen Automatikoa (IA) jarraitzen du erronka izaten, 2015ean.

Enpresa erabiltzaileek eta erabiltzaile partikularrek ezagutu dituzte IAren abantailak eta badakite zeintzuk diren erabileraren mugak. Enpresek produktibitatea handitu nahi dute itzulpen-memoriak, IAko erremintak eta postedizio-inguruneak konbinatuz. Partikularrek intentsiboki darabilte IAa nahiz eta hark eskaintzen duen kalitatea beti ez izan lortu nahi dutena.

TACARDI aurreko proiektuaren (MINECO-lTIN2012-38523-C02-01) eta orain indarrean dugun QTLeap proiektu europarraren (FP7-ICT-2013.4.1-610516) lanetan eta emaitzetan oinarrituta artearen egoera hobetuko duten tekniketan ikertzea proposatzen dugu, bi alderditan nagusiki:

Analisi sakonean eta ikasketa sakonean oinarritutako IA. Hizkuntzaren prozesamenduan azken hiru urteetan zehar iraultza bat gertatu da sare neuronalen agerpenekin eta horren aplikazioarekin, "word embedding" eta "deep-learning" bidez. Bestalde, QTleap proiektuan (sintaxi sakon eta semantikoa erabiliz) Depfix eta TectoMT erremintak en-es eta en-eu hizkuntza pareetarara moldatzeko egin dugun lanak teknologia egoki bat utzi dute gure eskuetan arloan aurrerapen berriak egin ahal izateko.
Domeinu espezifikoetan egokitutako IA.
IAko sistemen kalitate-mugak emanda, domeinu baterako egindako egokitze on bat kalitate-hobekuntzarako berme onenetako bat da: QTLeap proiektuko informatikako domeinu teknikoetan komertzialki interesgarriak diren hobekuntzak lor daitezke, baita TACARDI proiektuko sare sozialetan ere, edo gaurkotasun handiko domeinu medikoan edo kontsumokoan.

Proiektuan landuko diren hizkuntzak ingelesa, espainiera eta euskara izango dira. Lehenengo biak informazio-bolumenagatik eta merkatura iristeko aukeragatik; hizkuntzaren ezaugarriek ekartzen duten erronkengatik hirugarrena: izaera morfologikoki aberatsa, ordena librea eta baliabide gutxiago edukitzea. Beste hizkuntza-pare batzuetarako saio-banku ideala da euskara proiektu honen ondorioak estrapolatu ahal izateko.

UPV/EHUko IXA taldeak know-how-a eta proiektu honi aurre egiteko beharrezko esperientzia ditu. Adituak gara IAn, morfologian, sintaxian, semantikan eta ikasketa automatikoan. Lluís Màrquez-ek aholkatuko gaitu ikasketa automatikozko eta ebaluaziozko gaietan.

Elhuyar Fundazioarekiko kolaborazioak potentzialtasun praktikoa gehitzen dio proiektuari, atal hauetan:

Baliabideen hornidura (corpusak, lexikoak...). Lexikografian eta WaC-ean (Web as Corpus) egindako lanetan oinarrituta.
Emaitzen ebaluazioa. Elhuyar Fundazioko sail batek esperientzia handia du ebaluazioan.
Merkaturako hurbiltasuna eta hainbat prototipoen proba. Elhuyar Fundazioak parte hartzen du Consumer Fundazio ezagunarekin (consumer.es) kontsumo-domeinurako IAa moldatzeko proiektu batean.

Itzulpen Automatikoak I+D+i eremuan pizten duen interesa erakusteko, Europa eta mundu mailako hainbat adierazle aipa daitezke:

METANETen txostena: "2020 Strategic Research Agenda For Multilingual Europe"
LT-Innovate 2013 txosten europearra: "Status and Potential of the European Language Technology Market"
North American Association of Computational Linguistics elkartearen urteroko kongresua.

Gainera, proiektu hau erlazionatuta dago Espainiako Ikerketa eta Garapenerako Estrategia planaren erronka sozialetako birekin: "Aldaketa eta berrikuntza sozialak" eta "Ekonomia eta sozietatea digitalak".