ZORIONAK Josebari eta bere zuzendaria den Rodrigo Agerriri!
Baita Iker, Jon Ander eta Ander laguntzaileei
Hizkuntza-ereduak testu kopuru handiak erabiliz entrenatzen dira, eta, testua irakurriaz, gai dira hizkuntzaren egitura ikasi eta testu berriak sortzeko. Gaur egungo hizkuntzaren prozesamenduko aplikazioen muinean aurki ditzakegu hizkuntza-ereduak, dela bilaketa eta galderen erantzunean, itzulpen automatikoan, ahotsaren ezagutzan edo elkarrizketa-sistema zein txatbotetan. Labur esateko, hizkuntza-ereduak dira hizkuntzaren inguruan egiten diren aplikazio gehienen motorra, eta testuak dira motor horren gasolina.
Hizkuntza-eredu onak eraikitzeko behar den testu kopurua astronomikoa da. Ingelesa bezalako hizkuntzetarako testuak aurkitzea ez da arazoa; nahi adina testu dugu hizkuntza horretan Interneten. Testu multzo izugarri handiak batu izan dira horrela, adibidez 156 mila miloi hitz dituen Colossal Clean Crawled Corpus (C4) izeneko corpusa (https://github.com/allenai/c4-documentation). Pertsona batek 2000 urte beharko lituzke hori dena irakurtzeko, egunean 10 ordu irakurriz gero. Horiei lotuta eraikitako hizkuntza-ereduak ere erraldoiak dira, tartean BERT-large (350 milioi parametro), eta ezagunena, komunikabideetan hainbat aldiz aipatu den GPT-3 (175 mila miloi parametro). Hizkuntza-eredu horiek adimen artifizialean eraiki izan diren gailu konplexuenetakoak dira parametro kopuruan, eta milioika euro gastatu izan dira beraiek entrenatzeko behar den konputazioan (adibidez, 4 miloi dolar inguru GPT-3 entrenatzeko).
Euskara bezalako baliabide urriko hizkuntzetarako, baina, tamaina handiko testu masak biltzea arazo zaila da. Euskararen kasuan existitzen diren eta eskura dauden testu masa handienak Google eta Meta-AI (lehen Facebook) enpresek Internetetik automatikoki jaitsi eta dokumentuen hizkuntza programa bidez identifikatu izan dituzten mC4 eta CC100 corpusak dira. Lehenbizikoak euskarazko mila miloi hitz dauzka eta bigarrenak 416 miloi hitz. Horien kalitatea zalantzan jarri izan da ordea, Internet zaratatsua delako eta dokumentuak euskaraz daudela ziurtatzen duen programa automatikoak akatsak egiten dituelako.
EusCrawl-en garrantziaz
Gabezia horri erantzutera dator EusCrawl. Corpusa osatzen duten dokumentuak modu librean bana daitezke, Creative Commons familiako lizentziekin[1]. 12.5 milioi dokumentu eta 288 milioi hitzez osatuta dago, eta eskuz aukeratutako Interneteko hainbat webgunetatik dokumentuak xurgatuz (crawl ingelesez) osatu da.
Corpusarekin batera, EusCrawl-ekin entrenatutako bi hizkuntza-eredu sortu ditugu, horietako bat egun euskararako dagoen eredurik handiena, 355 Milioi parametrokoa.
EusCrawl corpusa publikoa izateak euskarak duen nazioarteko ikusgarritasuna areagotzen du, eta mundu zabaleko ikertzaileek euskararako baliabide hobeak sortzea dakar horrek. Esate baterako, dagoeneko badakigu EusCrawl BigScience proiektuan erabiliko dela, helburu bezala hizkuntza-eredu eleaniztun eta erraldoi librea eraikitzea duen proiektua, horretarako bost milioi konputazio-ordu erabiliz. Hortaz, sortutako hizkuntza-ereduak euskaraz ere jakingo du. EusCrawl bezalako baliabideak publiko jartzea urrats ezinbestekoa da euskara plaza digitalera jalgi dadin.
Hizkuntzaren prozesamendua eta adimen artifizialaz aparte, EusCrawl corpusa baliabide ezin hobea da hizkuntza bera aztertu nahi duenarentzat. Ez da ahaztu behar corpusen ustiapena dela gaur egun hizkuntzalaritzaren muinetako bat, hizkuntzaren erabilera errealaren gordailuak diren neurrian. Euskarazko corpus handiak bildu izan dira aurretik ere, eta publikoki kontsultagarri jarri, baina EusCrawl osorik deskargatu eta berrerabiltzeko aukera dago. Azpimarratu behar da ez dela gauza bera corpusa kotsultagarri jartzea ala deskargatzeko moduan jartzea. Kontsulta soilek ez dute aukerarik ematen benetako azterketa linguistikoak eta ikerkuntzak egiteko.
EusCrawl-i esker ikasi dugunaz
Corpusa biltzarekin batera, EusCrawl-ekin sortutako hizkuntza-ereduak beste corpusekin sortutakoekin alderatu ditugu, hizkuntzaren prozesamenduko hainbat atazatan beraien kalitatea neurtuaz. Esperimentuek adierazten dute garrantzitsuagoa dela testu kopurua, testuen kalitatea baino. Gaur egun ezagunak diren euskarazko corpus guztiak bilduta ere, hizkuntza nagusien corpusen tamainatik oso urruti geldituko ginateke, eta horrek euskarazko hizkuntza-ereduei goi-borne bat ezartzen die. Ondorioz, arriskua dago euskararentzat sor daitezkeen tresnen kalitatea ingelesa bezalako beste hizkuntzen mailara ez iristeko.
Horren aurrean, euskara eta baliabide urriko beste hizkuntzen teknologiak aurrera egin dezan, bi helburu estrategiko azaltzen zaizkigu.
Corpusa http://ixa.ehu.eus/euscrawl helbidean aurki daiteke, eta xehetasun guztiak, berriz, https://arxiv.org/abs/2203.08111 artikuluan. EusCrawlekin sortu diren hizkuntza-ereduak zein ikerketa-esperimentuak Hitz Zentroa (UPV/EHU) eta Meta-AI erakundeen arteko elkarlana izan da.
[1] Dokumentuen %20a inguru CC-BY-NC/CC-BY-ND lizentziarekin banatzen dira. Horiek partekatu eta moldatu daitezke, beti ere merkataritza-xedeetarako ez badira (NC), edo lan eratorririk banatzen ez bada (ND).
Joseba Fernandez de Landak gaur Gasteizen bukatu den IkerGazte kongresuko sari berezia jaso du. Udalbiltzak eskaintzen du sari hori, Euskal Herriko garapenerako bereziki garrantzitsua den gaia lantzeagatik. Ingeniaritza eta Arkitektura alorrean egin du artikulu hori Josebak beste hiru Ixakiderekin: Iker García, Ander Salaberria, eta Jon Ander Campos,.
Joseba soziologoa da gizartearen kezkak nondik nora mugitzen diren aztertu nahi du. Bere tesian Twitterreko txioetan erabiltzen diren hitzak aztertzen ditu. urtez urte nola aldatzen diren miatzen du hizkuntza teknologia erabiliz. Ikergazte artikulu irabazle honetan Hizkuntzaren Prozesamenduak eskaintzen dituen teknika ez-gainbegiratuak erabili ditu euskarazko txioetan COVID-19aren pandemiak izan duen eragina aztertzeko.
Irakurri artikulu osoa, Kongresuko artikulu bilduman irakur dezakezu 137. orrialdean. Motibazio moduan hemen dituzu bertako irudi batzuk
ZORIONAK Josebari eta bere zuzendaria den Rodrigo Agerriri!
Baita Iker, Jon Ander eta Ander laguntzaileei
Hitz-bektoreek (word embedding-ak) eta aurrez entrenatutako hizkuntza-ereduek testuen errepresentazio aberatsak eraikitzeko aukera ematen dute, eta, horri esker, hobekuntzak egin ahal izan dira Hizkuntzaren Prozesamenduko ataza gehienetan. Zoritxarrez, errepresentazio horiek oso garestiak dira entrenatzeko, eta enpresa txiki eta ikerketa-talde askok eurenak eraiki beharrean, Googlek aurrez entrenatutako eta eskura jarritako ereduak baino ez dituzte erabiltzen. Hori ez da biderik onena, hizkuntza askotan ereduak enpresa txikiagoetan (edo kalitate txikiagokoetan) entrenatu baitira. Gainera, ingelesa ez diren hizkuntzetarako beti ez daude erabilgarri aurrez entrenatutako eredu elebakarrak. Kasurik onenean, hizkuntza horietako ereduak bertsio eleaniztunetan sartzen dira, eta hizkuntza bakoitzak gainerako hizkuntzekin partekatzen ditu tamaina eta parametroen zati bat. Hori egia da, bereziki, hizkuntza txikienetarako, hala nola euskararako.
Joan den apirilean Ixa Taldean erakutsi genuen euskarazko corpus handiekin (on-line egunkarietatik arakatuak) trebatutako zenbait eredu elebakarrek (FastText word embeddings, FLAIR eta BERT hizkuntza-ereduak) emaitza askoz hobeak eman zituztela Hizkuntzaren Prozesamenduko zereginetan, publikoki eskuragarri zeuden bertsioek baino. Besteak beste, emaitza hobeak lortu ziren gai-sailkapenean, sentimenduen analisian, baita PoS eta NER etiketatzean ere. Lan hori “Give your Text Representation Models some Love: the Case for Basque” izeneko artikuluan aurkeztu genuen. Hona hemen esperimentu horretan erabilitako Corpusaren osaketa:
Iturria | Testu mota | Milioi token |
---|---|---|
Euskal Wikipedia | Entziklopedia | 35M |
Berria egunkaria | Albisteak | 81M |
EiTB | Albisteak | 28M |
Argia aldizkaria | Albisteak | 16M |
Herri aldizkariak | Albisteak | 224.6M |
Kontuan izan ingeleserako BERT hizkuntza-eredu originala Google Books corpus erabiliz entrenatu zela. 155 mila milioi hitz ditu iamerikako ingelesez, eta 34 mila milioi hitz ingeles brikanikoz. Ingelesezko corpusa euskarazkoa baino 500 aldiz handiagoa da.
Orain, irailean, IXAmBERT argitaratu dugu, ingeleserako, gaztelaniarako eta euskararako aurrez prestatutako hizkuntza-eredu eleaniztuna. Eta arrakastaz erabili dugu euskarazko elkarrizketetan galderak erantzuteko sistema batean. Transferentzia-esperimentu horiek Googleren mBERT eredu ofizialarekin egin litezke ere, baina, Googleren ereduan hizkuntza asko direnez, euskara ez dago oso ondo ordezkatuta. Ingelesa, gaztelania eta euskara soilik dituen eredu eleaniztun berri hori sortzeko, apirilean aurkeztutako ereduaren konfigurazio bera erabili dugu. Euskal eredu sortzeko corpus elabkar bera erabili dugu berriz ere, eta gainera Ingeles Wikipedia eta espainierazkoa gehitu ditugu, hurrenez hurren, 2.5 G eta 650M tokenekin. Wikipedia horien tamainak euskarazkoa baino 80 eta 20 aldiz handiagoa dira.
Berri ona zera da, eredu hori arrakastaz erabili dugula ingelesezko testuetan dagoen ezagutza euskarara transferitzeko, elkarrizketa bidezko galdera-/erantzun-sistema baten bidez. Artikulu honetan azaldu dugu: Conversational Question Answering in Low Resource Scenarios: A Dataset and Case Study for Basque. IXAmBERT izeneko gure hizkuntza-eredu berria erabiliz mBERT eredu generikoarekin baino hobeto egin zen ingelesaren ezagutza euskarara transferitzea. Galderak euskaraz egin, informazioa ingelesez, espainieraz eta euskarazko wikipedietan bilatu eta erantzuna euskaraz eman. Taula honetan ikus daiteke zenbatekoa da hobekuntza:
Eredua | Zero-shot | Transfer learning |
---|---|---|
Baseline | 28.7 | 28.7 |
mBERT | 31.5 | 37.4 |
IXAmBERT | 38.9 | 41.2 |
mBERT + history | 33.3 | 28.7 |
IXAmBERT + history | 40.7 | 40.0 |
Taula horretan, Elkarrizketa Bidezko Galderak Erantzuteko (CQA, Conversational Question Anwering) euskarazko sistema baten emaitzak agertzen dira. Zero-shot-ek esan nahi du eredua fine-tuned dagoela QuaC, CQA datu-multzo ingelesa erabiliz. Transfer Learning konfigurazioan, eredua lehenengo aldiz QuaC-n zehazten da, eta gero euskal CQA datu-multzo batean.
Lan hauek koxka bat gorago ezartzen dute artearen egoera euskararako zeregin horietan.
Lan honetan erabilitako datuak eta eredu guztiak eskuragarri daude publikoki: https://huggingface.co/ixa-ehu/ixambert-base-cased
]]>
Uxoa Iñurrietak bere tesian izen+aditz konbinazioen itzulpena (gaztelaniatik euskarara) eta tratamendu konputazionala aztertu zuen 2019an. Eta tesitik eratorritako artikulu bat argitaratu du abuztuan PLOS ONE aldizkarian.
Learning about phraseology from corpora: A linguistically motivated approach for Multiword Expression identification.
Uxoa Inurrieta, Itziar Aduriz, Arantza Díaz de Ilarraza, Gorka Labaka, Kepa Sarasola
Galdera honi erantzun dio artikuluarekin: Nola detektatu izen+aditz konbinazio berezi horiek masiboki eta automatikoki corpus elebakarra eta elebiduna edukiz gero? Eskuzko lana murriztu eta detektatuko konbinazioen kopurua handitu nahi da.
Metodo bat asmatu da hori egiteko, eta ebaluatu ondoren ikusi da baliagarria dela. Perfektoa ez dela, ez, baina baliagarria bai.
Konbinazio horien informazio morfosintaktiko espezifikoa erabilgarria dela ikusi zen lehenago. Aurreko lan batean egiaztatu zen informazio lexikal eta morfosintaktikoa erabiltzea eragin positiboa izan zuela bai identifikazioan, bai itzulpen automatikoan. Hala ere, konbinazio kopuru ez-handi bat baino ez zen aztertu, eta, analisi-prozesua eskuzkoa izanik, metodoak eskalagarritasun-arazo argia zuen. Orain argitaratutako artikuluak atea irekitzen dio konbinazio berezi horiek masiboki eta automatikoki jasotzeari.
Lan horrekin lotuta dauden beste argitalpen batzuk:
Hemen duzue ixakidei eta kolaboratzeei onartutako artikuluei buruzko informazioa:
– Selecting Backtranslated Data from Multiple Sources for improved Neural Machine Translation (Xabier Soto, Dimitar Shterionov, Alberto Poncelas, Andy Way): Atzeranzko itzulpen sistema anitzen bitartez itzulitako datuek eu-es eta de-en domeinu klinikoko Itzulpen Automatiko Neuronaleko sistemetan duten eragina aztertzen dugu, eta Datu Hautaketa (DH) erabiltzen dugu corpus sintetikoa optimizatzeko. Ondoren, DHren irteera birkalkulatzen dugu atzeranzko itzulpena egiteko erabilitako sistemen kalitatea eta sortutako corpora sintetikoen aniztasun lexikoa kontuan hartuz.
– On the Cross-lingual Transferability of Monolingual Representations (Mikel Artetxe, Sebastian Ruder, Dani Yogatama): BERT eredu elebakar bat maila lexikoan beste hizkuntzetara transferi daitekeela erakusten dugu, BERT eleaniztunaren inguruko aurreko hipotesiak zalantzan jartzen dituena.
– A Call for More Rigor in Unsupervised Cross-lingual Learning (Mikel Artetxe, Sebastian Ruder, Dani Yogatama, Gorka Labaka, Eneko Agirre): Iritzi-artikulu honetan ikasketa eleaniztun gainbegiratu gabearen motibazio, definizio, hurbilpen eta metodologia berrikusten ditugu, eta euretako bakoitzean zorrotzago jokatzeko deia egiten dugu.
– DoQA – Accessing Domain-Specific FAQs via Conversational QA (Jon Ander Campos, Arantxa Otegi, Aitor Soroa, Jan Deriu, Mark Cieliebak, Eneko Agirre): DoQA datu-multzoa aurkezten dugu, FAQetako informazioa elkarrizketa bidez atzitzeko balio duena. 2.437 elkarrizketa ditu 3 domeinu desberdinetan: sukaldaritza, bidaiak eta filmak.
– A Methodology for Creating Question Answering Corpora Using Inverse Data Annotation (Jan Deriu, Katsiaryna Mlynchyk, Philippe Schläpfer, Alvaro Rodrigo, Dirk von Grünigen, Nicolas Kaiser, Kurt Stockinger, Eneko Agirre, Mark Cieliebak): Datu baseetako informazioa hizkuntzaren bidez atzitzeko entrenamentu datu-multzoak behar dira. Artikulu honetan halako datu-multzoak sortzeko metodologia berria proposatzen dugu, giza-anotazio abiadura hiru aldiz hobetzen duena aurreko metodoekin konparatuta. Gure esperimentuek erakusten dute kalitate oneko datu-multzoa dela, eta asmatu dugun token alineazioak emaitzak hobetzeko balio duela.
Zorionak guztiei!
]]>
Artikuluaren izenburua “Semi-supervised medical entity recognition: A study on Spanish and Swedish clinical corpora” da, hau da: Semi-gainbegiratutako entitate medikoen antzematea: espainieraz eta suedierazko corpus klinikoen gaineko azterketa bat.
Suediako Stockholm-eko Unibertsitatearekin lankidetzan egindako ikerketa baten emaitza da artikulua, Biomedical Informatics aldizkarian 2017an argitaratu zena. Egile guztiak hauek dira: Pérez A, Weegar R, Casillas A, Gojenola K, Oronoz M, eta Dalianis H.
Aukeratze prozesua “Yearbook of Medical Informatics” aldizkarian argitaratu dute Expanding the Diversity of Texts and Applications: Findings from the Section on Clinical Natural Language Processing of the International Medical Informatics Association Yearbook“,
Osasun-alorreko euskara-gaztelera itzultzaile automatikoa
Egilea: Xabier Soto Garcia @xabi_soto
Etiketak: Informatika osakidetza Itzulpengintza IxaTaldea Hizkuntzalaritza
Osasun-alorreko termino sorkuntza automatikoa: SNOMED Ctren eduki terminologikoaren euskaratzea
Egilea: Olatz Perez de Viñaspre @olatz87
Etiketak: UPV/EHU IxaTaldea Hizkuntzaren Azterketan eta Prozesamendua
Sentimendu analisia euskaraz: hizkuntza-maila ezberdinetako balentzia aldatzaileen bila
Egilea: Jon Alkorta @JAlkAgi
Etiketak: hizkuntzalaritza IxaTaldea UPV/EHU
Euskarazko denbora-egituren azterketa eta corpusaren sorrera
Egilea: Begoña Altuna @bgogafiki
Etiketak: corpusa hizkuntzalaritza IxaTaldea UPV/EHU
Humanitate Digitalak: Giza eta gizarte zientzietan ikertzeko metodo berriak artikulua idatzi dute sarean.eus webgunean. Hona hemen horko zati batzuk:
“Giza eta gizarte-zientzietan ohikoak diren esperimentu kualitatiboetatik emaitza kuantitatiboetara eramateko aukera ematen ditu hizkuntz teknologiek, eta bestalde, humanitateek erronka berriak eskaintzen diete teknologoei. Historia, kultura eta literatura, kazetaritza, soziolinguistika, arkeologia eta beste jakintza arlo askotan aldaketa sakonak sumatzen ari dira ikerketa metodoetan. Kritikak ere badaude.”
[…]
“Europan Clarin ikerketarako azpiegitura sarea hedatu da arlo berri honi begira eta Ixa taldeak hartzen du parte bertan. Tresna orokor gisa Analhitza eskaintzen dugu norberak bere testuak prestatu eta analizatuta jaso ditzan.”
[…]
“Soziolinguistikan bi proiektu garatu dira gure inguruan, Twitterreko testuak iturritzat hartuta eta HAP/LAP masterreko ikasleen amaierako lanetan oinarrituta, bat gazteen mintzagaiak eta sareak identifikatzeko, eta bestea corpus interesgarri bat sortzeko kode alternantziari (code switching) begira. Bi lanetako oinarrian “Computational sociolinguistics: A survey.“ izeneko artikulu interesgarria dago, azpiarlo honetarako ezinbesteko erreferentzia dena. Gazteen mintzagaien inguruan, adibidez ondoko taula interesgarria eskaintzen da aipatutako lanean”
“Historian aukera handiak daude azken urteotan digitalizatutako testuak ustiatzeko. Adibide gisa artikulu honetan (Whodunit. . . and to Whom? Subjects, Objects, and Actions in Research Articles on American Labor Unions) Vilja Huldenek analisi sintaktiko automatikoa erabiltzen du lan munduaren soziologia historikoan ikertzeko. Nork, nori, zer, non, noiz identifikatzea datuetan oinarritutako kazetaritzaren funtsean dago. Arkaitz Zubiagaren lana azpimarragarria da arlo horretan, Korrikaren inguruko argitalpen honetan egiaztatu daitekeen moduan. Hainbat oinarrizko teknologia erabiliz eta konbinatuz oso emaitza interesgarriak lortzen ditu, adibidez gaiaren inguruko sare hau:”
[…]
“Edonola ere susmoa dugu Humanitate Digitalek duten potentzia baliatzeko hasieran gaudela, eta Euskal Herrian aukera handiak ditugula lan interesgarriak aurrera eramateko. Horretarako beharrezkoa litzateke aipatutako arlo guztien artean lankidetza handitzea ingurune digitalean. Administrazioaren laguntza ere ez litzateke gaizki etorriko.”
Artikulu osoa sarean.eus webgunean irakur dezakezu (Humanitate Digitalak: Giza eta gizarte zientzietan ikertzeko metodo berriak).
]]>Lehengo astean CoNLL 2018 biltzar zientifikoko artikulu onenaren saria eman zieten Mikel Artetxe, Gorka Labaka, Iñigo Lopez-Gazpio, eta Eneko Agirre ixakideei. “Hizkuntza-ikasketa konputazionala” da CoNLL biltzarreko ikergaia (22nd Conference on Computational Natural Language Learning, CoNLL 2018).
Zorionak!
Saritutako artikuluaren izenburua hau da: “Uncovering Divergent Linguistic Information in Word Embeddings with Lessons for Intrinsic and Extrinsic Evaluation”
Euskaraz: “Informazio linguistiko dibergentea azaleratzen hitzen bektore-errepresentazio distribuzionaletan, ebaluazio intrinseko eta estrinsekorako zenbait ikasgairekin”.
Hitzen bektore-errepresentazio distribuzionalen arrakastaren harira, hitzen errepresentazio idealik ez dagoela argudiatu izan da, eredu ezberdinek elkarren artean bateraezinak diren ezaugarriak kodetzen baitituzte, semantika/sintaxia eta antzekotasuna/erlazioa kasu. Artikulu honetan, eredu distribuzionalek zuzenean azaleratzen dutena baino informazio gehiago jasotzen dutela erakusten dugu. Transformazio lineal batek ereduaren antzekotasun-ordena egokitu dezake kanpoko baliabiderik erabili gabe, ezaugarri horietan emaitza hobeak lortzeko. Horrela, bektore-errepresentazio distribuzionalek informazio linguistiko desberdin horiek nola kodetzen dituzten azaltzeko ikuspegi berri bat eskaintzen dugu. Gainera, ebaluazio intrintseko eta estrintsekoen arteko erlazioa aztertu dugu, downstream zereginetan transformazioen eragina handiagoa baita gainbegiratu gabeko sistemetan gainbegiratuetan baino.
Artikuluan erabili diren programen inplementazio irekia eta ebaluaziorako ingurunea jaso daitezke GitHubetik: UncoVec
Joan den astean, Xabier Artola Zubillaga taldekideak hitzaldia eman zuen Euskaltzaindiaren XVII. Biltzarrean (Arantzazutik mundu zabalera), Arantzazun. Hitzaldia Euskaltzaindiaren eskariz prestatu genuen, eta biltzarreko “Euskara batuaren etorkizuneko erronkak ingurune digitalean” izeneko saioan aurkeztu zuen Xabierrek, honako izenburu honekin: “Euskara (batua) ingurune digitalean: bidean ikasiXa eta etorkizuneko erronkak”.
Hizkuntzaren eta teknologiaren arteko bidegurutzeari buruzko hausnarketa txiki bat egin ondoren, hizkuntzaren tratamenduari buruz aritu zen aurkezpenean: hizkuntzaren tratamendua zer den, ikerkuntza eta formazioa zertan diren, arloan zertan ari garen (Ixa Taldean zein Euskal Herriko beste zenbait laborategi eta zentro teknologikotan) eta zertan ari diren hemengo erakundeak nahiz Europa eta Espainiakoak.
Gero, aurrerantzean nondik jo aipatu zuen, zenbait alderdi jorratuz: corpusgintza (Euskararen Erreferentzia Corpusa sortu beharra aipatu zuen, bereziki, sakabanatutako ahaleginak bateratu beharra eta edukiak ikerkuntzarako trabarik gabe zabaltzearen premia azpimarratuz), arauak eta estandarra, hiztegigintza eta terminologia, itzulpen automatikoa eta humanitate digitalak.
Bukatzeko, ondorio eta proposamen batzuk aletu zituen. Ondorioen artean, hauek:
Eta hiru proposamen hauek ere egin zituen, dagokionak aintzat har ditzan:
Hona hemen aurkezpenaren PDFa.
Eta bideo-grabazioa:
“Euskara batuaren etorkizuneko erronkak ingurune digitalean” saioko beste bi aurkezpenak: