Sailkatugabeak – Hizkuntza-teknologiak, Ixa Taldearen bloga

Blog honen agurra. Jarraitu HiTZ zentroari sare sozialetan

ixa — Wed, 31 May 2023 15:32:41 +0000

Bukaera ematen diogu blog honi, hau da azken albistea.
Ixa taldearen bitakora moduko zerbait izan da 2006tik 2022ra bitartean, 312 albiste jasota.
Ikus aurkibide osoa (2006-2022).

Azken urteetan bezala aurrerantzean ere, jakina, sare sozialen bidez izango duzu Ixa Taldearen eta HiTZ zentroaren berri:

HiTZ Zentroa Mastodon sarean
HiTZ Zentr oa Twitterren
Ixa Taldea Twtterren
HiTZ medioetan: hedabideetako albisteak HiTZ Zentroko webgunean bilduak
“HiTZ medioetan“: hedabideetako albisteak Hitz Zentroko webgunean.

EusCrawl: kalitate handiko euskal corpusa

ixa — Wed, 16 Mar 2022 11:28:26 +0000

Adimen artifizialaren erronka nagusietako bat konputagailuek gizakion hizkuntza ulertzea da, eta hori da hain zuzen Hizkuntzaren Prozesamenduaren helburua. Adimen artifizialaren arlo honek iraultza handia jazo du azken urteetan, ikasketa sakona edo “deep learning” teknikei esker eta, zehatzago esateko, hizkuntza-eredu deritzon teknologiari esker.

Hizkuntza-ereduak testu kopuru handiak erabiliz entrenatzen dira, eta, testua irakurriaz, gai dira hizkuntzaren egitura ikasi eta testu berriak sortzeko. Gaur egungo hizkuntzaren prozesamenduko aplikazioen muinean aurki ditzakegu hizkuntza-ereduak, dela bilaketa eta galderen erantzunean, itzulpen automatikoan, ahotsaren ezagutzan edo elkarrizketa-sistema zein txatbotetan. Labur esateko, hizkuntza-ereduak dira hizkuntzaren inguruan egiten diren aplikazio gehienen motorra, eta testuak dira motor horren gasolina.

Hizkuntza-eredu onak eraikitzeko behar den testu kopurua astronomikoa da. Ingelesa bezalako hizkuntzetarako testuak aurkitzea ez da arazoa; nahi adina testu dugu hizkuntza horretan Interneten. Testu multzo izugarri handiak batu izan dira horrela, adibidez 156 mila miloi hitz dituen Colossal Clean Crawled Corpus (C4) izeneko corpusa (https://github.com/allenai/c4-documentation). Pertsona batek 2000 urte beharko lituzke hori dena irakurtzeko, egunean 10 ordu irakurriz gero. Horiei lotuta eraikitako hizkuntza-ereduak ere erraldoiak dira, tartean BERT-large (350 milioi parametro), eta ezagunena, komunikabideetan hainbat aldiz aipatu den GPT-3 (175 mila miloi parametro). Hizkuntza-eredu horiek adimen artifizialean eraiki izan diren gailu konplexuenetakoak dira parametro kopuruan, eta milioika euro gastatu izan dira beraiek entrenatzeko behar den konputazioan (adibidez, 4 miloi dolar inguru GPT-3 entrenatzeko).

Euskara bezalako baliabide urriko hizkuntzetarako, baina, tamaina handiko testu masak biltzea arazo zaila da. Euskararen kasuan existitzen diren eta eskura dauden testu masa handienak Google eta Meta-AI (lehen Facebook) enpresek Internetetik automatikoki jaitsi eta dokumentuen hizkuntza programa bidez identifikatu izan dituzten mC4 eta CC100 corpusak dira. Lehenbizikoak euskarazko mila miloi hitz dauzka eta bigarrenak 416 miloi hitz. Horien kalitatea zalantzan jarri izan da ordea, Internet zaratatsua delako eta dokumentuak euskaraz daudela ziurtatzen duen programa automatikoak akatsak egiten dituelako.

EusCrawl-en garrantziaz

Gabezia horri erantzutera dator EusCrawl. Corpusa osatzen duten dokumentuak modu librean bana daitezke, Creative Commons familiako lizentziekin[1]. 12.5 milioi dokumentu eta 288 milioi hitzez osatuta dago, eta eskuz aukeratutako Interneteko hainbat webgunetatik dokumentuak xurgatuz (crawl ingelesez) osatu da.

Corpusarekin batera, EusCrawl-ekin entrenatutako bi hizkuntza-eredu sortu ditugu, horietako bat egun euskararako dagoen eredurik handiena, 355 Milioi parametrokoa.

EusCrawl corpusa publikoa izateak euskarak duen nazioarteko ikusgarritasuna areagotzen du, eta mundu zabaleko ikertzaileek euskararako baliabide hobeak sortzea dakar horrek. Esate baterako, dagoeneko badakigu EusCrawl BigScience proiektuan erabiliko dela, helburu bezala hizkuntza-eredu eleaniztun eta erraldoi librea eraikitzea duen proiektua, horretarako bost milioi konputazio-ordu erabiliz. Hortaz, sortutako hizkuntza-ereduak euskaraz ere jakingo du. EusCrawl bezalako baliabideak publiko jartzea urrats ezinbestekoa da euskara plaza digitalera jalgi dadin.

Hizkuntzaren prozesamendua eta adimen artifizialaz aparte, EusCrawl corpusa baliabide ezin hobea da hizkuntza bera aztertu nahi duenarentzat. Ez da ahaztu behar corpusen ustiapena dela gaur egun hizkuntzalaritzaren muinetako bat, hizkuntzaren erabilera errealaren gordailuak diren neurrian. Euskarazko corpus handiak bildu izan dira aurretik ere, eta publikoki kontsultagarri jarri, baina EusCrawl osorik deskargatu eta berrerabiltzeko aukera dago. Azpimarratu behar da ez dela gauza bera corpusa kotsultagarri jartzea ala deskargatzeko moduan jartzea. Kontsulta soilek ez dute aukerarik ematen benetako azterketa linguistikoak eta ikerkuntzak egiteko.

EusCrawl-i esker ikasi dugunaz

Corpusa biltzarekin batera, EusCrawl-ekin sortutako hizkuntza-ereduak beste corpusekin sortutakoekin alderatu ditugu, hizkuntzaren prozesamenduko hainbat atazatan beraien kalitatea neurtuaz. Esperimentuek adierazten dute garrantzitsuagoa dela testu kopurua, testuen kalitatea baino. Gaur egun ezagunak diren euskarazko corpus guztiak bilduta ere, hizkuntza nagusien corpusen tamainatik oso urruti geldituko ginateke, eta horrek euskarazko hizkuntza-ereduei goi-borne bat ezartzen die. Ondorioz, arriskua dago euskararentzat sor daitezkeen tresnen kalitatea ingelesa bezalako beste hizkuntzen mailara ez iristeko.

Horren aurrean, euskara eta baliabide urriko beste hizkuntzen teknologiak aurrera egin dezan, bi helburu estrategiko azaltzen zaizkigu.

Corpus handiagoak biltzea, euskaraz ekoizten den eduki gehiago eskuragarri jarriz. EusCrawl eraikitzea posible izan da Berria, Argia, eta beste hainbat euskal komunikabideei esker, edukia lizentzia librean banatzen dute eta. Ezinbestekoa da gainontzeko ekoizleak ere bide horretara batzea.
Testu gutxiagorekin ikasiko duten hizkuntza-ereduen ikerketa sustatzea. Tamalez aurreko ahaleginak muga bat du, hizkuntza baten idazten den testu kopuruaren araberakoa. Egun dauden teknikekin eraikitako metodoez haratago, testu gutxiagotik ikasiko duten hizkuntza-ereduak behar ditu euskarak. Euskararako tresnak kalitatezkoak izan daitezen estrategikoa da ikerketa-lerro hau bultzatzea.

Corpusa http://ixa.ehu.eus/euscrawl helbidean aurki daiteke, eta xehetasun guztiak, berriz, https://arxiv.org/abs/2203.08111 artikuluan. EusCrawlekin sortu diren hizkuntza-ereduak zein ikerketa-esperimentuak Hitz Zentroa (UPV/EHU) eta Meta-AI erakundeen arteko elkarlana izan da.

[1] Dokumentuen %20a inguru CC-BY-NC/CC-BY-ND lizentziarekin banatzen dira. Horiek partekatu eta moldatu daitezke, beti ere merkataritza-xedeetarako ez badira (NC), edo lan eratorririk banatzen ez bada (ND).

IXAmBERT: Berri onak baliabide gutxiko hizkuntzentzat!

ixa — Wed, 30 Sep 2020 10:23:11 +0000

Berri onak baliabide gutxiko hizkuntzentzat!
Ixa taldean aurre-entrenatutako hizkuntz eredu elebakarra eta eleaniztuna biak ala biak oso erabilgarriak dira euskararen prozesamenduko zereginetan! Euskaraz egindako galderak euskaraz automatikoki erantzuteko sistema batean adibidez.
Nahiz eta ingelesezkoa baino 500 aldiz txikiagoa den corpus batekin eta 80 aldiz txikiagoa den Euskal Wikipediarekin sortu ditugun, gure hizkuntza-eredu berri hauek emaitza onak eman dituzte.

Elkarrizketa eredu bat. Ingelesezko transkripzioarekin.

Hitz-bektoreek (word embedding-ak) eta aurrez entrenatutako hizkuntza-ereduek testuen errepresentazio aberatsak eraikitzeko aukera ematen dute, eta, horri esker, hobekuntzak egin ahal izan dira Hizkuntzaren Prozesamenduko ataza gehienetan. Zoritxarrez, errepresentazio horiek oso garestiak dira entrenatzeko, eta enpresa txiki eta ikerketa-talde askok eurenak eraiki beharrean, Googlek aurrez entrenatutako eta eskura jarritako ereduak baino ez dituzte erabiltzen. Hori ez da biderik onena, hizkuntza askotan ereduak enpresa txikiagoetan (edo kalitate txikiagokoetan) entrenatu baitira. Gainera, ingelesa ez diren hizkuntzetarako beti ez daude erabilgarri aurrez entrenatutako eredu elebakarrak. Kasurik onenean, hizkuntza horietako ereduak bertsio eleaniztunetan sartzen dira, eta hizkuntza bakoitzak gainerako hizkuntzekin partekatzen ditu tamaina eta parametroen zati bat. Hori egia da, bereziki, hizkuntza txikienetarako, hala nola euskararako.

Joan den apirilean Ixa Taldean erakutsi genuen euskarazko corpus handiekin (on-line egunkarietatik arakatuak) trebatutako zenbait eredu elebakarrek (FastText word embeddings, FLAIR eta BERT hizkuntza-ereduak) emaitza askoz hobeak eman zituztela Hizkuntzaren Prozesamenduko zereginetan, publikoki eskuragarri zeuden bertsioek baino. Besteak beste, emaitza hobeak lortu ziren gai-sailkapenean, sentimenduen analisian, baita PoS eta NER etiketatzean ere. Lan hori “Give your Text Representation Models some Love: the Case for Basque” izeneko artikuluan aurkeztu genuen. Hona hemen esperimentu horretan erabilitako Corpusaren osaketa:

Iturria	Testu mota	Milioi token
Euskal Wikipedia	Entziklopedia	35M
Berria egunkaria	Albisteak	81M
EiTB	Albisteak	28M
Argia aldizkaria	Albisteak	16M
Herri aldizkariak	Albisteak	224.6M

Kontuan izan ingeleserako BERT hizkuntza-eredu originala Google Books corpus erabiliz entrenatu zela. 155 mila milioi hitz ditu iamerikako ingelesez, eta 34 mila milioi hitz ingeles brikanikoz. Ingelesezko corpusa euskarazkoa baino 500 aldiz handiagoa da.

Agerri

San Vicente

Campos

Barrena

Otegi

Saralegi

Soroa

E. Agirre

Sistema berriarekin egindako elkarrizketa bat

Orain, irailean, IXAmBERT argitaratu dugu, ingeleserako, gaztelaniarako eta euskararako aurrez prestatutako hizkuntza-eredu eleaniztuna. Eta arrakastaz erabili dugu euskarazko elkarrizketetan galderak erantzuteko sistema batean. Transferentzia-esperimentu horiek Googleren mBERT eredu ofizialarekin egin litezke ere, baina, Googleren ereduan hizkuntza asko direnez, euskara ez dago oso ondo ordezkatuta. Ingelesa, gaztelania eta euskara soilik dituen eredu eleaniztun berri hori sortzeko, apirilean aurkeztutako ereduaren konfigurazio bera erabili dugu. Euskal eredu sortzeko corpus elabkar bera erabili dugu berriz ere, eta gainera Ingeles Wikipedia eta espainierazkoa gehitu ditugu, hurrenez hurren, 2.5 G eta 650M tokenekin. Wikipedia horien tamainak euskarazkoa baino 80 eta 20 aldiz handiagoa dira.

Berri ona zera da, eredu hori arrakastaz erabili dugula ingelesezko testuetan dagoen ezagutza euskarara transferitzeko, elkarrizketa bidezko galdera-/erantzun-sistema baten bidez. Artikulu honetan azaldu dugu: Conversational Question Answering in Low Resource Scenarios: A Dataset and Case Study for Basque. IXAmBERT izeneko gure hizkuntza-eredu berria erabiliz mBERT eredu generikoarekin baino hobeto egin zen ingelesaren ezagutza euskarara transferitzea. Galderak euskaraz egin, informazioa ingelesez, espainieraz eta euskarazko wikipedietan bilatu eta erantzuna euskaraz eman. Taula honetan ikus daiteke zenbatekoa da hobekuntza:

Eredua	Zero-shot	Transfer learning
Baseline	28.7	28.7
mBERT	31.5	37.4
IXAmBERT	38.9	41.2
mBERT + history	33.3	28.7
IXAmBERT + history	40.7	40.0

Taula horretan, Elkarrizketa Bidezko Galderak Erantzuteko (CQA, Conversational Question Anwering) euskarazko sistema baten emaitzak agertzen dira. Zero-shot-ek esan nahi du eredua fine-tuned dagoela QuaC, CQA datu-multzo ingelesa erabiliz. Transfer Learning konfigurazioan, eredua lehenengo aldiz QuaC-n zehazten da, eta gero euskal CQA datu-multzo batean.

Lan hauek koxka bat gorago ezartzen dute artearen egoera euskararako zeregin horietan.
Lan honetan erabilitako datuak eta eredu guztiak eskuragarri daude publikoki: https://huggingface.co/ixa-ehu/ixambert-base-cased

Ixa ikerketa-taldeak Estatu Batuetako gobernuak bultzatutako COVID-19 gaixotasunaren inguruan antolatutako adimen artifizialeko txapelketan saria jaso du

ixa — Thu, 07 May 2020 12:35:53 +0000

CORD-19 delako txapelketa (COVID-19 Open Research Dataset Challenge) hainbat erakundek antolatu dute, tartean dira Allen Institute for AI, Chan Zuckerberg Initiative, Georgetown University, Microsoft Research, National Institutes of Health eta Etxe Zuriko Office of Science and Technology Policy. Antolatzaileek COVID-19, SARS-CoV-2 eta beste koronabirus batzuei buruzko 50.000 artikulu zientifikotik gora jarri dituzte eskuragarri munduko ikerketa-komunitatearentzat. Horrekin batera, adimen artifizialeko ikertzaileei ekintzarako deia egin zien hizkuntzaren prozesamenduan berriki egin diren aurrerapenak aplika zitzaten, COVID-19 gaixotasunaren aurkako borrokan ari diren zientzialariei laguntzeko literatura zientifiko horretan lagungarri zaien informazioa ahalik eta errazen bilatzen.

Txapelketaren lehen fasean 10 sari banatu dituzte, eta horietako bat irabazi du HiTZ zentroko Ixa taldean garatutako sistemak. Sistemaren garapenean Euskal Herriko Unibertsitateko Arantxa Otegi eta Jon Ander Campos ikertzaileek eta Eneko Agirre eta Aitor Soroa irakasleek hartu dute parte.

Ikus adibide batzuk (CC-BY-SA)

Hauek garatutako sistemak COVID-19 gaixotasuna eta SARS-CoV-2 birusaren inguruan adituek dituzten lehentasunezko galderen erantzunak bilatzen ditu aipatutako artikulu zientifiko horiek aztertuz. Sistema hau erabilgarria da, besteak beste, koronabirusaren historiaren, birusaren kutsatze eta diagnostikoaren, gizakien eta animalien arteko ukipenean hartu beharreko prebentzio-neurrien eta aurretik egindako azterketa epidemiologikoetako ikasbideen inguruko galderen erantzunak aurkitzeko. Sistemaren emaitza Estatu Batuetako NIH delakoaren aditu talde batek epaitu du, eta “What do we know about diagnostics and surveillance?” (Zer dakigu diagnostiko eta zaintzari buruz?) gaiaren inguruko galdera-sortari hoberen erantzun dion sistema bezala aukeratu dute. Sistemak emandako erantzunak hemen ikusi daitezke.

Bost artikulu onartuta Association for Computational Linguistics kongresuan

ixa — Tue, 05 May 2020 07:26:23 +0000

Aurten ospatuko den Association for Computational Linguistics (ACL) kongresuko 58. edizioan Ixa taldeko kideek kolaboratzaileekin batera bost artikulu aurkeztuko dituzte. ACL kongresua Hizkuntzaren Prozesamenduko kongresurik garrantzitsuenetakoa da eta uztailean Seattlen egin behar zen, baina aurten sarean izango da.

Hemen duzue ixakidei eta kolaboratzeei onartutako artikuluei buruzko informazioa:

– Selecting Backtranslated Data from Multiple Sources for improved Neural Machine Translation (Xabier Soto, Dimitar Shterionov, Alberto Poncelas, Andy Way): Atzeranzko itzulpen sistema anitzen bitartez itzulitako datuek eu-es eta de-en domeinu klinikoko Itzulpen Automatiko Neuronaleko sistemetan duten eragina aztertzen dugu, eta Datu Hautaketa (DH) erabiltzen dugu corpus sintetikoa optimizatzeko. Ondoren, DHren irteera birkalkulatzen dugu atzeranzko itzulpena egiteko erabilitako sistemen kalitatea eta sortutako corpora sintetikoen aniztasun lexikoa kontuan hartuz.

– On the Cross-lingual Transferability of Monolingual Representations (Mikel Artetxe, Sebastian Ruder, Dani Yogatama): BERT eredu elebakar bat maila lexikoan beste hizkuntzetara transferi daitekeela erakusten dugu, BERT eleaniztunaren inguruko aurreko hipotesiak zalantzan jartzen dituena.

– A Call for More Rigor in Unsupervised Cross-lingual Learning (Mikel Artetxe, Sebastian Ruder, Dani Yogatama, Gorka Labaka, Eneko Agirre): Iritzi-artikulu honetan ikasketa eleaniztun gainbegiratu gabearen motibazio, definizio, hurbilpen eta metodologia berrikusten ditugu, eta euretako bakoitzean zorrotzago jokatzeko deia egiten dugu.

– DoQA – Accessing Domain-Specific FAQs via Conversational QA (Jon Ander Campos, Arantxa Otegi, Aitor Soroa, Jan Deriu, Mark Cieliebak, Eneko Agirre): DoQA datu-multzoa aurkezten dugu, FAQetako informazioa elkarrizketa bidez atzitzeko balio duena. 2.437 elkarrizketa ditu 3 domeinu desberdinetan: sukaldaritza, bidaiak eta filmak.

– A Methodology for Creating Question Answering Corpora Using Inverse Data Annotation (Jan Deriu, Katsiaryna Mlynchyk, Philippe Schläpfer, Alvaro Rodrigo, Dirk von Grünigen, Nicolas Kaiser, Kurt Stockinger, Eneko Agirre, Mark Cieliebak): Datu baseetako informazioa hizkuntzaren bidez atzitzeko entrenamentu datu-multzoak behar dira. Artikulu honetan halako datu-multzoak sortzeko metodologia berria proposatzen dugu, giza-anotazio abiadura hiru aldiz hobetzen duena aurreko metodoekin konparatuta. Gure esperimentuek erakusten dute kalitate oneko datu-multzoa dela, eta asmatu dugun token alineazioak emaitzak hobetzeko balio duela.

Zorionak guztiei!

Mintegia: Ikasleen testuak ebaluatzeko laguntza automatikoak (A. Horbach, 2019-09-17)

ixa — Thu, 19 Sep 2019 09:42:25 +0000

Irailaren 16tik 27ra Andrea Horbach gurekin izango da bisitan. Enetcollect COST actionaren bitartez etorri da bi asteko egonaldia egitera. Gurekin galderen sorkuntza eta beraien ebaluazioaren inguruan dabil lanean, baina mintegian ikusteko aukera izan genuen moduan, gai gehiagotan dago lanean eta kolaboratzeko prest.

Mintegi-saioa
Non: Informatika Fakultateko Ada Lovelace aretoan
Hizlaria: Andrea Horbach ikertzailea,
Hizkuntza Teknologia Laborategia
University of Duisburg-Essen, Alemania

Eguna: 2019-09-17 ; 15:00 – 16:00
Izenburua: Ikasleak sortutako edukien ebaluazioa, automatikoa edo lagundutakoa, hezkuntza elebakarrean eta hizkunza-artekoan.
/Automated and Assisted Content Scoring in Mono- and Cross-Lingual Educational Settings
Hizkuntza: Ingelesa
Laburpena: Ariketetan erantzunak testu librekoa direnean, ikasleak idatzitako testua ebaluatzeko balio duten sistemek irakasleen zuzenketa-lana erraztu nahi dute eta gainera beti irizpide berdintsuekin egitea dute helburu, zuzenketarako koherentzia lortze aldera. Dena modu automatikoan egitea oso fidagarria ez denez, irakasleak zuzenketa lagundua erabil dezake, sistema horietan ere hizkuntzaren prozesamenduko tresnak baliatzen dira.

Summary:
This talk presents ongoing work of two research projects related to educational scoring: First, we investigate content scoring in a cross-lingual setup, where a model trained on data in one language is applied to new data in a different language in order to foster educational equality as well as to overcome data sparseness. We present our cross-lingual data collection, as well as machine learning experiments using machine translation to bridge the language gap.
In the second part of the talk we present work on assisted scoring of listening comprehension data from language proficiency testing. We show assisted scoring studies where teachers are supported in scoring answers by the use of clustering techniques.

Short bio: Andrea Horbach is a researcher at the Language Technology Lab headed by Prof. Torsten Zesch at the University of Duisburg-Essen, Germany. Last year, she defended her PhD thesis in computational linguistics, titled „Analyzing Short-Answer Questions and their Automatic Scoring: Studies on Semantic Relations in Reading Comprehension and the Reduction of Human Annotation Effort“ at Saarland University under the supervision of Prof. Manfred Pinkal. Her main research interests include educational NLP, such as automatic scoring and exercise generation, as well as the processing of non-standard language. Andrea is visiting San Sebastian within the enetCollect network on crowdsourcing for language learning, as part of an ongoing collaborating with Itziar Aldabe, Oier Lopez de Lacalle and Monte Maritxalar about evaluating manually as well as automatically generated reading comprehension questions.

Vitelio Ruiz lankide kubatarra hil zaigu

ixa — Wed, 17 Apr 2019 07:22:32 +0000

Santiago de Cubako Centro de Lingüística Aplicada (CLA) zentroko sortzaileetako bat izan zen Vitelio Ruiz Hernández irakaslea apirilaren 16an hil zaigu 91 urterekin.

Ixa taldetik agur eta ohore.
Geratzen zaizkigu zuen ekarpenak:

Diccionario Básico Escolar Cubano (DBE) hiztegia, Ixa eta CLAren artean sortutakoa.
Centro de Lingüística Aplicada zentroa. Vitelio sortzaileetako bat izan zen, Eloína Miyares Bermúdez emaztearekin batera. Zentroak 2011. urtean 40 urte bete zituen.
Orain arte antolatu diren 16 Simposioak, Eloína ere antolatzaile izan zen. Hainbatetan izan gara partaideak Ixakideak.

IXA taldea lankidetzan aritu izan da azken 17 urteetan CLA ikergunearekin. Hortik atera da, adibidez, Diccionario Básico Escolar (DBE) hiztegi hori (digitala eta paperezkoa). Hiztegia XMLz kodetuta dago, eta hiztegiak editatzeko Ixa taldean garatu zen leXkit izeneko ingurunea erabiltzen da.

Agur Vitelio (eta Eloína), jarraituko dugu lanean CLArekin.

Mintegia. Itzulpen automatiko gainbegiratu gabea. (M. Artetxe, 2018-12-17)

ixa — Mon, 17 Dec 2018 10:58:41 +0000

Hitzen errepresentazio bektorial elebiduna (Mikel Artetxe)

Noiz: Abenduaren 17an, 15:00etan.
Non: Informatika Fakultateko 3. 2 gelan.
Hizlaria: Mikel Artetxe
Izenburua: Tesi mintegia. Itzulpen automatiko gainbegiratu gabea.

Laburpena:

Mikel Artetxeren tesiaren gaia azalduko da. Eleaniztasuna eta datu-urritasuna uztartzen ditu. Aurkezpen honetan azken urtean esaldien embedding eleanitzen eta itzulpen automatiko gainbegiratu gabearen inguruan eginiko lana azalduko da, baita etorkizuneko ikerketa lerroak eztabaidatu ere.

Informatika eta formazio transbertsala (M. Oronoz, GAUR8, 2018-09-08)

ixa — Sun, 09 Sep 2018 11:31:18 +0000

Informatikak lagun “transbertsal” asko ditu: hizkuntzalaritza, filologia, itzulpengintza, matematika, zuzenbidea, osasungintza, irakaskuntza, aisialdia, bideo-jokoak, industria4.0…
Horrela idatzi du Maite Oronoz Ixakideak GAUR8 aldizkariko “Informatika eta formazio transbertsala” artikulua. Horra artikulu pasarte bat:

“Zeharkako trebakuntzarekin lotura duen adibide bat ikusi dugu dagoeneko. Hizkuntzaren tratamendu automatikoan aritzen diren hizkuntzalariek, chatbot-etan erabiltzen den hizkuntza azter edo sor dezakete, itzulpen automatikoaren garapen eta hobekuntzan lan egin dezakete edo sare sozialetan erabiltzen den hizkuntza azter dezakete sentimenduak identifikatzeko, besteak beste. Hizkuntza oinarrian duten tresna horietan guztietan, ikasketa automatikoan edo programazioan aritzen diren filologoak guztiz beharrezkoak ditugu.
[…]
Argi dago, nire ustez, gure ingurune digitalizatuak trebakuntza profil aberatsak eskatzen dituela. Lan-munduak gero eta gehiago eskatzen ditu algoritmo, teknika informatiko eta datu mota ezberdinetan hainbat alorretan eta hainbat hizkuntzatan lan egingo duten emakume eta gizonak.“

Informatika Fakultateko HP hautazko ikasgaia. Lan praktiko batzuk (2018)

ixa — Mon, 09 Jul 2018 12:03:00 +0000

Informatika Fakultateko Hizkuntzaren Prozesamendua ikasgaian bi lan praktiko egiten ditu ikasleak.Lehenengoa Wikipediarekin eta bigarrena aplikazio praktiko bat da.

Lehenengo praktikan Hizkuntza-Teknologiako aplikazio mota bat aztertzen du:

Zeintzuk dira produktu erabilienak gaur egun? Zein hizkuntzatarako? Zein da aplikazio horien oinarri informatikoa? Adibidez: Iritzi-meatzaritza, Informazioa bilatzea, informazioa erauztea, itzulpengintza automatikoa, hizketa bidezko interfazeak testuen ediziorako laguntzak, galdera-erantzun sistemak. testuen laburpen automatikoa… (ikus Hizkuntzaren_prozesamendua Wikipedian).

Chatbot artikulua Euskal Wikipedian

Aurten lehen lan hori Wikipediaren bitartez egin dugu. Guztira 17 artikulu berri, 206.267 karaktere eta 41 irudi gehitu genituen. Apiriletik hona artikulu horiek 2,470 aldiz kontsultatu dira : – )
Sortu ditugun artikulu berriak:
Chatbot, Google Assistant, Siri, Microsoft Cortana, Sentimenduen analisi, Word embedding, Word2vec, IXA pipes, Moore makina, Mealy makina, WordNet, Euskal WordNet, Itzulpen automatiko neuronal, Google Translate, Tf–idf, Kleene izar, eta Neurolinguistika.
Partehartzaileak:
Aitidina, Ainhoa54, Aodriozola023, Satantxiki, Jsautua001, Ehernandez035, XLekunberri, Aritzh, Aelu013, Mssebastian, Jcampandegui, Ilanda020, Atriguero, Eneks, Oaguinagalde002, eta Fofrito.

Ikus albiste hau Fakultatean: Wikipediako Hezkuntza proiektua, gure fakultatearen ekarpena

Bigarren praktikan ikasleak bere aplikazio xume bat sortzen du. Aplikazio tipiko bat Twitterreko hainbat eta hainbat txio bildu eta horiek aztertzea izan daiteke. Txio guzti horien testuak analizatuta aztertzen dugu ea gehiago diren iritzi negatibodunak edo positibodunak.

Baina Twitter izan gabe ere beste iturri batzuk edo beste aplikazio batzuk azter daitezke, adibidez: Mikel San Sebastián ikasleak historiako 8 liburu aztertu ditu IXA pipes tresnarekin eta webgune bat sortu du (https://hpeia.000webhostapp.com/Inicio.php) liburu horietan azaltzen diren pertsonak, erakundeak eta tokiak zein urtetan aipatu izan diren erakusteko.

Liburu guzti hauek landu ditu:
Intervención en Navarra (Koldo San Sebastián), La historiografía modernista en la universitat de Valencia (Manuel Ardit), La música instrumental en el Renacimiento (Jose Ignacio Suarez Garcia), Historia de una historia (Ma. José García Quintana), Inventario general de Manuscritos de la biblioteca nacional. Un legado que perdura (John eta Mark Bieter Garmendia) , Las devociones marianas españolas en el Brasil colonial (Carlos Javier Castro), Revista de Historia Moderna No 33, Revista de Historia Moderna No 28, La colonia de Filipinas (Gemma Quincoces Herreros)

Ikasleek egin dituzten beste lan batzuk:

Aitzol Elu, Kantuak bilatu, hitzen esanahia erabilita (semantika distribuzionala).
Iñaki Landa: Aplikazio baten lokalizazioa Androiden. Nola euskaratu aplikazio bat?
Eneko Ortiz de Zarate. Semantika Distribuzionala: Hizkuntzen arteko antzekotasun lexikala irudikatzea.
Unai Cantero eta Julen Pérez-Cortés. Twitter kontu bateko txioen polaritatea aztertzea eta bisualizatzea.
Oscar Aguinagalde eta Josu Campandegui. Matxin itzultzailearen APIa erabiltzea Wikimedia Commons-eko argazkien oinak (captions) itzultzeko.
Ainhoa Pato eta Alexander Triguero. Dokumentu-sailkapena.
Xabier Lekunberri eta Javier Sautua: PythonUEU liburua. 12. Testuak lantzen HPko ariketak
Aritz Lopez eta Elena Hernandez: Euskal Wikipediaren testuzko bertsio batetik abiatuta polaritate negatiboa duten artikuluak detektatzea.
Gorka Urbizu. Korreferentziaren ebazpenerako embeddingen konparaketa (dimentsioak eta stemmerra)
Ane Odriozola. Zer ikasiko dut unibertsitatean? Aholkularitza-zerbitzu batean egin ziren galdera eta erantzun ugari ditugu errepositorio batean. Galdera berri bat emanda jakin nahi dugu zein den errepositorioko galdera antzekoena, eta eman zitzaion erantzuna.