argitalpena – Hizkuntza-teknologiak, Ixa Taldearen bloga

EusCrawl: kalitate handiko euskal corpusa

ixa — Wed, 16 Mar 2022 11:28:26 +0000

Adimen artifizialaren erronka nagusietako bat konputagailuek gizakion hizkuntza ulertzea da, eta hori da hain zuzen Hizkuntzaren Prozesamenduaren helburua. Adimen artifizialaren arlo honek iraultza handia jazo du azken urteetan, ikasketa sakona edo “deep learning” teknikei esker eta, zehatzago esateko, hizkuntza-eredu deritzon teknologiari esker.

Hizkuntza-ereduak testu kopuru handiak erabiliz entrenatzen dira, eta, testua irakurriaz, gai dira hizkuntzaren egitura ikasi eta testu berriak sortzeko. Gaur egungo hizkuntzaren prozesamenduko aplikazioen muinean aurki ditzakegu hizkuntza-ereduak, dela bilaketa eta galderen erantzunean, itzulpen automatikoan, ahotsaren ezagutzan edo elkarrizketa-sistema zein txatbotetan. Labur esateko, hizkuntza-ereduak dira hizkuntzaren inguruan egiten diren aplikazio gehienen motorra, eta testuak dira motor horren gasolina.

Hizkuntza-eredu onak eraikitzeko behar den testu kopurua astronomikoa da. Ingelesa bezalako hizkuntzetarako testuak aurkitzea ez da arazoa; nahi adina testu dugu hizkuntza horretan Interneten. Testu multzo izugarri handiak batu izan dira horrela, adibidez 156 mila miloi hitz dituen Colossal Clean Crawled Corpus (C4) izeneko corpusa (https://github.com/allenai/c4-documentation). Pertsona batek 2000 urte beharko lituzke hori dena irakurtzeko, egunean 10 ordu irakurriz gero. Horiei lotuta eraikitako hizkuntza-ereduak ere erraldoiak dira, tartean BERT-large (350 milioi parametro), eta ezagunena, komunikabideetan hainbat aldiz aipatu den GPT-3 (175 mila miloi parametro). Hizkuntza-eredu horiek adimen artifizialean eraiki izan diren gailu konplexuenetakoak dira parametro kopuruan, eta milioika euro gastatu izan dira beraiek entrenatzeko behar den konputazioan (adibidez, 4 miloi dolar inguru GPT-3 entrenatzeko).

Euskara bezalako baliabide urriko hizkuntzetarako, baina, tamaina handiko testu masak biltzea arazo zaila da. Euskararen kasuan existitzen diren eta eskura dauden testu masa handienak Google eta Meta-AI (lehen Facebook) enpresek Internetetik automatikoki jaitsi eta dokumentuen hizkuntza programa bidez identifikatu izan dituzten mC4 eta CC100 corpusak dira. Lehenbizikoak euskarazko mila miloi hitz dauzka eta bigarrenak 416 miloi hitz. Horien kalitatea zalantzan jarri izan da ordea, Internet zaratatsua delako eta dokumentuak euskaraz daudela ziurtatzen duen programa automatikoak akatsak egiten dituelako.

EusCrawl-en garrantziaz

Gabezia horri erantzutera dator EusCrawl. Corpusa osatzen duten dokumentuak modu librean bana daitezke, Creative Commons familiako lizentziekin[1]. 12.5 milioi dokumentu eta 288 milioi hitzez osatuta dago, eta eskuz aukeratutako Interneteko hainbat webgunetatik dokumentuak xurgatuz (crawl ingelesez) osatu da.

Corpusarekin batera, EusCrawl-ekin entrenatutako bi hizkuntza-eredu sortu ditugu, horietako bat egun euskararako dagoen eredurik handiena, 355 Milioi parametrokoa.

EusCrawl corpusa publikoa izateak euskarak duen nazioarteko ikusgarritasuna areagotzen du, eta mundu zabaleko ikertzaileek euskararako baliabide hobeak sortzea dakar horrek. Esate baterako, dagoeneko badakigu EusCrawl BigScience proiektuan erabiliko dela, helburu bezala hizkuntza-eredu eleaniztun eta erraldoi librea eraikitzea duen proiektua, horretarako bost milioi konputazio-ordu erabiliz. Hortaz, sortutako hizkuntza-ereduak euskaraz ere jakingo du. EusCrawl bezalako baliabideak publiko jartzea urrats ezinbestekoa da euskara plaza digitalera jalgi dadin.

Hizkuntzaren prozesamendua eta adimen artifizialaz aparte, EusCrawl corpusa baliabide ezin hobea da hizkuntza bera aztertu nahi duenarentzat. Ez da ahaztu behar corpusen ustiapena dela gaur egun hizkuntzalaritzaren muinetako bat, hizkuntzaren erabilera errealaren gordailuak diren neurrian. Euskarazko corpus handiak bildu izan dira aurretik ere, eta publikoki kontsultagarri jarri, baina EusCrawl osorik deskargatu eta berrerabiltzeko aukera dago. Azpimarratu behar da ez dela gauza bera corpusa kotsultagarri jartzea ala deskargatzeko moduan jartzea. Kontsulta soilek ez dute aukerarik ematen benetako azterketa linguistikoak eta ikerkuntzak egiteko.

EusCrawl-i esker ikasi dugunaz

Corpusa biltzarekin batera, EusCrawl-ekin sortutako hizkuntza-ereduak beste corpusekin sortutakoekin alderatu ditugu, hizkuntzaren prozesamenduko hainbat atazatan beraien kalitatea neurtuaz. Esperimentuek adierazten dute garrantzitsuagoa dela testu kopurua, testuen kalitatea baino. Gaur egun ezagunak diren euskarazko corpus guztiak bilduta ere, hizkuntza nagusien corpusen tamainatik oso urruti geldituko ginateke, eta horrek euskarazko hizkuntza-ereduei goi-borne bat ezartzen die. Ondorioz, arriskua dago euskararentzat sor daitezkeen tresnen kalitatea ingelesa bezalako beste hizkuntzen mailara ez iristeko.

Horren aurrean, euskara eta baliabide urriko beste hizkuntzen teknologiak aurrera egin dezan, bi helburu estrategiko azaltzen zaizkigu.

Corpus handiagoak biltzea, euskaraz ekoizten den eduki gehiago eskuragarri jarriz. EusCrawl eraikitzea posible izan da Berria, Argia, eta beste hainbat euskal komunikabideei esker, edukia lizentzia librean banatzen dute eta. Ezinbestekoa da gainontzeko ekoizleak ere bide horretara batzea.
Testu gutxiagorekin ikasiko duten hizkuntza-ereduen ikerketa sustatzea. Tamalez aurreko ahaleginak muga bat du, hizkuntza baten idazten den testu kopuruaren araberakoa. Egun dauden teknikekin eraikitako metodoez haratago, testu gutxiagotik ikasiko duten hizkuntza-ereduak behar ditu euskarak. Euskararako tresnak kalitatezkoak izan daitezen estrategikoa da ikerketa-lerro hau bultzatzea.

Corpusa http://ixa.ehu.eus/euscrawl helbidean aurki daiteke, eta xehetasun guztiak, berriz, https://arxiv.org/abs/2203.08111 artikuluan. EusCrawlekin sortu diren hizkuntza-ereduak zein ikerketa-esperimentuak Hitz Zentroa (UPV/EHU) eta Meta-AI erakundeen arteko elkarlana izan da.

[1] Dokumentuen %20a inguru CC-BY-NC/CC-BY-ND lizentziarekin banatzen dira. Horiek partekatu eta moldatu daitezke, beti ere merkataritza-xedeetarako ez badira (NC), edo lan eratorririk banatzen ez bada (ND).

IKERGAZTEko sari berezia Joseba Fernandez de Landa-ri

ixa — Fri, 11 Jun 2021 13:35:09 +0000

Joseba Fernandez de Landak gaur Gasteizen bukatu den IkerGazte kongresuko sari berezia jaso du. Udalbiltzak eskaintzen du sari hori, Euskal Herriko garapenerako bereziki garrantzitsua den gaia lantzeagatik. Ingeniaritza eta Arkitektura alorrean egin du artikulu hori Josebak beste hiru Ixakiderekin: Iker García, Ander Salaberria, eta Jon Ander Campos,.

Joseba soziologoa da gizartearen kezkak nondik nora mugitzen diren aztertu nahi du. Bere tesian Twitterreko txioetan erabiltzen diren hitzak aztertzen ditu. urtez urte nola aldatzen diren miatzen du hizkuntza teknologia erabiliz. Ikergazte artikulu irabazle honetan Hizkuntzaren Prozesamenduak eskaintzen dituen teknika ez-gainbegiratuak erabili ditu euskarazko txioetan COVID-19aren pandemiak izan duen eragina aztertzeko.

Irakurri artikulu osoa, Kongresuko artikulu bilduman irakur dezakezu 137. orrialdean. Motibazio moduan hemen dituzu bertako irudi batzuk

Zeintzuk dira pandemia garaian erabileran hazkuntza nabarmena izan duten hitzek? Eta jaitsiera handiena jaso dituztenak? Logika dauka, ez da?
Zeintzuk dira txioetan Covid hitzaren inguruan gehien erabili diren hitzak?

ZORIONAK Josebari eta bere zuzendaria den Rodrigo Agerriri!
Baita Iker, Jon Ander eta Ander laguntzaileei

IXAmBERT: Berri onak baliabide gutxiko hizkuntzentzat!

ixa — Wed, 30 Sep 2020 10:23:11 +0000

Berri onak baliabide gutxiko hizkuntzentzat!
Ixa taldean aurre-entrenatutako hizkuntz eredu elebakarra eta eleaniztuna biak ala biak oso erabilgarriak dira euskararen prozesamenduko zereginetan! Euskaraz egindako galderak euskaraz automatikoki erantzuteko sistema batean adibidez.
Nahiz eta ingelesezkoa baino 500 aldiz txikiagoa den corpus batekin eta 80 aldiz txikiagoa den Euskal Wikipediarekin sortu ditugun, gure hizkuntza-eredu berri hauek emaitza onak eman dituzte.

Elkarrizketa eredu bat. Ingelesezko transkripzioarekin.

Hitz-bektoreek (word embedding-ak) eta aurrez entrenatutako hizkuntza-ereduek testuen errepresentazio aberatsak eraikitzeko aukera ematen dute, eta, horri esker, hobekuntzak egin ahal izan dira Hizkuntzaren Prozesamenduko ataza gehienetan. Zoritxarrez, errepresentazio horiek oso garestiak dira entrenatzeko, eta enpresa txiki eta ikerketa-talde askok eurenak eraiki beharrean, Googlek aurrez entrenatutako eta eskura jarritako ereduak baino ez dituzte erabiltzen. Hori ez da biderik onena, hizkuntza askotan ereduak enpresa txikiagoetan (edo kalitate txikiagokoetan) entrenatu baitira. Gainera, ingelesa ez diren hizkuntzetarako beti ez daude erabilgarri aurrez entrenatutako eredu elebakarrak. Kasurik onenean, hizkuntza horietako ereduak bertsio eleaniztunetan sartzen dira, eta hizkuntza bakoitzak gainerako hizkuntzekin partekatzen ditu tamaina eta parametroen zati bat. Hori egia da, bereziki, hizkuntza txikienetarako, hala nola euskararako.

Joan den apirilean Ixa Taldean erakutsi genuen euskarazko corpus handiekin (on-line egunkarietatik arakatuak) trebatutako zenbait eredu elebakarrek (FastText word embeddings, FLAIR eta BERT hizkuntza-ereduak) emaitza askoz hobeak eman zituztela Hizkuntzaren Prozesamenduko zereginetan, publikoki eskuragarri zeuden bertsioek baino. Besteak beste, emaitza hobeak lortu ziren gai-sailkapenean, sentimenduen analisian, baita PoS eta NER etiketatzean ere. Lan hori “Give your Text Representation Models some Love: the Case for Basque” izeneko artikuluan aurkeztu genuen. Hona hemen esperimentu horretan erabilitako Corpusaren osaketa:

Iturria	Testu mota	Milioi token
Euskal Wikipedia	Entziklopedia	35M
Berria egunkaria	Albisteak	81M
EiTB	Albisteak	28M
Argia aldizkaria	Albisteak	16M
Herri aldizkariak	Albisteak	224.6M

Kontuan izan ingeleserako BERT hizkuntza-eredu originala Google Books corpus erabiliz entrenatu zela. 155 mila milioi hitz ditu iamerikako ingelesez, eta 34 mila milioi hitz ingeles brikanikoz. Ingelesezko corpusa euskarazkoa baino 500 aldiz handiagoa da.

Agerri

San Vicente

Campos

Barrena

Otegi

Saralegi

Soroa

E. Agirre

Sistema berriarekin egindako elkarrizketa bat

Orain, irailean, IXAmBERT argitaratu dugu, ingeleserako, gaztelaniarako eta euskararako aurrez prestatutako hizkuntza-eredu eleaniztuna. Eta arrakastaz erabili dugu euskarazko elkarrizketetan galderak erantzuteko sistema batean. Transferentzia-esperimentu horiek Googleren mBERT eredu ofizialarekin egin litezke ere, baina, Googleren ereduan hizkuntza asko direnez, euskara ez dago oso ondo ordezkatuta. Ingelesa, gaztelania eta euskara soilik dituen eredu eleaniztun berri hori sortzeko, apirilean aurkeztutako ereduaren konfigurazio bera erabili dugu. Euskal eredu sortzeko corpus elabkar bera erabili dugu berriz ere, eta gainera Ingeles Wikipedia eta espainierazkoa gehitu ditugu, hurrenez hurren, 2.5 G eta 650M tokenekin. Wikipedia horien tamainak euskarazkoa baino 80 eta 20 aldiz handiagoa dira.

Berri ona zera da, eredu hori arrakastaz erabili dugula ingelesezko testuetan dagoen ezagutza euskarara transferitzeko, elkarrizketa bidezko galdera-/erantzun-sistema baten bidez. Artikulu honetan azaldu dugu: Conversational Question Answering in Low Resource Scenarios: A Dataset and Case Study for Basque. IXAmBERT izeneko gure hizkuntza-eredu berria erabiliz mBERT eredu generikoarekin baino hobeto egin zen ingelesaren ezagutza euskarara transferitzea. Galderak euskaraz egin, informazioa ingelesez, espainieraz eta euskarazko wikipedietan bilatu eta erantzuna euskaraz eman. Taula honetan ikus daiteke zenbatekoa da hobekuntza:

Eredua	Zero-shot	Transfer learning
Baseline	28.7	28.7
mBERT	31.5	37.4
IXAmBERT	38.9	41.2
mBERT + history	33.3	28.7
IXAmBERT + history	40.7	40.0

Taula horretan, Elkarrizketa Bidezko Galderak Erantzuteko (CQA, Conversational Question Anwering) euskarazko sistema baten emaitzak agertzen dira. Zero-shot-ek esan nahi du eredua fine-tuned dagoela QuaC, CQA datu-multzo ingelesa erabiliz. Transfer Learning konfigurazioan, eredua lehenengo aldiz QuaC-n zehazten da, eta gero euskal CQA datu-multzo batean.

Lan hauek koxka bat gorago ezartzen dute artearen egoera euskararako zeregin horietan.
Lan honetan erabilitako datuak eta eredu guztiak eskuragarri daude publikoki: https://huggingface.co/ixa-ehu/ixambert-base-cased

Izen+aditz konbinazioen erauzketaz PLOS ONE aldizkarian

ixa — Wed, 02 Sep 2020 07:52:01 +0000

Gorka Labaka

Uxoa Iñurrieta

Uxoa Iñurrietak bere tesian izen+aditz konbinazioen itzulpena (gaztelaniatik euskarara) eta tratamendu konputazionala aztertu zuen 2019an. Eta tesitik eratorritako artikulu bat argitaratu du abuztuan PLOS ONE aldizkarian.

Learning about phraseology from corpora: A linguistically motivated approach for Multiword Expression identification.
Uxoa Inurrieta, Itziar Aduriz, Arantza Díaz de Ilarraza, Gorka Labaka, Kepa Sarasola

Galdera honi erantzun dio artikuluarekin: Nola detektatu izen+aditz konbinazio berezi horiek masiboki eta automatikoki corpus elebakarra eta elebiduna edukiz gero? Eskuzko lana murriztu eta detektatuko konbinazioen kopurua handitu nahi da.

Metodo bat asmatu da hori egiteko, eta ebaluatu ondoren ikusi da baliagarria dela. Perfektoa ez dela, ez, baina baliagarria bai.

Konbinazio horien informazio morfosintaktiko espezifikoa erabilgarria dela ikusi zen lehenago. Aurreko lan batean egiaztatu zen informazio lexikal eta morfosintaktikoa erabiltzea eragin positiboa izan zuela bai identifikazioan, bai itzulpen automatikoan. Hala ere, konbinazio kopuru ez-handi bat baino ez zen aztertu, eta, analisi-prozesua eskuzkoa izanik, metodoak eskalagarritasun-arazo argia zuen. Orain argitaratutako artikuluak atea irekitzen dio konbinazio berezi horiek masiboki eta automatikoki jasotzeari.

Lan horrekin lotuta dauden beste argitalpen batzuk:

Ez burua hautsi, Matxin! Elhuyar aldizkaria
Izen+aditz konbinazioen itzulpenaz eta tratamendu konputazionalaz
Senez itzulpen-aldizkaria
Using Linguistic Data for Verb-Noun Combination Identification
COLING 2016
Uxoa Iñurrietak parte hartu zuen Wolfram deuna 2016 umorezko saioan. Ikusi behean Teknopolis programako albistea (Uxoarena: 2’10”).

Bost artikulu onartuta Association for Computational Linguistics kongresuan

ixa — Tue, 05 May 2020 07:26:23 +0000

Aurten ospatuko den Association for Computational Linguistics (ACL) kongresuko 58. edizioan Ixa taldeko kideek kolaboratzaileekin batera bost artikulu aurkeztuko dituzte. ACL kongresua Hizkuntzaren Prozesamenduko kongresurik garrantzitsuenetakoa da eta uztailean Seattlen egin behar zen, baina aurten sarean izango da.

Hemen duzue ixakidei eta kolaboratzeei onartutako artikuluei buruzko informazioa:

– Selecting Backtranslated Data from Multiple Sources for improved Neural Machine Translation (Xabier Soto, Dimitar Shterionov, Alberto Poncelas, Andy Way): Atzeranzko itzulpen sistema anitzen bitartez itzulitako datuek eu-es eta de-en domeinu klinikoko Itzulpen Automatiko Neuronaleko sistemetan duten eragina aztertzen dugu, eta Datu Hautaketa (DH) erabiltzen dugu corpus sintetikoa optimizatzeko. Ondoren, DHren irteera birkalkulatzen dugu atzeranzko itzulpena egiteko erabilitako sistemen kalitatea eta sortutako corpora sintetikoen aniztasun lexikoa kontuan hartuz.

– On the Cross-lingual Transferability of Monolingual Representations (Mikel Artetxe, Sebastian Ruder, Dani Yogatama): BERT eredu elebakar bat maila lexikoan beste hizkuntzetara transferi daitekeela erakusten dugu, BERT eleaniztunaren inguruko aurreko hipotesiak zalantzan jartzen dituena.

– A Call for More Rigor in Unsupervised Cross-lingual Learning (Mikel Artetxe, Sebastian Ruder, Dani Yogatama, Gorka Labaka, Eneko Agirre): Iritzi-artikulu honetan ikasketa eleaniztun gainbegiratu gabearen motibazio, definizio, hurbilpen eta metodologia berrikusten ditugu, eta euretako bakoitzean zorrotzago jokatzeko deia egiten dugu.

– DoQA – Accessing Domain-Specific FAQs via Conversational QA (Jon Ander Campos, Arantxa Otegi, Aitor Soroa, Jan Deriu, Mark Cieliebak, Eneko Agirre): DoQA datu-multzoa aurkezten dugu, FAQetako informazioa elkarrizketa bidez atzitzeko balio duena. 2.437 elkarrizketa ditu 3 domeinu desberdinetan: sukaldaritza, bidaiak eta filmak.

– A Methodology for Creating Question Answering Corpora Using Inverse Data Annotation (Jan Deriu, Katsiaryna Mlynchyk, Philippe Schläpfer, Alvaro Rodrigo, Dirk von Grünigen, Nicolas Kaiser, Kurt Stockinger, Eneko Agirre, Mark Cieliebak): Datu baseetako informazioa hizkuntzaren bidez atzitzeko entrenamentu datu-multzoak behar dira. Artikulu honetan halako datu-multzoak sortzeko metodologia berria proposatzen dugu, giza-anotazio abiadura hiru aldiz hobetzen duena aurreko metodoekin konparatuta. Gure esperimentuek erakusten dute kalitate oneko datu-multzoa dela, eta asmatu dugun token alineazioak emaitzak hobetzeko balio duela.

Zorionak guztiei!

Ixa Taldearena da Testu Klinikoen Prozesamenduaz 2017ko 3 artikulu onenetako bat

ixa — Fri, 28 Jun 2019 21:02:26 +0000

Testu Klinikoen Prozesamenduaz 2017an argitaratutako 3 argitalpen onenen artean aukeratu dute Arantza Casillas, Koldo Gojenola, Maite Oronoz eta Alicia Perez IXAkideek idatzitako artikulu bat.

Artikuluaren izenburua “Semi-supervised medical entity recognition: A study on Spanish and Swedish clinical corpora” da, hau da: Semi-gainbegiratutako entitate medikoen antzematea: espainieraz eta suedierazko corpus klinikoen gaineko azterketa bat.
Suediako Stockholm-eko Unibertsitatearekin lankidetzan egindako ikerketa baten emaitza da artikulua, Biomedical Informatics aldizkarian 2017an argitaratu zena. Egile guztiak hauek dira: Pérez A, Weegar R, Casillas A, Gojenola K, Oronoz M, eta Dalianis H.

Bilaketa bat egin zen PubMed eta Association of Computational Linguistics Antology datu-base bibliografikoetan. Emaitza klinikoetara lortzearren testu klinikoen gainean egindako azterketak bilatu ziren. Guztira 709 artikulu automatikoki sailkatu ziren eta eskuz berrikusi ziren. Arloko editoreek 15 artikulu onenak hautatu zituzten, eta gero kanpoko ebaluatzaile independenteek aukeratu zituzten testu klinikoen prozesamenduko hiru paper onenak.

Epaileek esan dute artikuluak suedierazko eta gaztelaniazko testu klinikoetan izendatutako entitateen ezagutza jorratzen duela; eta gainera, metodo aldetik egindako ekarpena azpimarratzen dute entrenamendurako datu gutxi duten testuinguruetan erabilgarria delako, hau da, ingelesa ez den beste hizkuntza batzuetan edo mediku espezialitate berri batean gertatzen denean.

Aukeratze prozesua “Yearbook of Medical Informatics” aldizkarian argitaratu dute Aurélie Névéol-ek eta Pierre Zweigenbaum-ek arttikulu honetan: “Expanding the Diversity of Texts and Applications: Findings from the Section on Clinical Natural Language Processing of the International Medical Informatics Association Yearbook“,

4 ixakide #txiotesia4 lehiaketan

ixa — Fri, 23 Nov 2018 13:54:23 +0000

2018ko azaroak 20an, asteartean, “Txiokatu zure tesia 6 mezutan” lehiaketaren 4. edizioa antolatu du UEUk. Guztira 33 lehiakide aurkeztu dira

Ixa taldeko lau kidek parte hartu dute #txiotesia4 lehiaketa horretan. Irakurri txioak, hauek izan dira:

Osasun-alorreko euskara-gaztelera itzultzaile automatikoa

Egilea: Xabier Soto Garcia @xabi_soto

Etiketak: Informatika osakidetza Itzulpengintza IxaTaldea Hizkuntzalaritza

Osasun-alorreko termino sorkuntza automatikoa: SNOMED Ctren eduki terminologikoaren euskaratzea

Egilea: Olatz Perez de Viñaspre @olatz87

Etiketak: UPV/EHU IxaTaldea Hizkuntzaren Azterketan eta Prozesamendua

Gehiago irakurri

Sentimendu analisia euskaraz: hizkuntza-maila ezberdinetako balentzia aldatzaileen bila

Egilea: Jon Alkorta @JAlkAgi

Etiketak: hizkuntzalaritza IxaTaldea UPV/EHU

Euskarazko denbora-egituren azterketa eta corpusaren sorrera

Egilea: Begoña Altuna @bgogafiki

Etiketak: corpusa hizkuntzalaritza IxaTaldea UPV/EHU

Humanitate digitaletan aukerak (sarean.eus)

ixa — Fri, 23 Nov 2018 09:37:20 +0000

Humanitate Digitalak: Giza eta gizarte zientzietan ikertzeko metodo berriak artikulua idatzi dute Eneko Agirrek eta Iñaki Alegriak sarean.eus webgunean. Hona hemen horko zati batzuk:

“Giza eta gizarte-zientzietan ohikoak diren esperimentu kualitatiboetatik emaitza kuantitatiboetara eramateko aukera ematen ditu hizkuntz teknologiek, eta bestalde, humanitateek erronka berriak eskaintzen diete teknologoei. Historia, kultura eta literatura, kazetaritza, soziolinguistika, arkeologia eta beste jakintza arlo askotan aldaketa sakonak sumatzen ari dira ikerketa metodoetan. Kritikak ere badaude.”

[…]

“Europan Clarin ikerketarako azpiegitura sarea hedatu da arlo berri honi begira eta Ixa taldeak hartzen du parte bertan. Tresna orokor gisa Analhitza eskaintzen dugu norberak bere testuak prestatu eta analizatuta jaso ditzan.”

[…]

“Soziolinguistikan bi proiektu garatu dira gure inguruan, Twitterreko testuak iturritzat hartuta eta HAP/LAP masterreko ikasleen amaierako lanetan oinarrituta, bat gazteen mintzagaiak eta sareak identifikatzeko, eta bestea corpus interesgarri bat sortzeko kode alternantziari (code switching) begira. Bi lanetako oinarrian “Computational sociolinguistics: A survey.“ izeneko artikulu interesgarria dago, azpiarlo honetarako ezinbesteko erreferentzia dena. Gazteen mintzagaien inguruan, adibidez ondoko taula interesgarria eskaintzen da aipatutako lanean”

[…]

“Historian aukera handiak daude azken urteotan digitalizatutako testuak ustiatzeko. Adibide gisa artikulu honetan (Whodunit. . . and to Whom? Subjects, Objects, and Actions in Research Articles on American Labor Unions) Vilja Huldenek analisi sintaktiko automatikoa erabiltzen du lan munduaren soziologia historikoan ikertzeko. Nork, nori, zer, non, noiz identifikatzea datuetan oinarritutako kazetaritzaren funtsean dago. Arkaitz Zubiagaren lana azpimarragarria da arlo horretan, Korrikaren inguruko argitalpen honetan egiaztatu daitekeen moduan. Hainbat oinarrizko teknologia erabiliz eta konbinatuz oso emaitza interesgarriak lortzen ditu, adibidez gaiaren inguruko sare hau:”

[…]

“Edonola ere susmoa dugu Humanitate Digitalek duten potentzia baliatzeko hasieran gaudela, eta Euskal Herrian aukera handiak ditugula lan interesgarriak aurrera eramateko. Horretarako beharrezkoa litzateke aipatutako arlo guztien artean lankidetza handitzea ingurune digitalean. Administrazioaren laguntza ere ez litzateke gaizki etorriko.”

Artikulu osoa sarean.eus webgunean irakur dezakezu (Humanitate Digitalak: Giza eta gizarte zientzietan ikertzeko metodo berriak).

Artikulu onenaren saria CoNLL2018 biltzarrean

ixa — Fri, 09 Nov 2018 16:18:01 +0000

Lehengo astean CoNLL 2018 biltzar zientifikoko artikulu onenaren saria eman zieten Mikel Artetxe, Gorka Labaka, Iñigo Lopez-Gazpio, eta Eneko Agirre ixakideei. “Hizkuntza-ikasketa konputazionala” da CoNLL biltzarreko ikergaia (22nd Conference on Computational Natural Language Learning, CoNLL 2018).

Zorionak!

Saritutako artikuluaren izenburua hau da: “Uncovering Divergent Linguistic Information in Word Embeddings with Lessons for Intrinsic and Extrinsic Evaluation”

Euskaraz: “Informazio linguistiko dibergentea azaleratzen hitzen bektore-errepresentazio distribuzionaletan, ebaluazio intrinseko eta estrinsekorako zenbait ikasgairekin”.

Laburpena:

Hitzen bektore-errepresentazio distribuzionalen arrakastaren harira, hitzen errepresentazio idealik ez dagoela argudiatu izan da, eredu ezberdinek elkarren artean bateraezinak diren ezaugarriak kodetzen baitituzte, semantika/sintaxia eta antzekotasuna/erlazioa kasu. Artikulu honetan, eredu distribuzionalek zuzenean azaleratzen dutena baino informazio gehiago jasotzen dutela erakusten dugu. Transformazio lineal batek ereduaren antzekotasun-ordena egokitu dezake kanpoko baliabiderik erabili gabe, ezaugarri horietan emaitza hobeak lortzeko. Horrela, bektore-errepresentazio distribuzionalek informazio linguistiko desberdin horiek nola kodetzen dituzten azaltzeko ikuspegi berri bat eskaintzen dugu. Gainera, ebaluazio intrintseko eta estrintsekoen arteko erlazioa aztertu dugu, downstream zereginetan transformazioen eragina handiagoa baita gainbegiratu gabeko sistemetan gainbegiratuetan baino.

Artikuluan erabili diren programen inplementazio irekia eta ebaluaziorako ingurunea jaso daitezke GitHubetik: UncoVec

Ixa Taldea Arantzazuko Biltzarrean (2018-10-04)

ixa — Fri, 12 Oct 2018 09:36:39 +0000

Felix Ibargutxik DVn argitaratutako zutabea (2018-10-05)

Joan den astean, Xabier Artola Zubillaga taldekideak hitzaldia eman zuen Euskaltzaindiaren XVII. Biltzarrean (Arantzazutik mundu zabalera), Arantzazun. Hitzaldia Euskaltzaindiaren eskariz prestatu genuen, eta biltzarreko “Euskara batuaren etorkizuneko erronkak ingurune digitalean” izeneko saioan aurkeztu zuen Xabierrek, honako izenburu honekin: “Euskara (batua) ingurune digitalean: bidean ikasiXa eta etorkizuneko erronkak”.

Hizkuntzaren eta teknologiaren arteko bidegurutzeari buruzko hausnarketa txiki bat egin ondoren, hizkuntzaren tratamenduari buruz aritu zen aurkezpenean: hizkuntzaren tratamendua zer den, ikerkuntza eta formazioa zertan diren, arloan zertan ari garen (Ixa Taldean zein Euskal Herriko beste zenbait laborategi eta zentro teknologikotan) eta zertan ari diren hemengo erakundeak nahiz Europa eta Espainiakoak.

Gero, aurrerantzean nondik jo aipatu zuen, zenbait alderdi jorratuz: corpusgintza (Euskararen Erreferentzia Corpusa sortu beharra aipatu zuen, bereziki, sakabanatutako ahaleginak bateratu beharra eta edukiak ikerkuntzarako trabarik gabe zabaltzearen premia azpimarratuz), arauak eta estandarra, hiztegigintza eta terminologia, itzulpen automatikoa eta humanitate digitalak.

Bukatzeko, ondorio eta proposamen batzuk aletu zituen. Ondorioen artean, hauek:

Hizkuntza-teknologien arloak garrantzi estrategikoa du hizkuntzaren etorkizunari begira.
Hizkuntza-teknologia ardatz bat izango da Europan –eta Espainian– hurrengo urteetan, eta inbertsioak egingo dira. Euskal Herrian ere pareko plan bat behar genuke lehenbailehen.
Trena ez galtzeko, ikerkuntza eta trebakuntza espezializatuak bultzatzu behar dira, ez da aski egiten ari garena.
Hala ere, egokiera onean gaude erronkari heltzeko, aurretik egindako lanean oinarrituta; baina sinetsi eta mugitu beharra dago!

Eta hiru proposamen hauek ere egin zituen, dagokionak aintzat har ditzan:

Erreferentzia-zentro bat sortzea unibertsitatearekin eta Langune/Eiken-ekin lankidetzan. UPV/EHUren barruan sortu berri dugun HiTZ zentroa litzateke erreferentzia-zentro horri begirako lehen urratsa.
Arloa Eusko Jaurlaritzaren hurrengo zientzia-planaren lerro nagusien artean sartzea, estrategikotzat hartzea.
Euskaltzaindia ere eragile izatea honetan guztian, duen erreferentzialtasuna administrazioen aurrean baliatuz, gauzak bizkortu daitezen.

Hona hemen aurkezpenaren PDFa.
Eta bideo-grabazioa:

“Euskara batuaren etorkizuneko erronkak ingurune digitalean” saioko beste bi aurkezpenak:

Aztiria Josu (Elhuyar) – Euskara batuaren erronkak hizkuntza teknologien eta adimen artifizialaren garapenean
Arregi Ainhoa (UZEI) – Bidean ikasitakoarekin etorkizuneko erronkei aurre egiten 20181004