Lankidetzak – Hizkuntza-teknologiak, Ixa Taldearen bloga https://www.unibertsitatea.net/blogak/ixa IXA taldea. Hizkuntzaren prozesamendua Wed, 31 May 2023 21:32:01 +0000 eu hourly 1 https://wordpress.org/?v=4.9.23 https://www.unibertsitatea.net/blogak/ixa/files/2018/10/ixa.jpg Lankidetzak – Hizkuntza-teknologiak, Ixa Taldearen bloga https://www.unibertsitatea.net/blogak/ixa 32 32 Kubako sari akademiko gorena Xabier Artola Ixakideari (2023-02-16) https://www.unibertsitatea.net/blogak/ixa/2023/02/16/kubako-sari-akademiko-gorena-xabier-artola-ixakideari-2023-02-16/ https://www.unibertsitatea.net/blogak/ixa/2023/02/16/kubako-sari-akademiko-gorena-xabier-artola-ixakideari-2023-02-16/#respond Thu, 16 Feb 2023 20:13:15 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=3135 Kubak “Carlos J. Finlay” Ordenaren Saria eman dio Ixa Taldeko Xabier Artola irakasleari 2023ko otsailaren 16an. Kubako zientzialari nazionalei eta atzerritarrei ematen dien kondekoraziorik gorena da hori. Artolari Kubarekin 20 urteko lankidetza zientifiko emankorrarengatik eman diote saria. Santiagoko Linguistika Aplikatuaren Zentroarekin bereziki.

Xabier Artolari Carlos J. Finlay saria  emateko ekitaldia(Kuba, 2023-02-16)

Euskal Herriko Unibertsitateko IXA taldea lankidetzan aritu izan da 2001tik CLA ikergunearekin. Hortik atera da, adibidez, Diccionario Básico Escolar Cubano (DBE) hiztegia (digitala eta paperezkoa). Lankidetza honen barruan mende hasieran sortu zen lehenengo bertsioan hiztegiaren diseinu informatikoa oso aurreratu izan zen: XML lengoaia kodetuta dago), eta hiztegiak editatzeko Ixa taldean garatu zen leXkit izeneko ingurunea erabiltzen zen. Geroago hiztegiaren lau edizio (2005, 2008, 2009, 2013-2015) argitaratu dira Kuban, paperean eta digitalki. Hiztegiaren sortzaileak Eloína Miyares Bermúdez eta Vitelio Ruiz Hernández linguistak ziren. Urteetan zehar zabalkuntza handia izan du hiztegiak Kubako eskoletan. 2023. urtera arte guztira hiztegiaren 300.000tik gora ale salduta zeuden paperean, eta bertsio elektronikoan 1100 CD.

Irakurri gehiago:

]]>
https://www.unibertsitatea.net/blogak/ixa/2023/02/16/kubako-sari-akademiko-gorena-xabier-artola-ixakideari-2023-02-16/feed/ 0
LINGUATEC produktuak erabiltzeko hitzarmena lau unibertsitaterekin https://www.unibertsitatea.net/blogak/ixa/2022/01/31/linguatec-produktuak-erabiltzeko-hitzarmena-lau-unibertsitaterekin/ https://www.unibertsitatea.net/blogak/ixa/2022/01/31/linguatec-produktuak-erabiltzeko-hitzarmena-lau-unibertsitaterekin/#respond Mon, 31 Jan 2022 09:47:27 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=3058
Euskal Herriko Unibertsitateko errektorea, Eva Ferreira eta Elhuyarreko koordinatzaile nagusia, Jon Abril, beste hiru errektoreekin: Université de Pau et des Pays de I´Adour unibertsitatekoarekin. Zaragozako Unibertsitatekoa , eta  Nafarroako Unibertsitate Publikokoa.

LINGUATEC proiektua ekainean bukatu zen. Emaitza oparoak lortu ditugu, 20 produktu aurkeztu genituen Bruselako META-FORUMean (2021-11-15). Geroago Udaberrian hainbat ekitaldi antolatuko genituen enpresei proiektuaren emaitzak aurkezteko.

  • 2021/02/23 Pau, Emaitzak aurkeztea
  • 2021/04/13 Jaca, Emaitzak aurkeztea eta erakusketa-tailerrak
    Jacan Aragoiko enpresek sinatu zuten hitzarmen bat
  • 2021/06/17 Donostia/Baiona: Emaitzak aurkeztea eta erakusketa-tailerrak
    Pauen Okzitaniako enpresek sinatu zuten  hitzarmen bat
  • 2021/06/18 Donostia: LINGUATEC kongresua. Erakusketa-tailerrak
    Donostian euskal enpresek sinatu zuten hitzarmen bat eta Linguatec AI Bikaintasun-Sarea sortu genuen (2021-06-18)

Proiektuko emaitzak zabaltzen urrats berri bat egin dugu. Jacan 2022ko urtarrilaren 20an Linguatec Proiektuak lankidetza-hitzarmen bat sinatu du lau unibertsitaterekin: Euskal Herriko Unibertsitatea, Zaragozako Unibertsitatea, Paueko eta Aturrialdeko Unibertsitatea, eta  Nafarroako Unibertsitate Publikoa. POCTEFA proiektuen arduraduna ere egon da sinatze-ekitaldian.

  • Hitzarmen horri esker, euskararentzat, aragoierarentzat eta okzitanierarentzat EFA 227/16/LINGUATEC proiektuan garatutako tresna eta aplikazio teknologikoak erabili eta inplementatu ahal izango dituzte unibertsitateek.
  • Lankidetza-hitzarmenak lau urteko iraupena izango du, eta sinatu duten erakundeek elkarlanean aritzeko konpromisoa hartu dute, adimen artifizialaren esparruan euskara, okzitaniera eta aragoierarentzako proiektu teknologikoak garatzeko.

Hitzarmen hau beste urrats estrategiko bat da mugaz gaindiko azpiegitura linguistiko inklusibo, eleaniztun eta adimendun baten eraikuntza zientifiko-teknologikorako.

Albisteak:

Irakurri albistea sei hizkuntzatan: eu, es, ca, gl, fr, en 

]]>
https://www.unibertsitatea.net/blogak/ixa/2022/01/31/linguatec-produktuak-erabiltzeko-hitzarmena-lau-unibertsitaterekin/feed/ 0
Linguatec AI Bikaintasun-Sarea (2021-06-18) https://www.unibertsitatea.net/blogak/ixa/2021/10/08/linguatec-ai-bikaintasun-sarea-2021-06-18/ https://www.unibertsitatea.net/blogak/ixa/2021/10/08/linguatec-ai-bikaintasun-sarea-2021-06-18/#comments Fri, 08 Oct 2021 12:09:32 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=3028

Bukatu da aurten LINGUATEC proiektu europarra. Proeiktuaren xedea okzitanieraren, aragoieraren eta euskararen digitalizazio-maila hobetzea izan da, eta neurri handi batean lortu dugu helburua.

  • 2021eko maiatzeko workshopean emaitza zientifikoak konpartitu genituen komunitate akademikoarekin,
  • Ekaineko biltzar publikoan Linguatec AI Bikaintasun-Sarea sortu genuen proiektuko kideen artean, 2018-2021 urteetan egin dugun lankidetza-lan eredugarriari jarraipena emateko.
Linguatec sarearen erakunde sortzaileen ordezkariak: Elhuyar fundazioa, Aragoiko Gobernua, Okzitaniako Tolosako CRNS goi mailako ikerketa zentroa, Euskaltzaindia, Lo Congrés okzitanieraren akademia eta EHUko Ixa taldea. (Naiz, 2021-06-19)

Sare berria sortzeko adierazpena lau hizkuntzatan idatzi genuen (espainieraz, frantsesez, okzitanieraz eta euskaraz, LINGUATEC-AI_ES-EU-FR-OC.pdf). Hau da euskarazko bertsioa:

 

LINGUATEC AI BIKAINTASUN-SAREA

Adimen Artifiziala Hizkuntzan Mugaz Gaindiko Bikaintasun Sarea eratzea (Pirinioez gaindiko hizkuntza-azpiegitura eraikitzeko lankidetza teknologikoa)

Pirinioetako Lan Elkartearen lurraldea eraikitzen ari diren mugaz gaindiko proiektua da, eta 15 milioi herritarrek baino gehiagok partekatzen dituzte 6 hizkuntza eta horien tokiko barietateak. Eleaniztasuna gure lurraldeko aktiborik handienetako bat da, eta erronka garrantzitsuenetako bat ere bada, kulturaren eta ekonomiaren ikuspegitik kohesionatutako lurralde bat sortzeko. Gauza bera gertatzen da Europan, non hogeita lau hizkuntza ofizial eta 60 hizkuntza gutxitu baino gehiago osatzen duten eremu eleaniztun aberatsa baita; garai batean, eleaniztasuna komunikazioa eta informazioaren zirkulazio librea zailtzen zituzten hizkuntza-oztopo gisa ikusi ziren.

Adimen artifiziala hizkuntza eguneroko produktu digital askotan erabiltzen da, gehienak hizkuntzaz baliatzen baitira. Komunikazio mugikorrek, sare sozialek, laguntzaile adimendunek eta ahotsean oinarritutako interfazeek herritarrak, enpresak eta administrazio publikoak mundu digitalean elkarreraginean aritzeko modua aldatzen ari dira

Hizkuntza-teknologiek eraginkortasunez laguntzen dute Europako herritar guztien (eta Pirinioetako Lan Elkartearen lurraldearen) arteko berdintasuna lortzen eguneroko bizitzan, edozein dela ere hitz egiten duten hizkuntza. Nahiz eta hizkuntza gutxituek asko duten irabazteko hizkuntza-teknologiekin, egoera teknologiko ahula dute abiapuntu; izan ere, hizkuntza horiek digitalki garatzeko behar diren tresna eta baliabideak oso urriak dira, eta, kasu batzuetan, ez dira existitzen. 2018ko irailaren 11n Europako Parlamentuak onartutako ebazpenean (“On language equality in the digital age” 2018/2028(INI)) argiki egiaztatu du Europako hizkuntzen artean desoreka dagoela hizkuntzaren teknologien barruan, eta ekintzarako deia egin du, hizkuntzen arteko arrakala horiek lehenbailehen gainditzeko.

Hizkuntza baten garapena, eta beraz, hizkuntza horretatik elikatzen den kultura, erabat loturik dago hizkuntza horrek ingurune moderno eta aldakorretan, hala nola mundu digitalean funtzionatzeko duen gaitasunarekin. Hala, hizkuntza- eta kultura-aniztasuna estu lotuta dago mundu digitalean hizkuntza batek dituen gaitasun eta baliabideekin, hau da, gure kasuan mugaz gaindiko hizkuntza-azpiegitura sortzearekin. Hori dela eta, oso garrantzitsua da hizkuntza-oztopoak gainditzea eta, hartara, Pirinioetako Lan Elkartearen lurraldeko hizkuntzak indartzea, lurraldeak duen balio ekonomiko, kultural eta linguistikoa osorik bultzatu ahal izateko.

Lurraldeko hizkuntza guztientzat euskarri teknologiko egokia bermatzeak enplegua sortuko dugu, hazkuntza, aukerak, kulturarteko harremanak eta nazioarteko erreferentzialtasuna.

Era berean, funtsezkoa da ingurune digitaleko hizkuntza-oztopoak gainditzea, funtsezkoa baita gizarte inklusiborako eta aniztasunari batasuna eta kohesioa emateko urte askoan.

Linguatec AI Bikaintasun Sarearen xedea

Adimen Artifiziala Hizkuntza Mugaz Gaindiko Bikaintasun Sarea sortzea, lankidetza teknologikoaren bidez Pirinioez gaindiko hizkuntza-azpiegitura eraikitzen laguntzeko.

Helburuak

1. LINGUATEC bezalako mugaz gaindiko proiektuen beharra balioan jarri eta transmititzea, gure lurraldearen aberastasun eleaniztunak balio ekonomiko, turistiko eta kulturala sortzen baitu. Hau da, hizkuntza-hesia gainditzea eta ahaleginak batzea gure kultura- eta hizkuntza-aberastasuna motor ekonomiko gisa aprobetxatzeko.

2. Agenda estrategiko baten oinarriak eta ibilbide-orri bat ezartzea, hizkuntza-berdintasun digitala errealitate izan dadin Pirinioetako Lan Elkartearen lurraldean 2030ean.

3. Euskararen, katalanaren, aragoieraren eta okzitanieraren arteko lankidetza estua abiaraztea, guztiek oinarri teknologiko nahikoa izan dezaten, eta, hartara, pertsona bakoitzak bere hizkuntzan eroso parte har dezan mundu digitalean.

4. Adimen artifizialak hizkuntza eskaintzen dizkigun aukerak eta ahalmenak gizarteratzea, lurralde kohesionatua, integratzailea, eleaniztuna eta adimenduna lortzeko.

5. Adimen artifizialean azken belaunaldiko ezagutza eta teknologia sortzea, enpresek, erakundeek eta gizarte-erakundeek teknologiaren ahalmena aprobetxa dezaten Pirinioetako Lan Elkartearen lurraldearen garapen ekonomiko, sozial eta instituzionalerako.

6. Beste lurralde eleaniztun batzuetan, Europan zein mundu osoan, Pirinioetako Lan Elkartearen lurraldean lortutako lorpenak zabaltzea, esperientzia, prestakuntza, aholkularitza eta teknologia eskainiz.

7. Pirinioetako Lan Elkartearen lurraldea erreferentzia garrantzitsu bihurtzea hizkuntza-teknologietan baliabide urriak dituzten hizkuntzentzat eta haren garapen digitalean aurrera egin nahi duten hizkuntzentzat.

]]>
https://www.unibertsitatea.net/blogak/ixa/2021/10/08/linguatec-ai-bikaintasun-sarea-2021-06-18/feed/ 1
Linguatec biltzar publikoa: Adimen artifiziala, azpiegitura linguistikoak eta mugaz gaindiko lankidetza (online, 2021-06-17 eta 18) https://www.unibertsitatea.net/blogak/ixa/2021/06/14/biltzar-publikoa-adimen-artifiziala-eta-mugaz-gaindiko-lankidetza-online-2021-06-17-eta-18/ https://www.unibertsitatea.net/blogak/ixa/2021/06/14/biltzar-publikoa-adimen-artifiziala-eta-mugaz-gaindiko-lankidetza-online-2021-06-17-eta-18/#comments Mon, 14 Jun 2021 12:15:42 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=3012

Bukatzen da. Okzitanieraren, aragoieraren eta euskararen  digitalizazio-maila hobetzea izan da LINGUATEC proiektu europarraren helburua. 2021eko maiatzaren 12an workshop batean konpartitu genuen komunitate akademikoarekin. Orain gizarte osoari gonbitea luzatzen diogu.

Ezagutu nahi dituzu Linguatec proiektuan sortu ditugun tresnak eta baliabideak?

Ostegunean, ekainak 17, Pauen
eta ostiralean, ekainak 18, Donostian.

Interesa duten guztientzat, proiektuaren barruan egindako lana zabaltzeko.
Biltzarra jende guztiarentzat dago irekita, baina erregistratu egin behar da (MATRIKULATU)

Informazio gehiago: https://www.uik.eus/sites/default/files/linguatec_eu_-_0806202

MUGAZ GAINDIKO BILTZARRA
Adimen artifiziala eta mugaz gaindiko lankidetza: azpiegitura linguistiko, adimendun eta irisgarri baten bidean


Ekainaren 17a, Paue.

  • Toki Fisikoa: Complexe de la République (700 aretoa)
  • Ordutegia: 9:00etatik 15:00etara.
  • Formatua:Aurrez aurrekoa (erakundeak eta prentsa) eta streaming bidez emango da Facebook-en eta Youtube-n. Ekitaldiaren grabazioa Interneten jarriko da ikusgai, gero.

PROGRAMA

10h – Irekiera

9:00 –HASIERA (15 min)

  • Gilabèrt Mercadièr, Okzitanieraren Kongresu Iraunkorreko lehendakaria.
  • Jon Abril Olaetxea, Elhuyarreko koordinatzaile nagusia. POCTEFA LINGUATEC proiektuko taldeburua da Elhuyar.

9:15 –TEKNOPOLISEN BIDEO-EMANALDIA (15 min)

9:30 –MAHAI-INGURUAK
Moderatzailea: Marius Blénet, kazetaria

9:30 –1. mahai-ingurua: “Europako eta mugaz gaindiko lankidetza, Pirinioetako hizkuntzen garapen digitalerako esparru pribilegiatua” (1:30)

  • Charline Claveau, Okzitanieraren Bulego Publikoko lehendakaria.
  • Antton Curutcharry, Euskararen Bulego Publikoko lehendakaria.
  • José Ignacio López Susín, Aragoiko Gobernuko Hizkuntza Politikako zuzendari nagusia

10:45 KAFEA HARTZEKO ATSEDENALDIA

11:00 ENPRESEN ETA ERAKUNDEEN ARTEKO HITZARMENA SINATZEA(25 minutu), bazkideen eta prentsaren aurrean

11:30 2. mahaiingurua: “Pirinioetan mugaz gaindiko hizkuntzaazpiegitura bat eraikitzekoadimen artifizialeko bikaintasunsare bat lortzeko bidean” (1,5 h)

  • Josu Aztiria Urtaran, Elhuyar Fundazioa.
  • Benaset Dazéas, Okzitanieraren Kongresu Iraunkorra.
  • José Ignacio López Susín, Aragoiko Gobernua.
  • Battittu Coyos, Euskaltzaindia.
  • Kepa Sarasola, IXA Euskal Herriko Unibertsitatea.
  • Myriam Bras, CLLEERSS Tolouseko UnibertsitateaJean Jaurés/CNRS.

13:00 BAZKALTZEKO ETENALDIA (1 h).

14:00 OKZITANIERARAKO GARATUTAKO TRESNAK TRANSFERITZEKO TAILERRA (45 min).
Moderatzailea: Benaset Dazéas, Okzitanieraren Kongresu Iraunkorreko zuzendaria.

  • Votz, okzitanieraren ahotssintesia:Michaël Barret (15 min).
  • Okzitanierarako itzultzaile automatikoa:Aure Séguier (15 min).
  • Appak eta zerbitzu berritzaileak:Itziar Cortes Etxabe (15 min).

Ekainaren 18a, Donostia.

  • Tokia: Miramar jauregia
  • Ordutegia: 9:00etatik 15:00etara.
  • Formatua:Workshopa aurrez aurre egingo da, eta ZOOM bidez zuzenean partehartzeko aukera ere izango da.

PROGRAMA

9:30 HASIERA (30 min)

  • Jon Abril Olaetxea, Elhuyarreko koordinatzaile nagusia. POCTEFA LINGUATEC proiektuko taldeburua da Elhuyar.
  • Junkal Gutierrez, EHUkoEuskara, Kultura eta Nazioartekotzearen arloko errektoreordea.
  • Garbiñe Mendizabal, Gipuzkoako Foru Aldundiko Hizkuntza Berdintasuneko zuzendaria.

10:00 Mahaiingurua: “Hizkuntzaazpiegituren beharra mugaz gaindiko lankidetza areagotzeko” (1,5 h) Moderatzailea: Josu Aztiria, Elhuyarreko Adimen Artifiziala eta Hizkuntza Teknologien Unitateko koordinatzailea eta LINGUATEC proiektuaren zuzendaria

  • Mikel Anton, Eusko Jaurlaritzako Europako Gaietarako zuzendaria
  • Pello Pellejero, Nafarroako Gobernuko Europako Ekintzaren, Eskualdeekiko Lankidetzaren eta Kanpoko Herritarren Zerbitzua
  • José Ignacio López Susín, Aragoiko Gobernuko Hizkuntza Politikako zuzendari nagusiaArola Urdangarin, Akitania BerriaEuskadiNafarroa Euroeskualdearen zuzendaria
  • JeanLouis Valls, CTPPOCTEFAko zuzendaria

11:30 KAFEA HARTZEKO ATSEDENALDIA

Prentsa: Mugaz gaindiko hizkuntzaazpiegitura bat eraikitzeko adimen artifizialeko bikaintasunsarearen aurkezpena.

  • Eneko Goia, Donostiako alkatea
  • Partzuergoaren bazkideek sorreramanifestua irakurri eta sinatzea.12:00 Hizkuntzen arteko lankidetza teknologikoaren aukerak eta erronkak(1,5 h)

12:00 European Language initiatives 1(45 min)
Moderatzailea: German Rigau, Hitz Zentroa

  • Georg Rhem, European Language Grid (20 min)
  • Andy Way, European Language Equality (20 min)
  • Galderen txanda (5 min)

12:45 European Language initiatives 2(45 min)
Moderatzailea: Klara Ceberio, Elhuyar

Claudia Soria, The Digital Language Diversity Project (20 min)

Benaset Dazeas, Congrès permanent de la lenga occitana (20 min)

Galderen txanda (5 min)

13:30 ATSEDENALDIA

14:00 LINGUATEC PROIEKTUAREN APLIKAZIOEN ERAKUSTALDITAILERRA (1 h).

  • Itzulpen automatikoa: APPa, tresnabarra, CMS plugina
  • Ahotssintesirako plataformak eta aplikazioak (okzitaniera eta euskara)
  • APP eleaniztun eta irisgarriak
  • Ahotsezagutzea eta azpititulazio automatikoa
]]>
https://www.unibertsitatea.net/blogak/ixa/2021/06/14/biltzar-publikoa-adimen-artifiziala-eta-mugaz-gaindiko-lankidetza-online-2021-06-17-eta-18/feed/ 1
Ixa Taldeari esker ona Cubatik (CLA zentroak 50 urte) https://www.unibertsitatea.net/blogak/ixa/2021/05/13/ixa-taldeari-esker-ona-cubatik-cla-zentroak-50-urte/ https://www.unibertsitatea.net/blogak/ixa/2021/05/13/ixa-taldeari-esker-ona-cubatik-cla-zentroak-50-urte/#comments Thu, 13 May 2021 13:03:42 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=2984 Oso pozik gaude,  mezu hau jaso dugu gaur Santiago de Cubatik:

Euskal Herriko Unibertsitateko iXa taldeko kide maiteok:

Santiagoko Linguistika Aplikatuko Zentroak, bere 50. urteurreneko ospakizunen testuinguruan, eskerrak eman nahi dizkie bere zeregin zientifikoa garatzen luzaroan lagundu duten erakundeei eta pertsonei.

Zuek omendatutako kide eta erakunde horien artean zaudete, eta atsegin handiz bidaltzen dizuegu zuen diplomaren irudia. Espero dugu 2023ko urtarrilean ematea.

ESKERRIK ASKO IXAKO LAGUNEI !!!!!

Nire lankideen izenean, jaso ezazue besarkada handi bat.

                  Leonel Ruiz Miyares


Queridos miembros del Grupo iXa de la Universidad del Pais Vasco:

http://ixa2.si.ehu.es/dbe/index.html – Diccionario Basico Escolar

El Centro de Linguistica Aplicada de Santiago de Cuba en el contexto de las celebraciones por su cincuentenario desea agradecer a instituciones y a personalidades que han contribuido durante largo tiempo al desarrollo de su quehacer científico.

Ustedes estan entre esos colegas e instituciones homenajeados y les anexamos con mucho gusto una fotocopia de su diploma que esperamos entregarselo personalmente en enero del 2023.

MUCHAS GRACIAS AMIGOS de IXA!!!!!
En nombre de mis colegas, reciban un fuerte abrazo,

Dr. Leonel Ruiz Miyares
Director  Centro de Linguistica Aplicada (CLA)
Ministerio de Ciencia, Tecnología y Medio Ambiente
http://www.cla.cu/clanuevo/es/       – Sitio web del CLA
http://www.cla.cu/simposio/index.php – Sitio web Simposios
http://ixa2.si.ehu.es/dbe/index.html – Diccionario Basico Escolar


Eta hau izan da Xabier Arregik erantzun duena:

Estamos muy agradecidos por este reconocimiento, que significa mucho para Ixa.
La relación que mantenemos con el centro de Lingüística Aplicada de Santiago de Cuba es muy enriquecedora para nuestro grupo, porque nos brinda la oportunidad de conocer, contrastar y compartir desarrollos y avances en entornos que no son hegemónicos y dominantes en nuestra área. En el mundo, también en la Lingüística Aplicada y en las Tecnologías del Lenguaje, hay mucho más que el inglés y los países ricos.

Gure esker ona adierazi nahi dizuegu, Leonel,  asko esan nahi baitu eskutitz horrek Ixa taldearentzat.
Santiago de Cubako Hizkuntzalaritza Aplikatuko zentroarekin dugun harremana oso aberasgarria da gure taldearentzat, aukera ematen baitigu gure arloan hegemonikoak eta menderatzaileak ez diren inguruneetako garapenak eta aurrerapenak ezagutu, kontrastatu eta partekatzeko. Munduan, Hizkuntzalaritza Aplikatuan eta Hizkuntzaren Teknologietan ere, ingelesa eta herrialde aberatsak baino askoz gehiago daude.

Eskerrik asko, eta besarkada bero bat.

Xabier Arregi (Ixa Taldeko koordinatzailea)

 

Irakurri gehiago:

 

]]>
https://www.unibertsitatea.net/blogak/ixa/2021/05/13/ixa-taldeari-esker-ona-cubatik-cla-zentroak-50-urte/feed/ 1
Workshop: Pirinioetako hizkuntzak automatikoki prozesatzeko baliabideak eta tresnak (online, 2021-05-12) https://www.unibertsitatea.net/blogak/ixa/2021/04/30/workshop-pirinioetako-hizkuntzak-automatikoki-prozesatzeko-baliabideak-eta-tresnak-online-2021-05-12/ https://www.unibertsitatea.net/blogak/ixa/2021/04/30/workshop-pirinioetako-hizkuntzak-automatikoki-prozesatzeko-baliabideak-eta-tresnak-online-2021-05-12/#comments Fri, 30 Apr 2021 12:20:46 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=2975

INTELE bilkuran erakutsitako posterra (2020, CC-BY-SA)

Okzitanieraren, aragoieraren eta euskararen  digitalizazio-maila hobetzea izan da LINGUATEC proiektu europarraren helburua. Hainbat baliabide, tresna eta aplikazio linguistiko berritzaile garatu ditugu 2018tik hona. Proiektuak hizkuntzen arteko lankidetza teknologikoa ahalbidetu du.

Orain online workshop hau antolatu dugu. 2021eko maiatzaren 12an konpartituko dugu komunitate akademikoarekin.
Online izango da, aurkezpenak ingelesez, gaztelaniaz eta frantsesez, eta aldi bereko itzulpenak ingelesez, gaztelaniaz eta frantsesez.

Interesa duten ikertzaile guztientzat, proiektuaren barruan egindako lana zabaltzeko, baita euskararako eta okzitanierarako egindako aurrerapen batzuk aurkezteko ere.

Workshopa jende guztiarentzat dago irekita, baina erregistratu egin behar da (registration form)

Informazio gehiago: ixa.eus/events/linguatec

 

PROGRAMA

10h – Irekiera

10h15     Hitzaldi gonbidatuak: Katalanaren prozesamendua

    Lluis Padró (Universitat Politècnica de Catalunya)
    Morphological and Syntactic Resources in FreeLing
    Ingelesez – Aldibereko itzulpena espainieraz eta frantsesez

   Mariona Taulé (Universitat de Barcelona)
   AnCora: un corpus anotado a diferentes niveles lingüístico
AnCora hainbat hizkuntza-mailatan etiketatutako corpusa.
    Gaztelaniaz – Aldibereko itzulpena ingelesez eta frantsesez

11h15 — Atsenaldia

11h30 Aurkezpenak: Okzitanierarako eta euskararako corpus anotatuak

   Assaf Urieli, Joliciel
    Talismane, Jochre: automatic syntax analysis and OCR for under-resourced languages
    Ingelesez – Aldibereko itzulpena espainieraz eta frantsesez

   Aleksandra Miletic y Dejan Stosic, CLLE
    Mutualisation des ressources pour la création de treebanks : le cas du serbe et de l’occitan
    Frantsesez – Aldibereko itzulpena espainieraz eta frantsesez

    Ainara Estarrona (IXA, HiTZ, UPV/EHU)
    Construcción del corpus histórico en euskera
    Euskararen corpus historikoa eraikitzea
   Gaztelaniaz – Aldibereko itzulpena ingelesez eta frantsesez

13h — Bazkaltzeko etenaldia

14h30     Hitzaldi gonbidatua: Neurona-sareen erabilera

   Mans Hulden (University of Colorado)
   Neural Networks in Linguistic Research
    Ingelesez – Aldibereko itzulpena espainieraz eta frantsesez

15h30 Aurkezpena: Hizuntzaren prozesamendua

   Rodrigo Agerri (IXA, HITZ, UPV/EHU)
   Contextual lemmatization for inflected languages: statistical and deep-learning approaches
    Ingelesez – Aldibereko itzulpena espainieraz eta frantsesez

16h – Atsedenaldia

16h15 – Aurkezpenak: LINGUATEC proiektuaren emaitzak

    Myriam Bras, Aleksandra Miletic, Marianne Vergez-Couret, Clamença Poujade, Jean Sibille, Louise Esher, CLLE :
    Automatic processing of Occitan: construction of the first annotated corpora.
    Okzitaneraren prozesamendua: lehen corpus etiketatuaren eraikitzea.
    Okzitanierazko bideoa, azpitituluak beste hizkuntzetan.               

    Elhuyar
    Creation and improvement of Basque resources within the framework of Linguatec
    Euskarazko bideoa, azpitituluak beste hizkuntzetan. 

16h45 – Ondorioak
    Espainieraz eta frantsesez, itzulpen zerbitzurik gabe.   

]]>
https://www.unibertsitatea.net/blogak/ixa/2021/04/30/workshop-pirinioetako-hizkuntzak-automatikoki-prozesatzeko-baliabideak-eta-tresnak-online-2021-05-12/feed/ 3
Juan Cruz ‘Soccoo’ hil zaigu, Peruko lankide kitxua https://www.unibertsitatea.net/blogak/ixa/2021/04/11/juan-cruz-soccoo-hil-zaigu-peruko-lankide-kitxua/ https://www.unibertsitatea.net/blogak/ixa/2021/04/11/juan-cruz-soccoo-hil-zaigu-peruko-lankide-kitxua/#respond Sun, 11 Apr 2021 16:10:43 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=2965
Juan Cruz Soccoo (CC-BY-SA)

Cuscoko UNSAAC unibertsitateko lankidetzan aritu ginen 2011tik 2014ra bitarte. Lankidetza haren liderra izan zen Juan Cruz irakaslea apirilean hil zaigu.

Zuri esker, Juan, elkarrekin urrats batzuk egin genituen, kitxuaren prozesamendu automatikorako adituak prestatu genituen Hinantin ikerketa-taldearen hazia izan zirenak:

2012an Madrileko Kooperaziorako Ministerioko proiektu bat izan genuen, 2013an EHUrekin RUNASIMI proiektua.

Agur Juan, jarraituko dugu lanean.

Cuscoko taldea 2012ko urtarrilean (CC-BY-SA)

]]>
https://www.unibertsitatea.net/blogak/ixa/2021/04/11/juan-cruz-soccoo-hil-zaigu-peruko-lankide-kitxua/feed/ 0
Linguatec proiektuko emaitzen aurkezpenak udaberrian https://www.unibertsitatea.net/blogak/ixa/2021/03/08/linguatec-proiektuko-emaitzen-aurkezpenak/ https://www.unibertsitatea.net/blogak/ixa/2021/03/08/linguatec-proiektuko-emaitzen-aurkezpenak/#comments Mon, 08 Mar 2021 17:37:05 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=2951 LINGUATEC proiektua azken txanpan sartzera doa eta datozen hilabeteetan hainbat ekitaldi antolatuko dira proiektuaren emaitzak aurkezteko. Hauek dira LINGUATECen hitzordu nagusiak:

  • 2021/02/23 Pau, Emaitzak aurkeztea
  • 2021/04/13 Jaca, Emaitzak aurkeztea eta erakusketa-tailerrak
  • 2021/05/12 Donostia/Toulouse:  “Morfologia eta sintaxia” Workshopa.
    ………………………………………….Emaitzak aurkeztea eta erakusketa-tailerrak
  • Zehazteko   Pau:                      LINGUATEC kongresua. Erakusketa-tailerrak
  • 2021/06/17 Donostia/Baiona: Emaitzak aurkeztea eta erakusketa-tailerrak
  • 2021/06/18 Donostia:              LINGUATEC kongresua. Erakusketa-tailerrak
Workshop bat antolatu dugu maiatzaren 12rako (CC-BY-SA)

Azken txanpan sartu da LINGUATEC proiektu europarra. Aragoieraren, euskararen eta okzitanieraren digitalizazio-maila hobetu du. Baliabide, tresna eta aplikazio linguistiko berritzaileak garatu, frogatu eta zabaldu ditu.

Partzuergoak otsailaren 23an egindako bilera aprobetxatuz datozen aste eta hilabeteetarako antolatutako tailerrak finkatu ditugu eta, batez ere, VOTZ, okzitanieraren lehen ahots-sintesiaren tresna aurkeztu genuen.

VOTZ okzitanieraren lehen ahots-sintesirako tresna da. Urrats handia da okzitanieraren garapen teknologikoan. Mugaz gaindiko lankidetza-proiektuaren emaitza ederra da VOTZ, Lo congrès permanent de la lenga occitana erakundeak garatua, Elhuyar bazkide teknologikoaren eta LINGUATEC proiektuaren koordinatzailearen laguntzarekin.  Esteka honetan eskuragarri dago aurkezpen-ekitaldia osorik.
Eta hemen zenbait komunikabidek aurkezpenari emandako oihartzuna:

VOTZ tresnaren aurkezpenaren aurretik, LINGUATEC proiektuko 5 bazkideek bilera egin genuen Pauen. Bertan aurrerapen teknologikoen balantzea egin eta ekaina arteko ekitaldien egutegia zehaztu genuen. COVID-19a gorabehera, proiektua erritmo onean doala berretsi zen: helburu guztiak lortuko direlakoan gaude.
Hizkuntzaren teknologia berriak garatzea, adimen artifizialean oinarrituta, funtsezkoa da Pirinioen bi aldeetan hizkuntza gutxituak garatzeko. LINGUATEC mugaz gaindiko Europako lankidetza da, beharrezko aliantza XXI. mendean.

]]>
https://www.unibertsitatea.net/blogak/ixa/2021/03/08/linguatec-proiektuko-emaitzen-aurkezpenak/feed/ 1
IXAmBERT: Berri onak baliabide gutxiko hizkuntzentzat! https://www.unibertsitatea.net/blogak/ixa/2020/09/30/ixambert-berri-onak-baliabide-gutxiko-hizkuntzetarako/ https://www.unibertsitatea.net/blogak/ixa/2020/09/30/ixambert-berri-onak-baliabide-gutxiko-hizkuntzetarako/#comments Wed, 30 Sep 2020 10:23:11 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=2887 Berri onak baliabide gutxiko hizkuntzentzat!
Ixa taldean aurre-entrenatutako hizkuntz eredu elebakarra eta eleaniztuna biak ala biak oso erabilgarriak dira euskararen prozesamenduko zereginetan! Euskaraz egindako galderak euskaraz automatikoki erantzuteko sistema batean adibidez.
Nahiz eta ingelesezkoa baino 500 aldiz txikiagoa den corpus batekin eta 80 aldiz txikiagoa den Euskal Wikipediarekin sortu ditugun, gure hizkuntza-eredu berri hauek emaitza onak eman dituzte.


Elkarrizketa eredu bat. Ingelesezko transkripzioarekin.

Hitz-bektoreek (word embedding-ak) eta aurrez entrenatutako hizkuntza-ereduek testuen errepresentazio aberatsak eraikitzeko aukera ematen dute, eta, horri esker, hobekuntzak egin ahal izan dira Hizkuntzaren Prozesamenduko ataza gehienetan. Zoritxarrez, errepresentazio horiek oso garestiak dira entrenatzeko, eta enpresa txiki eta ikerketa-talde askok eurenak eraiki beharrean, Googlek aurrez entrenatutako eta eskura jarritako ereduak baino ez dituzte erabiltzen. Hori ez da biderik onena, hizkuntza askotan ereduak enpresa txikiagoetan (edo kalitate txikiagokoetan) entrenatu baitira. Gainera, ingelesa ez diren hizkuntzetarako beti ez daude erabilgarri aurrez entrenatutako eredu elebakarrak. Kasurik onenean, hizkuntza horietako ereduak bertsio eleaniztunetan sartzen dira, eta hizkuntza bakoitzak gainerako hizkuntzekin partekatzen ditu tamaina eta parametroen zati bat. Hori egia da, bereziki, hizkuntza txikienetarako, hala nola euskararako.

Joan den apirilean Ixa Taldean erakutsi genuen euskarazko corpus handiekin (on-line egunkarietatik arakatuak) trebatutako zenbait eredu elebakarrek (FastText word embeddings, FLAIR eta BERT hizkuntza-ereduak) emaitza askoz hobeak eman zituztela Hizkuntzaren Prozesamenduko zereginetan, publikoki eskuragarri zeuden bertsioek baino. Besteak beste, emaitza hobeak lortu ziren gai-sailkapenean, sentimenduen analisian, baita PoS eta NER etiketatzean ere. Lan hori “Give your Text Representation Models some Love: the Case for Basque” izeneko artikuluan aurkeztu genuen. Hona hemen esperimentu horretan erabilitako Corpusaren osaketa:

Iturria Testu mota Milioi token
Euskal Wikipedia Entziklopedia 35M
Berria egunkaria Albisteak 81M
EiTB Albisteak 28M
Argia aldizkaria Albisteak 16M
Herri aldizkariak Albisteak 224.6M

Kontuan izan ingeleserako BERT hizkuntza-eredu originala Google Books corpus erabiliz entrenatu zela. 155 mila milioi hitz ditu iamerikako ingelesez, eta 34 mila milioi hitz ingeles brikanikoz. Ingelesezko corpusa euskarazkoa baino 500 aldiz handiagoa da.

Agerri
San Vicente
Campos
Barrena
Otegi
Saralegi
Soroa
E. Agirre
Sistema berriarekin egindako elkarrizketa bat

 

 

 

 

 

 


Orain, irailean, IXAmBERT argitaratu dugu, ingeleserako, gaztelaniarako eta euskararako aurrez prestatutako hizkuntza-eredu eleaniztuna. Eta arrakastaz erabili dugu  euskarazko elkarrizketetan galderak erantzuteko sistema batean. Transferentzia-esperimentu horiek Googleren mBERT eredu ofizialarekin egin litezke ere, baina, Googleren ereduan hizkuntza asko direnez, euskara ez dago oso ondo ordezkatuta. Ingelesa, gaztelania eta euskara soilik dituen eredu eleaniztun berri hori sortzeko, apirilean aurkeztutako ereduaren konfigurazio bera erabili dugu. Euskal eredu sortzeko  corpus elabkar bera erabili dugu berriz ere, eta gainera Ingeles Wikipedia eta espainierazkoa gehitu ditugu, hurrenez hurren, 2.5 G eta 650M tokenekin. Wikipedia horien tamainak euskarazkoa baino 80 eta 20 aldiz handiagoa dira.

Berri ona zera da, eredu hori arrakastaz erabili dugula ingelesezko testuetan dagoen  ezagutza euskarara transferitzeko, elkarrizketa bidezko galdera-/erantzun-sistema baten bidez. Artikulu honetan azaldu dugu:  Conversational Question Answering in Low Resource Scenarios: A Dataset and Case Study for Basque. IXAmBERT izeneko gure hizkuntza-eredu berria erabiliz mBERT  eredu generikoarekin baino hobeto egin zen ingelesaren ezagutza euskarara transferitzea. Galderak euskaraz egin, informazioa ingelesez, espainieraz eta euskarazko wikipedietan bilatu eta erantzuna euskaraz eman. Taula honetan ikus daiteke zenbatekoa da hobekuntza:

Eredua Zero-shot Transfer learning
Baseline 28.7 28.7
mBERT 31.5 37.4
IXAmBERT 38.9 41.2
mBERT + history 33.3 28.7
IXAmBERT + history 40.7 40.0

Taula horretan, Elkarrizketa Bidezko Galderak Erantzuteko  (CQA, Conversational Question Anwering) euskarazko sistema baten emaitzak agertzen dira. Zero-shot-ek esan nahi du eredua fine-tuned dagoela QuaC, CQA datu-multzo ingelesa erabiliz. Transfer Learning konfigurazioan, eredua lehenengo aldiz QuaC-n zehazten da, eta gero euskal CQA datu-multzo batean.

Lan hauek koxka bat gorago ezartzen dute artearen egoera  euskararako zeregin horietan.
Lan honetan erabilitako datuak eta eredu guztiak eskuragarri daude publikoki: https://huggingface.co/ixa-ehu/ixambert-base-cased

 

]]>
https://www.unibertsitatea.net/blogak/ixa/2020/09/30/ixambert-berri-onak-baliabide-gutxiko-hizkuntzetarako/feed/ 1
Bost artikulu onartuta Association for Computational Linguistics kongresuan https://www.unibertsitatea.net/blogak/ixa/2020/05/05/bost-artikulu-onartuta-association-for-computational-linguistics-kongresuan/ https://www.unibertsitatea.net/blogak/ixa/2020/05/05/bost-artikulu-onartuta-association-for-computational-linguistics-kongresuan/#comments Tue, 05 May 2020 07:26:23 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=2812 Aurten ospatuko den Association for Computational Linguistics (ACL) kongresuko 58. edizioan Ixa taldeko kideek kolaboratzaileekin batera bost artikulu aurkeztuko dituzte. ACL kongresua Hizkuntzaren Prozesamenduko kongresurik garrantzitsuenetakoa da eta uztailean Seattlen egin behar zen, baina aurten sarean izango da.

Hemen duzue ixakidei eta kolaboratzeei onartutako artikuluei buruzko informazioa:

Selecting Backtranslated Data from Multiple Sources for improved Neural Machine Translation (Xabier Soto, Dimitar Shterionov, Alberto Poncelas, Andy Way): Atzeranzko itzulpen sistema anitzen bitartez itzulitako datuek eu-es eta de-en domeinu klinikoko Itzulpen Automatiko Neuronaleko sistemetan duten eragina aztertzen dugu, eta Datu Hautaketa (DH) erabiltzen dugu corpus sintetikoa optimizatzeko. Ondoren, DHren irteera birkalkulatzen dugu atzeranzko itzulpena egiteko erabilitako sistemen kalitatea eta sortutako corpora sintetikoen aniztasun lexikoa kontuan hartuz.

On the Cross-lingual Transferability of Monolingual Representations (Mikel Artetxe, Sebastian Ruder, Dani Yogatama): BERT eredu elebakar bat maila lexikoan beste hizkuntzetara transferi daitekeela erakusten dugu, BERT eleaniztunaren inguruko aurreko hipotesiak zalantzan jartzen dituena.

A Call for More Rigor in Unsupervised Cross-lingual Learning (Mikel Artetxe, Sebastian Ruder, Dani Yogatama, Gorka Labaka, Eneko Agirre): Iritzi-artikulu honetan ikasketa eleaniztun gainbegiratu gabearen motibazio, definizio, hurbilpen eta metodologia berrikusten ditugu, eta euretako bakoitzean zorrotzago jokatzeko deia egiten dugu.

DoQA – Accessing Domain-Specific FAQs via Conversational QA (Jon Ander Campos, Arantxa Otegi, Aitor Soroa, Jan Deriu, Mark Cieliebak, Eneko Agirre): DoQA datu-multzoa aurkezten dugu, FAQetako informazioa elkarrizketa bidez atzitzeko balio duena. 2.437 elkarrizketa ditu 3 domeinu desberdinetan: sukaldaritza, bidaiak eta filmak.

A Methodology for Creating Question Answering Corpora Using Inverse Data Annotation (Jan Deriu, Katsiaryna Mlynchyk, Philippe Schläpfer, Alvaro Rodrigo, Dirk von Grünigen, Nicolas Kaiser, Kurt Stockinger, Eneko Agirre, Mark Cieliebak): Datu baseetako informazioa hizkuntzaren bidez atzitzeko entrenamentu datu-multzoak behar dira. Artikulu honetan halako datu-multzoak sortzeko metodologia berria proposatzen dugu, giza-anotazio abiadura hiru aldiz hobetzen duena aurreko metodoekin konparatuta. Gure esperimentuek erakusten dute kalitate oneko datu-multzoa dela, eta asmatu dugun token alineazioak emaitzak hobetzeko balio duela.

Zorionak guztiei!

 

]]>
https://www.unibertsitatea.net/blogak/ixa/2020/05/05/bost-artikulu-onartuta-association-for-computational-linguistics-kongresuan/feed/ 1