Hizkuntzaren prozesamendua irakasgaia – Hizkuntza-teknologiak, Ixa Taldearen bloga https://www.unibertsitatea.net/blogak/ixa IXA taldea. Hizkuntzaren prozesamendua Wed, 31 May 2023 21:32:01 +0000 eu hourly 1 https://wordpress.org/?v=4.9.23 https://www.unibertsitatea.net/blogak/ixa/files/2018/10/ixa.jpg Hizkuntzaren prozesamendua irakasgaia – Hizkuntza-teknologiak, Ixa Taldearen bloga https://www.unibertsitatea.net/blogak/ixa 32 32 Kubako sari akademiko gorena Xabier Artola Ixakideari (2023-02-16) https://www.unibertsitatea.net/blogak/ixa/2023/02/16/kubako-sari-akademiko-gorena-xabier-artola-ixakideari-2023-02-16/ https://www.unibertsitatea.net/blogak/ixa/2023/02/16/kubako-sari-akademiko-gorena-xabier-artola-ixakideari-2023-02-16/#respond Thu, 16 Feb 2023 20:13:15 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=3135 Kubak “Carlos J. Finlay” Ordenaren Saria eman dio Ixa Taldeko Xabier Artola irakasleari 2023ko otsailaren 16an. Kubako zientzialari nazionalei eta atzerritarrei ematen dien kondekoraziorik gorena da hori. Artolari Kubarekin 20 urteko lankidetza zientifiko emankorrarengatik eman diote saria. Santiagoko Linguistika Aplikatuaren Zentroarekin bereziki.

Xabier Artolari Carlos J. Finlay saria  emateko ekitaldia(Kuba, 2023-02-16)

Euskal Herriko Unibertsitateko IXA taldea lankidetzan aritu izan da 2001tik CLA ikergunearekin. Hortik atera da, adibidez, Diccionario Básico Escolar Cubano (DBE) hiztegia (digitala eta paperezkoa). Lankidetza honen barruan mende hasieran sortu zen lehenengo bertsioan hiztegiaren diseinu informatikoa oso aurreratu izan zen: XML lengoaia kodetuta dago), eta hiztegiak editatzeko Ixa taldean garatu zen leXkit izeneko ingurunea erabiltzen zen. Geroago hiztegiaren lau edizio (2005, 2008, 2009, 2013-2015) argitaratu dira Kuban, paperean eta digitalki. Hiztegiaren sortzaileak Eloína Miyares Bermúdez eta Vitelio Ruiz Hernández linguistak ziren. Urteetan zehar zabalkuntza handia izan du hiztegiak Kubako eskoletan. 2023. urtera arte guztira hiztegiaren 300.000tik gora ale salduta zeuden paperean, eta bertsio elektronikoan 1100 CD.

Irakurri gehiago:

]]>
https://www.unibertsitatea.net/blogak/ixa/2023/02/16/kubako-sari-akademiko-gorena-xabier-artola-ixakideari-2023-02-16/feed/ 0
Linguatec AI Bikaintasun-Sarea (2021-06-18) https://www.unibertsitatea.net/blogak/ixa/2021/10/08/linguatec-ai-bikaintasun-sarea-2021-06-18/ https://www.unibertsitatea.net/blogak/ixa/2021/10/08/linguatec-ai-bikaintasun-sarea-2021-06-18/#comments Fri, 08 Oct 2021 12:09:32 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=3028

Bukatu da aurten LINGUATEC proiektu europarra. Proeiktuaren xedea okzitanieraren, aragoieraren eta euskararen digitalizazio-maila hobetzea izan da, eta neurri handi batean lortu dugu helburua.

  • 2021eko maiatzeko workshopean emaitza zientifikoak konpartitu genituen komunitate akademikoarekin,
  • Ekaineko biltzar publikoan Linguatec AI Bikaintasun-Sarea sortu genuen proiektuko kideen artean, 2018-2021 urteetan egin dugun lankidetza-lan eredugarriari jarraipena emateko.
Linguatec sarearen erakunde sortzaileen ordezkariak: Elhuyar fundazioa, Aragoiko Gobernua, Okzitaniako Tolosako CRNS goi mailako ikerketa zentroa, Euskaltzaindia, Lo Congrés okzitanieraren akademia eta EHUko Ixa taldea. (Naiz, 2021-06-19)

Sare berria sortzeko adierazpena lau hizkuntzatan idatzi genuen (espainieraz, frantsesez, okzitanieraz eta euskaraz, LINGUATEC-AI_ES-EU-FR-OC.pdf). Hau da euskarazko bertsioa:

 

LINGUATEC AI BIKAINTASUN-SAREA

Adimen Artifiziala Hizkuntzan Mugaz Gaindiko Bikaintasun Sarea eratzea (Pirinioez gaindiko hizkuntza-azpiegitura eraikitzeko lankidetza teknologikoa)

Pirinioetako Lan Elkartearen lurraldea eraikitzen ari diren mugaz gaindiko proiektua da, eta 15 milioi herritarrek baino gehiagok partekatzen dituzte 6 hizkuntza eta horien tokiko barietateak. Eleaniztasuna gure lurraldeko aktiborik handienetako bat da, eta erronka garrantzitsuenetako bat ere bada, kulturaren eta ekonomiaren ikuspegitik kohesionatutako lurralde bat sortzeko. Gauza bera gertatzen da Europan, non hogeita lau hizkuntza ofizial eta 60 hizkuntza gutxitu baino gehiago osatzen duten eremu eleaniztun aberatsa baita; garai batean, eleaniztasuna komunikazioa eta informazioaren zirkulazio librea zailtzen zituzten hizkuntza-oztopo gisa ikusi ziren.

Adimen artifiziala hizkuntza eguneroko produktu digital askotan erabiltzen da, gehienak hizkuntzaz baliatzen baitira. Komunikazio mugikorrek, sare sozialek, laguntzaile adimendunek eta ahotsean oinarritutako interfazeek herritarrak, enpresak eta administrazio publikoak mundu digitalean elkarreraginean aritzeko modua aldatzen ari dira

Hizkuntza-teknologiek eraginkortasunez laguntzen dute Europako herritar guztien (eta Pirinioetako Lan Elkartearen lurraldearen) arteko berdintasuna lortzen eguneroko bizitzan, edozein dela ere hitz egiten duten hizkuntza. Nahiz eta hizkuntza gutxituek asko duten irabazteko hizkuntza-teknologiekin, egoera teknologiko ahula dute abiapuntu; izan ere, hizkuntza horiek digitalki garatzeko behar diren tresna eta baliabideak oso urriak dira, eta, kasu batzuetan, ez dira existitzen. 2018ko irailaren 11n Europako Parlamentuak onartutako ebazpenean (“On language equality in the digital age” 2018/2028(INI)) argiki egiaztatu du Europako hizkuntzen artean desoreka dagoela hizkuntzaren teknologien barruan, eta ekintzarako deia egin du, hizkuntzen arteko arrakala horiek lehenbailehen gainditzeko.

Hizkuntza baten garapena, eta beraz, hizkuntza horretatik elikatzen den kultura, erabat loturik dago hizkuntza horrek ingurune moderno eta aldakorretan, hala nola mundu digitalean funtzionatzeko duen gaitasunarekin. Hala, hizkuntza- eta kultura-aniztasuna estu lotuta dago mundu digitalean hizkuntza batek dituen gaitasun eta baliabideekin, hau da, gure kasuan mugaz gaindiko hizkuntza-azpiegitura sortzearekin. Hori dela eta, oso garrantzitsua da hizkuntza-oztopoak gainditzea eta, hartara, Pirinioetako Lan Elkartearen lurraldeko hizkuntzak indartzea, lurraldeak duen balio ekonomiko, kultural eta linguistikoa osorik bultzatu ahal izateko.

Lurraldeko hizkuntza guztientzat euskarri teknologiko egokia bermatzeak enplegua sortuko dugu, hazkuntza, aukerak, kulturarteko harremanak eta nazioarteko erreferentzialtasuna.

Era berean, funtsezkoa da ingurune digitaleko hizkuntza-oztopoak gainditzea, funtsezkoa baita gizarte inklusiborako eta aniztasunari batasuna eta kohesioa emateko urte askoan.

Linguatec AI Bikaintasun Sarearen xedea

Adimen Artifiziala Hizkuntza Mugaz Gaindiko Bikaintasun Sarea sortzea, lankidetza teknologikoaren bidez Pirinioez gaindiko hizkuntza-azpiegitura eraikitzen laguntzeko.

Helburuak

1. LINGUATEC bezalako mugaz gaindiko proiektuen beharra balioan jarri eta transmititzea, gure lurraldearen aberastasun eleaniztunak balio ekonomiko, turistiko eta kulturala sortzen baitu. Hau da, hizkuntza-hesia gainditzea eta ahaleginak batzea gure kultura- eta hizkuntza-aberastasuna motor ekonomiko gisa aprobetxatzeko.

2. Agenda estrategiko baten oinarriak eta ibilbide-orri bat ezartzea, hizkuntza-berdintasun digitala errealitate izan dadin Pirinioetako Lan Elkartearen lurraldean 2030ean.

3. Euskararen, katalanaren, aragoieraren eta okzitanieraren arteko lankidetza estua abiaraztea, guztiek oinarri teknologiko nahikoa izan dezaten, eta, hartara, pertsona bakoitzak bere hizkuntzan eroso parte har dezan mundu digitalean.

4. Adimen artifizialak hizkuntza eskaintzen dizkigun aukerak eta ahalmenak gizarteratzea, lurralde kohesionatua, integratzailea, eleaniztuna eta adimenduna lortzeko.

5. Adimen artifizialean azken belaunaldiko ezagutza eta teknologia sortzea, enpresek, erakundeek eta gizarte-erakundeek teknologiaren ahalmena aprobetxa dezaten Pirinioetako Lan Elkartearen lurraldearen garapen ekonomiko, sozial eta instituzionalerako.

6. Beste lurralde eleaniztun batzuetan, Europan zein mundu osoan, Pirinioetako Lan Elkartearen lurraldean lortutako lorpenak zabaltzea, esperientzia, prestakuntza, aholkularitza eta teknologia eskainiz.

7. Pirinioetako Lan Elkartearen lurraldea erreferentzia garrantzitsu bihurtzea hizkuntza-teknologietan baliabide urriak dituzten hizkuntzentzat eta haren garapen digitalean aurrera egin nahi duten hizkuntzentzat.

]]>
https://www.unibertsitatea.net/blogak/ixa/2021/10/08/linguatec-ai-bikaintasun-sarea-2021-06-18/feed/ 1
Workshop: Pirinioetako hizkuntzak automatikoki prozesatzeko baliabideak eta tresnak (online, 2021-05-12) https://www.unibertsitatea.net/blogak/ixa/2021/04/30/workshop-pirinioetako-hizkuntzak-automatikoki-prozesatzeko-baliabideak-eta-tresnak-online-2021-05-12/ https://www.unibertsitatea.net/blogak/ixa/2021/04/30/workshop-pirinioetako-hizkuntzak-automatikoki-prozesatzeko-baliabideak-eta-tresnak-online-2021-05-12/#comments Fri, 30 Apr 2021 12:20:46 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=2975

INTELE bilkuran erakutsitako posterra (2020, CC-BY-SA)

Okzitanieraren, aragoieraren eta euskararen  digitalizazio-maila hobetzea izan da LINGUATEC proiektu europarraren helburua. Hainbat baliabide, tresna eta aplikazio linguistiko berritzaile garatu ditugu 2018tik hona. Proiektuak hizkuntzen arteko lankidetza teknologikoa ahalbidetu du.

Orain online workshop hau antolatu dugu. 2021eko maiatzaren 12an konpartituko dugu komunitate akademikoarekin.
Online izango da, aurkezpenak ingelesez, gaztelaniaz eta frantsesez, eta aldi bereko itzulpenak ingelesez, gaztelaniaz eta frantsesez.

Interesa duten ikertzaile guztientzat, proiektuaren barruan egindako lana zabaltzeko, baita euskararako eta okzitanierarako egindako aurrerapen batzuk aurkezteko ere.

Workshopa jende guztiarentzat dago irekita, baina erregistratu egin behar da (registration form)

Informazio gehiago: ixa.eus/events/linguatec

 

PROGRAMA

10h – Irekiera

10h15     Hitzaldi gonbidatuak: Katalanaren prozesamendua

    Lluis Padró (Universitat Politècnica de Catalunya)
    Morphological and Syntactic Resources in FreeLing
    Ingelesez – Aldibereko itzulpena espainieraz eta frantsesez

   Mariona Taulé (Universitat de Barcelona)
   AnCora: un corpus anotado a diferentes niveles lingüístico
AnCora hainbat hizkuntza-mailatan etiketatutako corpusa.
    Gaztelaniaz – Aldibereko itzulpena ingelesez eta frantsesez

11h15 — Atsenaldia

11h30 Aurkezpenak: Okzitanierarako eta euskararako corpus anotatuak

   Assaf Urieli, Joliciel
    Talismane, Jochre: automatic syntax analysis and OCR for under-resourced languages
    Ingelesez – Aldibereko itzulpena espainieraz eta frantsesez

   Aleksandra Miletic y Dejan Stosic, CLLE
    Mutualisation des ressources pour la création de treebanks : le cas du serbe et de l’occitan
    Frantsesez – Aldibereko itzulpena espainieraz eta frantsesez

    Ainara Estarrona (IXA, HiTZ, UPV/EHU)
    Construcción del corpus histórico en euskera
    Euskararen corpus historikoa eraikitzea
   Gaztelaniaz – Aldibereko itzulpena ingelesez eta frantsesez

13h — Bazkaltzeko etenaldia

14h30     Hitzaldi gonbidatua: Neurona-sareen erabilera

   Mans Hulden (University of Colorado)
   Neural Networks in Linguistic Research
    Ingelesez – Aldibereko itzulpena espainieraz eta frantsesez

15h30 Aurkezpena: Hizuntzaren prozesamendua

   Rodrigo Agerri (IXA, HITZ, UPV/EHU)
   Contextual lemmatization for inflected languages: statistical and deep-learning approaches
    Ingelesez – Aldibereko itzulpena espainieraz eta frantsesez

16h – Atsedenaldia

16h15 – Aurkezpenak: LINGUATEC proiektuaren emaitzak

    Myriam Bras, Aleksandra Miletic, Marianne Vergez-Couret, Clamença Poujade, Jean Sibille, Louise Esher, CLLE :
    Automatic processing of Occitan: construction of the first annotated corpora.
    Okzitaneraren prozesamendua: lehen corpus etiketatuaren eraikitzea.
    Okzitanierazko bideoa, azpitituluak beste hizkuntzetan.               

    Elhuyar
    Creation and improvement of Basque resources within the framework of Linguatec
    Euskarazko bideoa, azpitituluak beste hizkuntzetan. 

16h45 – Ondorioak
    Espainieraz eta frantsesez, itzulpen zerbitzurik gabe.   

]]>
https://www.unibertsitatea.net/blogak/ixa/2021/04/30/workshop-pirinioetako-hizkuntzak-automatikoki-prozesatzeko-baliabideak-eta-tresnak-online-2021-05-12/feed/ 3
IXAmBERT: Berri onak baliabide gutxiko hizkuntzentzat! https://www.unibertsitatea.net/blogak/ixa/2020/09/30/ixambert-berri-onak-baliabide-gutxiko-hizkuntzetarako/ https://www.unibertsitatea.net/blogak/ixa/2020/09/30/ixambert-berri-onak-baliabide-gutxiko-hizkuntzetarako/#comments Wed, 30 Sep 2020 10:23:11 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=2887 Berri onak baliabide gutxiko hizkuntzentzat!
Ixa taldean aurre-entrenatutako hizkuntz eredu elebakarra eta eleaniztuna biak ala biak oso erabilgarriak dira euskararen prozesamenduko zereginetan! Euskaraz egindako galderak euskaraz automatikoki erantzuteko sistema batean adibidez.
Nahiz eta ingelesezkoa baino 500 aldiz txikiagoa den corpus batekin eta 80 aldiz txikiagoa den Euskal Wikipediarekin sortu ditugun, gure hizkuntza-eredu berri hauek emaitza onak eman dituzte.


Elkarrizketa eredu bat. Ingelesezko transkripzioarekin.

Hitz-bektoreek (word embedding-ak) eta aurrez entrenatutako hizkuntza-ereduek testuen errepresentazio aberatsak eraikitzeko aukera ematen dute, eta, horri esker, hobekuntzak egin ahal izan dira Hizkuntzaren Prozesamenduko ataza gehienetan. Zoritxarrez, errepresentazio horiek oso garestiak dira entrenatzeko, eta enpresa txiki eta ikerketa-talde askok eurenak eraiki beharrean, Googlek aurrez entrenatutako eta eskura jarritako ereduak baino ez dituzte erabiltzen. Hori ez da biderik onena, hizkuntza askotan ereduak enpresa txikiagoetan (edo kalitate txikiagokoetan) entrenatu baitira. Gainera, ingelesa ez diren hizkuntzetarako beti ez daude erabilgarri aurrez entrenatutako eredu elebakarrak. Kasurik onenean, hizkuntza horietako ereduak bertsio eleaniztunetan sartzen dira, eta hizkuntza bakoitzak gainerako hizkuntzekin partekatzen ditu tamaina eta parametroen zati bat. Hori egia da, bereziki, hizkuntza txikienetarako, hala nola euskararako.

Joan den apirilean Ixa Taldean erakutsi genuen euskarazko corpus handiekin (on-line egunkarietatik arakatuak) trebatutako zenbait eredu elebakarrek (FastText word embeddings, FLAIR eta BERT hizkuntza-ereduak) emaitza askoz hobeak eman zituztela Hizkuntzaren Prozesamenduko zereginetan, publikoki eskuragarri zeuden bertsioek baino. Besteak beste, emaitza hobeak lortu ziren gai-sailkapenean, sentimenduen analisian, baita PoS eta NER etiketatzean ere. Lan hori “Give your Text Representation Models some Love: the Case for Basque” izeneko artikuluan aurkeztu genuen. Hona hemen esperimentu horretan erabilitako Corpusaren osaketa:

Iturria Testu mota Milioi token
Euskal Wikipedia Entziklopedia 35M
Berria egunkaria Albisteak 81M
EiTB Albisteak 28M
Argia aldizkaria Albisteak 16M
Herri aldizkariak Albisteak 224.6M

Kontuan izan ingeleserako BERT hizkuntza-eredu originala Google Books corpus erabiliz entrenatu zela. 155 mila milioi hitz ditu iamerikako ingelesez, eta 34 mila milioi hitz ingeles brikanikoz. Ingelesezko corpusa euskarazkoa baino 500 aldiz handiagoa da.

Agerri
San Vicente
Campos
Barrena
Otegi
Saralegi
Soroa
E. Agirre
Sistema berriarekin egindako elkarrizketa bat

 

 

 

 

 

 


Orain, irailean, IXAmBERT argitaratu dugu, ingeleserako, gaztelaniarako eta euskararako aurrez prestatutako hizkuntza-eredu eleaniztuna. Eta arrakastaz erabili dugu  euskarazko elkarrizketetan galderak erantzuteko sistema batean. Transferentzia-esperimentu horiek Googleren mBERT eredu ofizialarekin egin litezke ere, baina, Googleren ereduan hizkuntza asko direnez, euskara ez dago oso ondo ordezkatuta. Ingelesa, gaztelania eta euskara soilik dituen eredu eleaniztun berri hori sortzeko, apirilean aurkeztutako ereduaren konfigurazio bera erabili dugu. Euskal eredu sortzeko  corpus elabkar bera erabili dugu berriz ere, eta gainera Ingeles Wikipedia eta espainierazkoa gehitu ditugu, hurrenez hurren, 2.5 G eta 650M tokenekin. Wikipedia horien tamainak euskarazkoa baino 80 eta 20 aldiz handiagoa dira.

Berri ona zera da, eredu hori arrakastaz erabili dugula ingelesezko testuetan dagoen  ezagutza euskarara transferitzeko, elkarrizketa bidezko galdera-/erantzun-sistema baten bidez. Artikulu honetan azaldu dugu:  Conversational Question Answering in Low Resource Scenarios: A Dataset and Case Study for Basque. IXAmBERT izeneko gure hizkuntza-eredu berria erabiliz mBERT  eredu generikoarekin baino hobeto egin zen ingelesaren ezagutza euskarara transferitzea. Galderak euskaraz egin, informazioa ingelesez, espainieraz eta euskarazko wikipedietan bilatu eta erantzuna euskaraz eman. Taula honetan ikus daiteke zenbatekoa da hobekuntza:

Eredua Zero-shot Transfer learning
Baseline 28.7 28.7
mBERT 31.5 37.4
IXAmBERT 38.9 41.2
mBERT + history 33.3 28.7
IXAmBERT + history 40.7 40.0

Taula horretan, Elkarrizketa Bidezko Galderak Erantzuteko  (CQA, Conversational Question Anwering) euskarazko sistema baten emaitzak agertzen dira. Zero-shot-ek esan nahi du eredua fine-tuned dagoela QuaC, CQA datu-multzo ingelesa erabiliz. Transfer Learning konfigurazioan, eredua lehenengo aldiz QuaC-n zehazten da, eta gero euskal CQA datu-multzo batean.

Lan hauek koxka bat gorago ezartzen dute artearen egoera  euskararako zeregin horietan.
Lan honetan erabilitako datuak eta eredu guztiak eskuragarri daude publikoki: https://huggingface.co/ixa-ehu/ixambert-base-cased

 

]]>
https://www.unibertsitatea.net/blogak/ixa/2020/09/30/ixambert-berri-onak-baliabide-gutxiko-hizkuntzetarako/feed/ 1
Informatika Fakultateko HP hautazko ikasgaia. Lan praktiko batzuk (2018) https://www.unibertsitatea.net/blogak/ixa/2018/07/09/informatika-fakultateko-hp-hautazko-ikasgaia-lan-praktiko-batzuk-2018/ https://www.unibertsitatea.net/blogak/ixa/2018/07/09/informatika-fakultateko-hp-hautazko-ikasgaia-lan-praktiko-batzuk-2018/#respond Mon, 09 Jul 2018 12:03:00 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=2429

Informatika Fakultateko Hizkuntzaren Prozesamendua ikasgaian bi lan praktiko egiten ditu ikasleak.Lehenengoa Wikipediarekin eta bigarrena aplikazio praktiko bat da.

Lehenengo praktikan Hizkuntza-Teknologiako aplikazio mota bat aztertzen du:

  • Zeintzuk dira produktu erabilienak gaur egun?  Zein hizkuntzatarako? Zein da aplikazio horien oinarri informatikoa? Adibidez: Iritzi-meatzaritza, Informazioa bilatzea, informazioa erauztea, itzulpengintza automatikoa, hizketa bidezko interfazeak testuen ediziorako laguntzak, galdera-erantzun sistemak. testuen laburpen automatikoa… (ikus Hizkuntzaren_prozesamendua Wikipedian).
Chatbot artikulua Euskal Wikipedian

Aurten lehen lan hori Wikipediaren bitartez egin dugu.  Guztira 17 artikulu berri, 206.267 karaktere eta 41 irudi gehitu genituen. Apiriletik hona artikulu horiek 2,470 aldiz kontsultatu dira : – )
Sortu ditugun artikulu berriak:
Chatbot, Google Assistant, Siri, Microsoft Cortana, Sentimenduen analisi, Word embedding, Word2vec, IXA pipes, Moore makina, Mealy makina, WordNet, Euskal WordNet, Itzulpen automatiko neuronal, Google Translate, Tf–idfKleene izar, eta Neurolinguistika.
Partehartzaileak:
Aitidina, Ainhoa54, Aodriozola023, Satantxiki, Jsautua001, Ehernandez035, XLekunberri, Aritzh, Aelu013, Mssebastian, Jcampandegui, Ilanda020, Atriguero, Eneks, Oaguinagalde002, eta Fofrito.

Ikus albiste hau Fakultatean: Wikipediako Hezkuntza proiektua, gure fakultatearen ekarpena

Bigarren praktikan ikasleak bere aplikazio xume bat sortzen du. Aplikazio tipiko bat Twitterreko hainbat eta hainbat txio bildu eta horiek aztertzea izan daiteke. Txio guzti horien testuak analizatuta aztertzen dugu ea gehiago diren iritzi negatibodunak edo positibodunak.

Baina Twitter izan gabe ere beste iturri batzuk edo beste aplikazio batzuk azter daitezke, adibidez: Mikel San Sebastián ikasleak historiako 8 liburu aztertu ditu IXA pipes tresnarekin eta webgune bat sortu du (https://hpeia.000webhostapp.com/Inicio.php) liburu horietan azaltzen diren pertsonak, erakundeak eta tokiak zein urtetan aipatu izan diren erakusteko.

Liburu guzti hauek landu ditu:
Intervención en Navarra (Koldo San Sebastián), La historiografía modernista en la universitat de Valencia (Manuel Ardit), La música instrumental en el Renacimiento (Jose Ignacio Suarez Garcia), Historia de una historia (Ma. José García Quintana), Inventario general de Manuscritos de la biblioteca nacional. Un legado que perdura (John eta Mark Bieter Garmendia) , Las devociones marianas españolas en el Brasil colonial (Carlos Javier Castro), Revista de Historia Moderna No 33, Revista de Historia Moderna No 28, La colonia de Filipinas (Gemma Quincoces Herreros)

Ikasleek egin dituzten beste lan batzuk:

  • Aitzol Elu, Kantuak bilatu, hitzen esanahia erabilita (semantika distribuzionala).
  • Iñaki Landa: Aplikazio baten lokalizazioa Androiden. Nola euskaratu aplikazio bat?
  • Eneko Ortiz de Zarate. Semantika Distribuzionala: Hizkuntzen arteko antzekotasun lexikala irudikatzea.
  • Unai Cantero eta Julen Pérez-Cortés. Twitter kontu bateko txioen polaritatea aztertzea eta bisualizatzea.
  • Oscar Aguinagalde eta Josu Campandegui. Matxin itzultzailearen APIa erabiltzea Wikimedia Commons-eko argazkien oinak (captions) itzultzeko.
  • Ainhoa Pato eta Alexander Triguero. Dokumentu-sailkapena.
  • Xabier Lekunberri eta Javier Sautua: PythonUEU liburua. 12. Testuak lantzen  HPko ariketak
  • Aritz Lopez eta Elena Hernandez: Euskal Wikipediaren testuzko bertsio batetik abiatuta polaritate negatiboa duten artikuluak detektatzea.
  • Gorka Urbizu. Korreferentziaren ebazpenerako embeddingen konparaketa (dimentsioak eta stemmerra)
  • Ane Odriozola. Zer ikasiko dut unibertsitatean? Aholkularitza-zerbitzu batean egin ziren galdera eta erantzun ugari ditugu errepositorio batean. Galdera berri bat emanda jakin nahi dugu zein den errepositorioko galdera antzekoena, eta eman zitzaion erantzuna.
]]>
https://www.unibertsitatea.net/blogak/ixa/2018/07/09/informatika-fakultateko-hp-hautazko-ikasgaia-lan-praktiko-batzuk-2018/feed/ 0
Hitzaldia: Kareliera, nola ikertu gertuko hizkuntzen arteko aldaketak (I. Moshnikov, 2018-06-19) https://www.unibertsitatea.net/blogak/ixa/2018/06/19/hitzaldia-kareliera-nola-ikertu-gertuko-hizkuntzen-arteko-aldaketak-i-moshnikov-2018-06-19/ https://www.unibertsitatea.net/blogak/ixa/2018/06/19/hitzaldia-kareliera-nola-ikertu-gertuko-hizkuntzen-arteko-aldaketak-i-moshnikov-2018-06-19/#respond Mon, 18 Jun 2018 22:58:47 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=2448 Noiz: asteartean, ekainak 19, 15:00etan
Non: 3.2 gelan.
Hizlaria: Ilia MoshnikovKarelian Institute (Joensuu)
Izenburua: 

Kareliera hizkuntzaren aldakuntzak //
Variants of the active past participle in the Border Karelian dialects: how to study variation between closely related  languages?

Karelieraren geografia (Wikipedia)

Laburpena:
Hilibetez gurean dabilen Ilia Moshnikov irakasle finlandiarrak kareliera hizkuntza aztertzen du.Nola indartu hizkuntza hori? Karelieraren Wikipedia landu…
Zelan ikertu oso getu dauden hizkuntzen arteko aldakuntzak?
Zehatzago: zein dira lehenaldiko partizipio aktiboaren aldakuntzak mugaren inguruko kareliera-dialektoen artean?

 

]]>
https://www.unibertsitatea.net/blogak/ixa/2018/06/19/hitzaldia-kareliera-nola-ikertu-gertuko-hizkuntzen-arteko-aldaketak-i-moshnikov-2018-06-19/feed/ 0
Lan-poltsak eta udako praktikak IXA ikerkuntza taldean https://www.unibertsitatea.net/blogak/ixa/2018/03/13/lan-poltsak-eta-udako-praktikak-ixa-ikerkuntza-taldean/ https://www.unibertsitatea.net/blogak/ixa/2018/03/13/lan-poltsak-eta-udako-praktikak-ixa-ikerkuntza-taldean/#respond Tue, 13 Mar 2018 19:00:08 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=2399
An Overview Of Artificial Intelligence
In The Event Industry

Informatikako graduko edo master bateko ikaslea zara?
Kuxkuxero gai hauetan?

  • big data, deep learning
  • hizkuntzaren prozesamendua
  • aplikazioen garapena (zerbitzariak, clusterrak, GPUak,… )

Gurekin aritu nahi? Orduan…
eskatu lan-poltsa bat IXA ikerketa taldean
… martxoaren 22a baino lehen,
… bidali zure CVa (ixa.administratzailea@ehu.eus)

Gradurako zein masterreko lan-poltsak eskaintzen ditugu, baita udako lanak ere.

 

]]>
https://www.unibertsitatea.net/blogak/ixa/2018/03/13/lan-poltsak-eta-udako-praktikak-ixa-ikerkuntza-taldean/feed/ 0
Informatika Fakultateko HP hautazko ikasgaia. Lan praktiko batzuk https://www.unibertsitatea.net/blogak/ixa/2018/01/30/informatika-fakutateko-hp-hautazko-ikasgaia-lan-praktiko-batzuk/ https://www.unibertsitatea.net/blogak/ixa/2018/01/30/informatika-fakutateko-hp-hautazko-ikasgaia-lan-praktiko-batzuk/#comments Tue, 30 Jan 2018 10:02:22 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=2375

Hizkuntzaren Prozesamendua ikasgaian bi lan praktiko egiten ditu ikasleak. Lehenengo praktikan Hizkuntza-Teknologiako aplikazio mota bat aztertzen du:

  • Zeintzuk dira produktu erabilienak gaur egun? Espezifikazioa: datuak eta emaitzak? Zein hizkuntzatarako? Zein da aplikazio horien oinarri informatikoa?
  • Hauek dira aplikazio adibide batzuk: Iritzi-meatzaritza, Informazioa bilatzea, informazioa erauztea, itzulpengintza automatikoa, hizketa bidezko interfazeak testuen ediziorako laguntzak, galdera-erantzun sistemak. testuen laburpen automatikoa… (ikus Hizkuntzaren_prozesamendua Wikipedian).

Bigarren praktikan ikasleak bere aplikazio xume bat sortzen du. Aplikazio tipiko bat Twitterreko hainbat txio bildu eta horiek aztertzea izan daiteke. Txio horietako testua analizatuta, jakin nahi dugu ea gehiago diren iritzi negatibodunak eta positibodunak. Baina Twitter izan gabe ere beste iturri batzuk edo beste aplikazio batzuk azter daiteke, adibidez:

Interesa baduzu, ikasle hori, gauza ederrak egin daitezke ikasgai honetan 😉


Bada beste hautazko ikasgai bat antzekoa dena: Hizkuntzalaritza aplikatua. Biek zerikusirik dute hizkuntzarekin. baina Hizkuntzalaritza aplikatua ikasgaian hizkuntza lantzen da gehiago. Hizkuntza lantzeko dauden informatika-aplikazioak ere begiratzen dira, baina erabiltzailearen ikuspuntutik gehiago, euskaraz hobeto idazteko trebetasuna lortzeko asmoz, ez programa horiek barrutik nola eginda dauden ulertzeko. Ikasgai biak diferenteak dira eta elkarren osagarriak izan daitezke.

]]>
https://www.unibertsitatea.net/blogak/ixa/2018/01/30/informatika-fakutateko-hp-hautazko-ikasgaia-lan-praktiko-batzuk/feed/ 1
Hizkuntzaren Prozesamendua ikasgaiko praktika ikusgarri bat https://www.unibertsitatea.net/blogak/ixa/2017/07/20/hizkuntzaren-prozesamendua-ikasgaiko-praktika-ikusgarri-bat/ https://www.unibertsitatea.net/blogak/ixa/2017/07/20/hizkuntzaren-prozesamendua-ikasgaiko-praktika-ikusgarri-bat/#comments Wed, 19 Jul 2017 23:04:26 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=2272 uztarria11
Uztarria aldizkarian kirolen atalean gehien azaldu diren pertsonak.

Informatika Ingeniaritzako Hizkuntzaren Prozesamendua ikasgaian (HP) aurtengo ikasleek hainbat lan praktiko interesgarri garatu dituzte. Horien artean, Pello Arrue ikasleak Uztarria Azpeitiko aldizkaria aztertu du. 2001tik 2017ra arteko artikulu guztiak (17.034) batu ditu eta bi ikuspuntutatik aztertu ditu. Alde batetik, agertzen diren entitate izendun guztiak erauzi ditu (pertsonak, tokiak, erakundeak…). Eta bestetik, aurkitutako entitateak aldizkariaren gaien arabera sailkatu ditu. Hau da, IXA taldeak sortu duen Ixa-pipes tresna erabili du hasieran testu horiek masiboki analizatzeko, eta gero kontatu ditu entitate izendun bakoitzaren errepikapenak aldizkariko sail bakoitzean.
Esate baterako, irudian 16 urteotan gehien aipatu diren kirolariak ikus daitezke http://www.estadistikakazpeitia.pe.hu/perKirolak.php
Beste kontsulta batzuk egin ditzakezu. Saia zaitez!

LAN BIKAINA, PELLO!


Hizkuntzaren Prozesamendua ikasgaiaren helburu nagusia giza-lengoaiak (hizkuntzak) ordenagailu bidez tratatzeko dauden teknikak eta aplikazioak ezagutzea eta aplikatzea da. Hizkuntz industrien barruan kokatzen diren aplikazioen artean honakoak sartzen dira: Testuen edizioa, Informazioa bilatzea, informazioa erauztea, ezagutzaren kudeaketa, itzulpen automatikoa, lengoaia naturaleko interfazeak edo ahozko hizkuntzaren tratamendua.

]]>
https://www.unibertsitatea.net/blogak/ixa/2017/07/20/hizkuntzaren-prozesamendua-ikasgaiko-praktika-ikusgarri-bat/feed/ 1