ht-eragileak – Hizkuntza-teknologiak, Ixa Taldearen bloga https://www.unibertsitatea.net/blogak/ixa IXA taldea. Hizkuntzaren prozesamendua Wed, 31 May 2023 21:32:01 +0000 eu hourly 1 https://wordpress.org/?v=4.9.23 https://www.unibertsitatea.net/blogak/ixa/files/2018/10/ixa.jpg ht-eragileak – Hizkuntza-teknologiak, Ixa Taldearen bloga https://www.unibertsitatea.net/blogak/ixa 32 32 Ohar batzuk Nazio Batuen Erakundeko itzulpen lanaz. https://www.unibertsitatea.net/blogak/ixa/2007/04/03/ohar-batzuk-nazio-batuen-erakundeko-itzulpen-lanaz/ https://www.unibertsitatea.net/blogak/ixa/2007/04/03/ohar-batzuk-nazio-batuen-erakundeko-itzulpen-lanaz/#comments Tue, 03 Apr 2007 09:11:51 +0000 https://www.unibertsitatea.net/blogak/ixa/ohar-batzuk-nazio-batuen-erakundeko-itzulpen-lanaz Ana I. Morales itzultzailea urte askoan ibili da EHUko itzulpen zerbitzuan. Beti ibili da erne alor horretan berritasunak harrapatzeko.  Hiztek titulua lortu zuen eta orain itzultzaile dabil New Yorken Nazio Batuen egoitzan.  Bertatik kontatzen digu hango lanaren nondik norakoak: lanaren neurria (zenbat orri edo hitz itzultzen da urteko, zenbat itzultzaile), zer tresna erabiltzen diren eta teknologia horiek erabiliz lortzen diren adibide parregarri batzuk  ere. Teknologiak lana errazten digu, eta umorea lantzeko aukera ere ematen digu!

Nazio Batuen Erakundea. Zenbat hizkuntza?

Nazio Batuen erakundeak bost egoitza ditu, erakunde honen tradizio jatorrenaren arabera hurrenkera alfabetikoz aipatuko ditudanak: Geneva, Nairobi, New York, Santiago de Chile eta Viena. Egoitza nagusia New Yorkekoa da, eta hortxe daude erakunde honen bost organismo nagusiak: Idazkaritza Nagusia, Segurtasun Kontseilua, Batzar Nagusia, Gizarte eta Ekonomia Kontseilua eta Estatu Administratzaileen Kontseilua.

Nazio Batuen Erakundeak bost hizkuntza ofizial dauzka: arabiera, errusiera, frantsesa, gaztelania, ingelesa eta
txinera. Hori dela eta, hizkuntza guzti hauentzako itzulpen zerbitzuak daude Nazio Batuetan. Gainera, alemaneko atal txiki bat ere badago New Yorken, hizkuntza hori erakunde honetan ofiziala ez izan arren.

Neurria. Zenbat orri edo hitz itzultzen da?

Itzultzen den dokumentazioa gehienbat administratiboa eta juridikoa da: gutunak, txostenak, erabakiak, aktak, curriculum vitaeak, aurrekontuak, hitzarmenak, arautegiak, eguneroko buletina…

Itzulpen produkzioaz eta itzultzaile kopuruaz orain emango ditudan datuak New Yorkeko Espainierako Zerbitzuko buruak, Constantine Danilevsky jaunak, emandakoak dira, eta zerbitzu horri bakarrik dagozkio:  Urtean zerbitzuan bertan gaztelaniara 50.000 orri  itzultzen dira, hau da, 1.650.000 berba inguru. Horri gehitu behar zaio bete %18 bat, kanpoan itzultzen dena.
Arabiera, errusiera, frantses eta txinerara pareko bolumena itzultzen da, Danilevskyren arabera beti ere.  Ingelesera, berriz, beste hizkuntzenaren %20 inguru. Dena dela, zerbitzu honek bileren hitzez hitzeko aktak idazten ditu ingelesez.

Zenbat itzultzaile?

Zerbitzu guztiak kontuan hartuta, 300 itzultzaile inguru daude plantillan. Espainierako Zerbitzuan 54 lanpostu daude; horietatik une honetan 47 daude beteta. Horri gehitu behar zaio NBErentzat boladaka (hilabete batzuk urtean) lan egiten duen itzultzaileen kopuru aldakor bat (“temporary staff”).

Hizkuntza-teknologiaren erabilera

Itzulpengintzarako erabiltzen diren tresnei dagokienez, alde batetik, aipatu behar da ez zerbitzu guztietan ez egoitza guztietan ez direla erabiltzen tresna berak; zerbitzuak eurak ere ez daude antolatuta egitura beraren arabera. Orain aipatuko dudana New Yorkeko Espainiera Zerbitzuari dagokio eta neure behaketan oinarritzen da. Tresneria eta estrategiei dagokienez, ez dago batasunik zerbitzuko itzultzaileen artean: lanabes eta prozedura desberdinak erabiltzen  dituzte, euren preferentzia eta ohituren arabera. Hasteko, bi talde handi bereiz ditzakegu:

a) Ahotsa erabiliz itzultzen dutenak. Itzultzaile hauek “diktatu” egiten diote itzulpena ordenagailuari, ez dute tekleatzen. Horretarako bi tresna hauetako bat erabiltzen dute:

 a1) grabazio digitala (mikrofono digital batez eta grabaziorako programa batez audio artxibo bat sortu eta gero hori mekanografoei pasatzen diete, eurek transkriba dezaten); diktafono tradizionalak (magnetofoiak eta  kaseteak) 2006ko irailean erretiratu ziren New Yorkeko egoitzatik horren ordez teknologia digitala ezartzeko;

a2) hizkuntza testu bihurtzeko programa bat, kasu honetan Dragon. Dragonez lan egiten duten itzultzaileek “irakatsi” egiten diote tresnari euren ahotsa eta ahoskera ezagutzen, baina, hala ere, diktatu osteko zuzenketak ezinbestekoak izaten dira, tresna egokia izan arren akats “arriskutsu” ugari egiten baititu.

b) Testu prozesatzailea erabiliz itzultzen dutenak. Hemen beste bi talde bereiz genitzake:

b1) Aurretik itzulitako dokumentuen datu-base  dokumentalean bilaketak egin eta balio dieten testuak MsWordeko “kopiatu” eta “itsatsi” funtzioak erabiliz  baliatzen dituzten itzultzaileak. Batzuek erruz darabiltzate autotestu eta autozuzenketa aukerak sintagmak “automatikoki” itzultzeko, eta zenbaitek oso makro elaboratuak ere bai. Talde honetako zenbait itzultzailek SDL Tradoseko Multiterm-eko terminologia datu base bat darabilte MSWorden txertatuta.

b2) Itzulpen memoriak darabiltzatenak: Wordfast, SDL Trados, Olifant (memorien editorea). Batzuek segmentatzaile huts modura darabiltzate tresna hauek, memoriarik elikatu gabe. Beste batzuek, aldiz, memoria  elikatzen dute, eurek egindako itzulpenekin edo/eta alineatuta dauden dokumentuak inportatuz. Guztiek darabil(tza)te euren memoriari atxikitako terminologia  datu base bat edo gehiago. Talde honetako gehienek SDL Trados darabilte. Nire kalkuluen arabera, zerbitzuko itzultzaileen herenak osatzen du talde hau.

Azken aldian badirudi New Yorken bultzada ematen hasi zaiola  b2 taldearen jokabideari eta ekimen bat abiatu dela joera hori zerbitzuan hedatuz joateko.

Eranskina (umore onez):
Esan dugunez, a) taldeko itzultzaile batzuek ahotsa ezagutzeko Dragon programa darabilte, eta oso iritzi ona dute tresna horretaz. Hala ere, diktatzaile oso abilak izan arren (batzuk benetako artistak!) eta programa  aurretik trebatu arren, Dragoni bihurrikeriak egitea  gustatzen zaio. Hona hemen programak egindako zenbait  okerreko transkripzio (bigarren lerroak adierazten du itzultzaileak benetan esan ziona):

> cono drama de la migración
> cronograma de la migración

> las recomendaciones casi incluidas
> las recomendaciones allí incluidas

> agravar la atención
> agravar la tensión

> se vende por la coherencia
> se vele por la coherencia

> destrozadas por órgano
> desglosadas por órgano

> las asas y bajas
> las alzas y bajas

> instituciones letales
> instituciones locales

> estrategia de sanción de la pobreza
> estrategia de reducción de la pobreza

> estrategia de reducción japonesa
> estrategia de reducción de la pobreza

> ese pimiento
> de seguimiento

> los amantes
> los donantes

> asesoramiento profético
> asesoramiento político

> se presenta a tiros
> representativos

> marcos de gatos operativos
> marcos de gastos operativos

> penosos tratados
> en los dos tratados

> a la tragedia de la CNUDMI
> al arbitraje de la CNUDMI

> parásito pecador
> parásito depredador

> de las gracias unidas
> de las Naciones Unidas

]]>
https://www.unibertsitatea.net/blogak/ixa/2007/04/03/ohar-batzuk-nazio-batuen-erakundeko-itzulpen-lanaz/feed/ 1
Karen Sparck-Jones berriro saritua https://www.unibertsitatea.net/blogak/ixa/2007/03/28/karen-sparck-jones-berriro-saritua/ https://www.unibertsitatea.net/blogak/ixa/2007/03/28/karen-sparck-jones-berriro-saritua/#respond Wed, 28 Mar 2007 11:07:15 +0000 https://www.unibertsitatea.net/blogak/ixa/karen-sparck-jones-berriro-saritua-1 Karen Sparck-Jones, hizkuntzaren tratamendu automatikoaren arloko ikertzaile ezagunari, hiru sari eman dizkiote berriki.

Hona albistea:

The Association for Computing Machinery (ACM) announced Wednesday that it has chosen Karen Spärck Jones as the recipient of both the ACM/AAAI Allen Newell Award and the ACM-W Athena Lecturer Award. Only weeks ago, she was also honored with the prestigious Ada Lovelace Medal by the British Computer Society (BCS).

Artikulu osoa hemen eskura daiteke.

Emakume hau Donostian izan zen 1991ko irailean, IXA taldeak gonbidatuta,
SEPLNren urte hartako kongresuan. Bere hitzaldia Erresuma Batuan lengoaia naturalaren prozesamenduaren arloan indarrean zeuden programa nazionalei buruzkoa izan zen
(ikus  Procesamiento del Lenguaje Natural aldizkariaren 9. alea, 1992.eko urtarrilekoa).

Zorionak Karen!

]]>
https://www.unibertsitatea.net/blogak/ixa/2007/03/28/karen-sparck-jones-berriro-saritua/feed/ 0
Itzulpen Automatikoaren perspektibak https://www.unibertsitatea.net/blogak/ixa/2007/03/08/itzulpen-automatikoaren-perspektibak/ https://www.unibertsitatea.net/blogak/ixa/2007/03/08/itzulpen-automatikoaren-perspektibak/#respond Thu, 08 Mar 2007 14:53:17 +0000 https://www.unibertsitatea.net/blogak/ixa/itzulpen-automatikoaren-perspektibak Dublin-eko DCU unibertsitateko Andy Way irakaslea Informatika Fakultatera dator zenbait hitzaldi ematera (martxoaren 14tik 16ra). Aditua da Itzulpen Automatikoan, eta IXA taldean berarekin ari gara lankidetzan 2006tik, ingelesa-euskara eta espainiera-euskara itzultzeko sistema hibridoak eraikitzen.

Andy Way irakasle katedraduna da Dublineko DCU unibertsitatean, bertako  National Centre for Language Technology (NCLT) zentruko burua,  Machine Translation aldizkarian liburu kritiken arduraduna, eta kidea Europako  Itzulpen Automatikoko Elkarteko Komitean (EAMT).

Itzulpen Automatikoaren barruan  Andy Wayren lanak  Adibideen Oinarritutako hurbilpenean kokatu izan dira. Liburu bat argitaratu zuen 2003an horren inguruan: ‘Recent Advances in Example-Based Machine Translation’.

Gaur egun sistema hibridoekin ari da esperimentatzen Adibideen Oinarritutako teknikak eta teknika estatistikoak integratuz, horrelakoekin emaitza hobeak lortzen ari direlako.

Horixe da berak martxoaren 16an Donostiako Informatika Fakultatean jorratuko duen gaia:  ‘Itzulpen Automatikoaren perspektibak’. Inbitatuta zaudete.

Dokorego-ikastaro baten barruan beste saio batzuk ere emango ditu. Hemen duzue ordutegi zehatza:
Asteazkena, martxoak 14, 16:00-19:00:
1. saioa: Traditional MT.
Osteguna , martxoak 15, 16:00-19:00:
2.saioa : Corpus based approaches (I).
Ostirala, martxoak 16, 11:30-12:30
Hitzaldia(60 min.): “Perspectives on MT”.
Ostirala, martxoak 16, 16:00-19:00:
3. saioa : Corpus based approaches (II).

]]>
https://www.unibertsitatea.net/blogak/ixa/2007/03/08/itzulpen-automatikoaren-perspektibak/feed/ 0
SALTMIL: Baliabide gutxiko hizkuntzen ahalegin teknologikoa sustatzen https://www.unibertsitatea.net/blogak/ixa/2007/02/05/saltmil-baliabide-gutxiko-hizkuntzen-ahalegin-teknologikoa-sustatzen/ https://www.unibertsitatea.net/blogak/ixa/2007/02/05/saltmil-baliabide-gutxiko-hizkuntzen-ahalegin-teknologikoa-sustatzen/#comments Mon, 05 Feb 2007 12:45:03 +0000 https://www.unibertsitatea.net/blogak/ixa/saltmil-baliabide-gutxiko-hizkuntzen-ahalegin-teknologikoa-sustatzen SALTMIL nazioarteko zientzi elkartea da, bere helburua hizkuntza “txikietan” teknologiaren erabilera bultzatzea da, hizkuntza “handiekin” duten aldea murrizteko edo. SATMILek aurten saio berezi bat antolatzen du Interspeech2007 kongresu handiaren barruan, eta oraintxe zabaldu du lanak bidaltzeko deia. Erne beraz, zerbait bidali nahi baduzu.
SALTMIL elkartea
(Speech And Language Technology for Minority Languages) hizketaren tratamendu automatikoa lantzen duen nazioarteko elkarte nagusiaren  barruan dago, helburu bereziko azpitaldea da hor (ISCA, International Speech Communication Association), baina testua lantzeko teknologia ere sartzen du bere helburuetan: “ikerketa eta garapena sustatzea  hizketaren eta hizkuntzaren teknologietan gutxiago erabiltzen diren hizkuntzetarako”.  Gatza eta errotatxoa (‘salt’ eta ‘mill’) izan nahi du SALTMIL elkarteak, gatza bizigarri izateko, errotatxoa baliabide gutxikoari finago eta errazago eskain ahal izateko. Normalean bi urterik behin workshop bat antolatzen du elkarte horrek LREC kongresuaren barruan (1998, 2000, 2002, 2004, 2006), baina aurten ez-ohiko saio berezi hau ere antolatzen du.

Aurtengo saio berezia
ren gai nagusi gisa “software librea” aukeratu da, baina orokorrean baliabide gutxiko hizkuntzen ahalegin teknologikoa sustatzen duten lanak ere onartuko dira. Martxoaren 23.era arte duzu epea zure ekarpenaren berri bidaltzeko.

]]>
https://www.unibertsitatea.net/blogak/ixa/2007/02/05/saltmil-baliabide-gutxiko-hizkuntzen-ahalegin-teknologikoa-sustatzen/feed/ 1
Hizkuntzaren teknologo bat Euskaltzaindian: Andoni Sagarna https://www.unibertsitatea.net/blogak/ixa/2006/12/29/hizkuntzaren-teknologo-bat-euskaltzaindian-andoni-sagarna/ https://www.unibertsitatea.net/blogak/ixa/2006/12/29/hizkuntzaren-teknologo-bat-euskaltzaindian-andoni-sagarna/#comments Fri, 29 Dec 2006 18:37:15 +0000 https://www.unibertsitatea.net/blogak/ixa/hizkuntzaren-teknologo-bat-euskaltzaindian-andoni-sagarna Poza Euskaltzaindian eta poza hizkuntza teknologian. Lehenengo euskaltzain oso dugu hizkuntza eta informatika landu dituen aditua dena; 26. aulkia eman diote.

Hainbat mediotan azaldu da berria. Lexikografian, entziklopediagintzan, Internetgintzan egin dituen lanak goraipatzen dira horietan. Guk, blog honetan, bi puntutxo plazaratu nahi ditugu.

Batetik jasotzea bere lanerako gogoa. Gara egunkarian Izaro Aulestiartek egindako  elkarrizketan azaltzen digu Andonik:

“… Azken 22 urteetan informatikako arloan ere ibili naiz, eta uste dut gero eta gehiago behar direla kontu horiek hizkuntza ikertzeko, eta hizkuntzarekin lotutako tresnak sortzen dira hizkuntza erabiltzeko. Espezialista izan gabe ere, panorama hori ezagutzen dut, eta saiatuko naiz alde horretatik ere bidea irekitzen.
…Aspalditik, baina, hizkuntza ikerketan lan egiten da korpusen bitartez; testu-bilduma handiak egin dira 1984tik hona. Hiztegia gauza bat da, adibidez eta beste gauza bat atzean dagoen korpusa. Egungo Eiskararen Bilketa Sistematikoan XX. mendean eta ordutik hona hizkuntza idatzia nola erabiltzen den jasota dago neurri handi batean. Halakoak tresnak dira. Hizkuntzaren barrua ikusten hasiak gaude egun, nola funtzionatu duen, zer den idazle landuek erabiltzen dutena eta zer hainbesteko arreta hartzen ez dutenena. Mamia zer den ikusten hasi, eta ondorio batzuk ateratzen dituzu hortik.”

Bestetik, azpimarratzea bere parte hartze nabaria Egungo Euskararen Bilketa
Sistematikoan. Noski XX. Mendeko Korpusaren diseinuan, ez zen bera horretan ibili bakarra, ezta korpusa bera sortzen ere. Baina batzuk ondo gogoratzen dugu Andoni deskribatzen zelan bildu behar zen egungo euskaraz idatzita dagoena (inbentarioa), zelan aukeratu behar ziren hortik estatistikoki hainbat zati (lagina), den-dena batu beharrik gabe testu azpimultzo hori euskaraz idatzita dagoen guztiaren ordezko zuzena izan zedin. Alde horretatik esan genezake Andoni “EUSKARAREN ARGAZKILARIA” izan dela; euskara osoa ezin aurkeztu, ezin bildu, eta hainbat “instantanea”, hainbat “flash” bildu ditu bilduma batean errealitatean erabiltzen den euskara deskribatzeko. Nola egin daiteke bestela hizkuntzaren argazki bat?

AUPA ANDONI!

]]>
https://www.unibertsitatea.net/blogak/ixa/2006/12/29/hizkuntzaren-teknologo-bat-euskaltzaindian-andoni-sagarna/feed/ 1
Ikerketa-zentro berri bat: Yahoo Bartzelona https://www.unibertsitatea.net/blogak/ixa/2006/11/16/ikerketa-zentro-berri-bat-yahoo-bartzelona/ https://www.unibertsitatea.net/blogak/ixa/2006/11/16/ikerketa-zentro-berri-bat-yahoo-bartzelona/#respond Thu, 16 Nov 2006 16:53:44 +0000 https://www.unibertsitatea.net/blogak/ixa/ikerketa-zentro-berri-bat-yahoo-bartzelona Yahoo-k zabaldu berri du ikerketa-zentro bat Bartzelonan. Ikergaia, noski,
informazioaren bilaketa da (IR, Information Retrieval).  Pompeu
Fabra Unibertsitatea eta Generalitatearen laguntzarekin antolatu dute.

Pompeu Fabra Unibertsitateak urtarrilean zabaldu zuen berria, baina zentroa urrian jarri dute martxan eta horrela azaldu da prentsan. Orain arte horrelako hiru zentro zituen Yahoo-k, bi Kalifornian (Silicon Valley eta Berkeley) eta bat New York-en.

Zentroaren zuzendaria Ricardo Baeza-Yates
ikerlari txiletar ospetsua da. Hasieran 12 ikerlari kontratatu dituzte,
baina 80 izateraino heldu nahi dute. Kontratatu berri horietako bat Jordi Atserias da. Jordi gure ezaguna da, urrian tesia Donostiako Informatika Fakultatean defenditu zuelako, eta Opentrad proiektuan lan egin duelako Freeling-en espainieraren analizatzailea egokitzen.

Bestetik, Yahoo-k egiten duen lan-eskaintza orokorrean honelakoak ikus daitezke:

“We are looking for outstanding Research Scientists […]
of these disciplines: information retrieval, computational linguistics,
machine learning, […] and human-computer
interaction/user experience”

Pozgarria da guretzat ikustea Hizkuntza-Teknologiaren inguruan ikerketa
bultzatzen dela, eta Web bilatzaile nagusiek hizkuntzalaritza
konputazionaleko teknikak ere kontuan hartzen dituztela.
 

]]>
https://www.unibertsitatea.net/blogak/ixa/2006/11/16/ikerketa-zentro-berri-bat-yahoo-bartzelona/feed/ 0