Terminologiaren
erauzketa
automatikoa
eta
bere
aplikazioa
euskararako
.
1.
Sarrera
.
Azken
urteotan
testu
teknikoetatik
terminologia
automatikoki
erauzteko
tresnak
ari
dira
garatzen
zenbait
hizkuntzatarako
,
baina
oraindik
giza
laguntza
behar
izaten
da
automatikoki
hautatutako
terminologiaren
artean
azken
aukeraketa
egiteko
.
Horren
adibide
gisa
,
tresna
hauek
aipa
daitezke
:
LEXTER
(
Bourigault
,
92
)
AT
&
Tko
Termight
(
Church
&
Dagan
,
94
)
IBMko
TERMS
(
Justeson
&
Katz
,
95
)
NPtool
(
Arpper
,
95
)
.
Aplikazio-eremuak
bi
multzo
handitan
bana
daitezke
:
informazioa
indexatzeko
eta
terminoen
glosategiak
eraikitzeko
.
Gainera
,
terminologia
oso
modu
dinamikoan
bilakatzen
den
arloetan
,
informatikan
adib
.
,
halako
tresnarik
gabe
ia
ezinezkoa
da
lan
terminologiko
eraginkorrak
egitea
.
Halako
tresna
bat
euskararako
garatu
nahi
badugu
,
eragozpen
gehiago
topatuko
dugu
ondoko
hiru
arrazoiengatik
:
bateratze-prozesua
bukatzeke
izateagatik
,
egindako
ikerketak
murritzak
direlako
eta
hizkuntza
eranskaria
izateagatik
.
2.
Terminologiaren
erauzketa
.
Terminoaren
definizio
formal
eta
osoa
lortzea
lan
neketsua
da
eta
horretan
datza
lanen
atal
garrantzitsu
bat
:
terminoen
ezaugarriak
mugatzea
.
Corpusetatik
termino
teknikoak
lortzeko
konbinatu
ohi
dira
NLPko
teknikak
(
ezagumendu
linguistikoan
oinarritutakoak
)
eta
teknika
estatistikoak
.
2.1.
Teknika
linguistikoak
.
Teknika
linguistikoak
erabiltzen
dira
batez
ere
terminoen
hasierako
selekzioa
egiteko
.
Horretarako
,
eredu
morfosintaktikoak
erabili
ohi
direnez
gero
,
komenigarria
da
testua
analizaturik
edukitzea
edo
gutxienez
etiketatua
.
Tresna
linguistikoen
kalitateak
baldintzatuko
ditu
,
hein
handi
batean
behintzat
,
tresnaren
emaitzak
.
Hala
ere
,
proiektu
batzuetan
ez
da
analisi
morfologikorik
edo
sintaktikorik
egiten
(
Su
et
al
.
,
96
)
.
Analisi
morfologikoarekin
eta
desanbiguazioarekin
lotuta
dago
lematizazioa
.
Flexio
konplexuko
hizkuntzetan
hitz-forma
bakarrik
tratatzeak
emaitza
kaxkarrak
ekarriko
ditu
eta
lematizazioa
ezinbestekoa
izango
da
.
Ezagumendu
linguistikoa
funtsezkoa
da
terminoen
normalizazioan
ere
;
termino
batzuk
beste
luzeago
batzuen
baitan
egon
daitezkeenez
,
haien
artean
diskriminatu
egin
behar
baita
.
2.2
.
Teknika
estatistikoak
.
Eredu
linguistikoari
jarraitzen
dioten
balizko
terminoak
murrizteko
erabili
ohi
dira
metodo
estatistikoak
proiektu
gehienetan
.
Aplikatutako
metodoak
asko
aldatzen
dira
proiektuaren
arabera
:
sinpleena
izango
litzateke
maiztasun
absolutu
minimo
bat
eskatzea
(
Justeson
&
Katz
,
95
)
,
baina
orokorrean
formula
probabilistiko
anitz
konbinatzen
dira
.
2.3.
Emaitzak
.
Lortzen
diren
emaitzak
ez
dira
oraindik
beharko
liratekeenak
erauzketa
zeharo
automatikoa
egiteko
.
Oreka
bilatu
behar
da
estaldura
(
recall
)
eta
doitasunaren
artean
(
precision
)
.
Oreka
horretan
estaldurari
lehentasuna
ematen
zaio
atzetik
terminologia
murrizteko
pertsona
bat
badago
.
%
95
inguruko
estaldura
lortzeko
doitasuna
%
50-era
jaitsi
ohi
da
,
eta
doitasuna
%
85
ingurukoa
izan
dadin
estaldura
%
35era
ere
ez
da
iristen
.
3.
Euskararako
aplikazioa
.
IXA
taldearen
asmoa
da
euskararako
mota
honetako
tresna
bat
garatzea
.
Horretarako
analizatzaile
morfologikoa
jadanik
prest
dago
(
Alegria
et
al
.
,
96
)
,
lematizatzaile
/
etiketatzaile
bat
bukatzear
dago
(
Aduriz
et
al
.
,
96
)
eta
azaleko
sintaxiari
ere
ekin
diogu
.
Tresna
horiek
prest
dauden
bitartean
termino
teknikoen
modelizazioari
ekin
behar
diogu
,
hau
da
murriztu
behar
ditugu
termino
teknikoen
ezaugarriak
.
Horretarako
dauden
hiztegi
teknikoetan
oinarritu
,
eta
teknika
estatistikoak
erabiliz
,
eredu
nagusiak
lortu
behar
dira
.
Emaitzarik
ez
badugu
ere
,
eredua
izen-sintagmarena
baino
zabalagoa
izango
dela
susmatzen
dugu
.
Beste
aldetik
,
termino
teknikoak
hautatzerakoan
barneko
deklinabidekasua
erabakigarria
izan
daiteke
.