Analisi sintaktiko automatikoa. Carroll irakaslearen bisita (uztaila, 9-11)

Koldo Gojenola. IXA taldea — Tue, 26 Jun 2007 14:53:00 +0000

Ingalaterrako Sussex Unibertsitateko John Carroll irakaslea gurekin izango da uztailaren 9tik 11ra (egitaraua behean ikusi).

Hizkuntza prozesatzeko analisi sintaktikoa izaten da pausorik garrantzitsuenetariko bat, perpausaren osagai nagusiak zeintzuk diren (izen-sintagma, aditz-sintagma…) eta beraien arteko erlazioak ezagutzeko (subjektu, objektu…). Ingelesa izan da gehien landu den hizkuntza, eta gaur egunean lau dira analizatzaile hoberenak:
   a)   Ezagutza linguistikoan oinarritutakoak.
               Connexor eta Xerox
   b)   Estatistikan oinarritutako sistemak
                Collins eta Charniak

Egungo erronka handiena da ezagutza linguistikoa eta estatistikoa konbinatzea analizatzaile hobeak lortzearren. Ildo horretatik ikertuz John Carroll-ek Robust Accurate Statistical Parsing (RASP) sistema sortu du. Oso ondo dabil eta hainbeste ikerkuntza-proiektutan zein aplikaziotan erabiltzen ari da.

Egitaraua:
Lekua: Informatika Fakultateko batzar aretoan.
Uztailaren 9/10, 15:30-17:30:
Ikastaroa: NLP and parsing.

1.techniques for shallow parsing: treebanks, linguistic grammars,
2.Disambiguation.
3.parser evaluation
4.high precision parsing
5.efficient deep parsing
6.robust parsing and shallow semantics

Uztailaren 11, 11:30-13:00:
Hitzaldia: Text categorization for improved priors of word meaning.

Distributions of the senses of words are often highly skewed. This fact is exploited by word sense disambiguation (WSD) systems which back off to the predominant (most frequent) sense of a word when contextual clues are not strong enough. The topic domain of a document has a strong influence on the sense distribution of words.
Unfortunately, it is not feasible to produce large manually sense-annotated corpora for every domain of interest. Previous experiments have shown that unsupervised estimation of the predominant sense of certain words using corpora whose domain has been determined by hand outperforms estimates based on domain-independent text for a subset of words and even outperforms the estimates based on counting occurrences in an annotated corpus.
In this talk I will address the question of whether it is possible to _automatically_ produce domain-specific corpora which could be used to acquire predominant senses appropriate for specific domains.

Mintegia: Hizkuntzarteko Informazio-Berreskurapena (2007-III-22)

Ixa Taldea. Eneko Agirre — Mon, 19 Mar 2007 18:42:44 +0000

Gero eta informazio gehiago dugu eskura testu modura. Sarritan, baina, informazio hori beste hizkuntza batean idatzita dago, eta zailago egiten zaigu hortik informazio interesgarria ateratzea, eskuratzea. Hizkuntza teknologian ahaleginak egiten ari dira zailtasun horiek gainditzeko, eta hortik sortu da Hizkuntzarteko Informazio-Berreskurapena atala (Cross Lingual Information Retrieval edo CLIR).

Ixa taldeak, Madrileko Hezkuntza Ministerioan lortu duen “KNOW: Desarrollo de tecnologías multilingües a gran escala para la comprensión del lenguaje” proiektuaren barruan, Hizkuntzarteko Informazio-Berreskurapena sistemen (CLIR) eta hizkuntzaren ulermenaren arteko harremanaz arituko den mintegi bat antolatu du. Bertan UNED unibertsitateko Julio Gonzalo irakaslea ere izango da.

Mintegia irekia izango da kanpoko interesatuentzat ere.<amaia.lorenzo(abildua)ehu.es>).
Joateko asmoa duenak mesedez abisatu (Amaia Lorenzo 943 005 172,

Eguna: Martxoaren 22a, osteguna
Tokia: Gradu-Aretoa (Donostiako Informatika Fakultatea)
Programa:

10:00 Question/Answering in IXA (Xabier Arregi – IXA Taldea)
10:30 MEANING for IR/CLIR (German Rigau – IXA Taldea)
11:00 Coffee
11:30 CLEF-Semeval task on WSD and IR/CLIR (Eneko Agirre – IXA Taldea)
12:00 Recent developments in IR/CLIR (Julio Gonzalo – UNED)
13:30 Lunch
15:30 Discussion

what does IR need from NLP and specially language understanding(NLU)
what can NLP and specially language understanding offer to IR
new areas of IR where NLP/NLU could be interesting

16:30 end

ht-teknikak – Hizkuntza-teknologiak, Ixa Taldearen bloga

Analisi sintaktiko automatikoa. Carroll irakaslearen bisita (uztaila, 9-11)

Mintegia: Hizkuntzarteko Informazio-Berreskurapena (2007-III-22)

Mintegia irekia izango da kanpoko interesatuentzat ere.<amaia.lorenzo(abildua)ehu.es>). Joateko asmoa duenak mesedez abisatu (Amaia Lorenzo 943 005 172,

Eguna: Martxoaren 22a, osteguna Tokia: Gradu-Aretoa (Donostiako Informatika Fakultatea) Programa:

16:30 end

Mintegia irekia izango da kanpoko interesatuentzat ere.<amaia.lorenzo(abildua)ehu.es>).
Joateko asmoa duenak mesedez abisatu (Amaia Lorenzo 943 005 172,

Eguna: Martxoaren 22a, osteguna
Tokia: Gradu-Aretoa (Donostiako Informatika Fakultatea)
Programa: