Basque Verb Index (BVI) EPEC-RolSem corpusean oinarritutako lexikoia da. EPEC-RolSem PropBank-VerbNet eredua oinarri hartuta, predikatu mailan erdiautomatikoki etiketatutako corpusa da eta lan horretan oinarrituta sortu dugu BVI lexikoia. Gure lanean beste hizkuntzetako joera nagusia jarraitu dugu, hots, etiketatutako corpusetatik lexikoiak sortzea.

    EPEC-DEP corpusa izan da gure lanaren oinarria (dependentziekin etiketatutako Euskararen Prozesamendurako Erreferentzia Corpusa). Corpus horretan 1.211 aditz desberdin agertzen dira, baina horietatik 155 aditzek baino ez dituzte 30 agerpen edo gehiago. Lehen urrats batean eskuz etiketatu ditugu 288 aditz (maiztasun handieneko 155 aditzak barne hartuta), eta hortik aditz horien informazio sintaktiko-semantikoa bildu dugu, guztira 461 adieren eredu sintaktiko-semantikoak. Bigarren urrats batean, eskuz landu gabe geratu diren 923 aditzak automatikoki etiketatu ditugu IXA taldean garatutako SRL sistema erabiliz. Etiketatze horretatik 923 aditz horien eredu sintaktiko-semantikoak erauzi ditugu automatikoki eta BVI lexikoian gehitu ditugu (automatikoki landutako aditzek bulet bat () daramate lexikoian). Beraz, gure lexikoian corpuseko 1.211 aditzen sarrerak biltzen ditugu.

    Aditz-sarrera bakoitzak honako informazio hau dauka:

    1.     Euskal aditzaren adierak eta bere PropBank-eko ordainak.
    2.     Adieraren informazio sintaktiko-semantikoa: i) argumentu kopurua edo balentzia, ii) VerbNet-eko rol semantikoa, iii) EADBko (Euskal Aditzen Datu Basea) rol semantikoa, iv) deklinabide-kasua eta (zenbaitetan) v) Hautapen Murriztapenak: +biziduna/-biziduna, +gizakia/-gizakia, +konkretua/-konkretua.

    Orain arte dakigunaren arabera, BVI da euskararako egin den mota honetako lehen baliabidea, beraz, euskal aditzen informazio sintaktiko-semantikoa jasotzen duen lehen biltegia dela esan genezake. Gainera, BVIeko sarrera bakoitzak PropBank, VerbNet, WordNet, Levinen sailkapena eta FrameNet bezalako baliabideekin lotura du.