TERM31_CHN-GS.rs3 (57) |
EDU | Segment | Tagger | Central Unit |
1 | 巴斯克语术语自动构建及其应用
| GS | |
2 | 1.简介
| GS | |
3 | 近年来,各语种都在开发科技类文章术语的自动构建工具, | GS | |
4 | 尽管如此,对于自动选出的术语条目还是需要人工进行最后一步筛选。 | GS | |
5 | 下文列出了几个相关的术语工具:LEXTER(Bourigault,92),AT & Tko Terminght(Church & Dagan,94)IBM术语(Justeson & Katz,95)NPtool(Arpper,95)。
| GS | |
6 | 这些术语工具的应用领域可以分为两个部分:信息索引以及制作术语词汇表。 | GS | |
7 | 此外,在诸如计算机等术语呈现动态发展的领域,若未使用上述工具, | GS | |
8 | 在实际操作中则不可能进行有效的术语整理工作。 | GS | |
9 |
若尝试对巴斯克语开发一个类似的工具, | GS | |
10 | 我们将会因下列原因而遇到种种不便: | GS | |
11 | 语言尚未统一使用方法, | GS | |
12 | 并且能够进行的研究着实有限, | GS | |
13 | 再者是因为巴斯克语是一种黏着语。
| GS | |
14 | 2.术语构建
| GS | |
15 | 获取一个术语完整且正式的定义是一个非常艰巨的任务, | GS | |
16 | 同时也意味着一个必不可少的环节: | GS | |
17 | 明确各术语的特征。 | GS | |
18 | 为从语料中获取技术术语, | GS | |
19 | 通常会融合自然语言处理技术(以语言学知识为基础)以及统计学技术。
| GS | |
20 | 2.1.语言学技巧
| GS | |
21 | 语言学技巧通常使用在术语的最初筛选中。 | GS | |
22 | 由于经常使用词法句法模型, | GS | |
23 | 用以分析文本或者至少说明性略语较为合适。 | GS | |
24 | 语言学工具的质量至少在很大程度上影响着分析结果。 | GS | |
25 | 而在一些项目中,既不进行词法分析也不分析句法。(Su等人,96)。
| GS | |
26 | 词根分析与词法分析用来消除歧义。 | GS | |
27 | 对于词尾有复杂变化的语言来说,仅看单词表面就进行分析,只会造成很糟糕的局面。 | GS | |
28 | 此时词根分析就变得更为不可或缺。 | GS | |
29 | 语言学知识的掌握同样是术语规范化过程中的重要环节, | GS | |
30 | 由于一些术语可以构成其它更长的单词, | GS | |
31 | 因此必须加以区分。
| GS | |
32 | 2.2.统计学方法
| GS | |
33 | 在绝大部分项目中,人们使用统计学方法来减少同一个语言学模型下的术语数量。 | GS | |
34 | 统计学方法会按照项目的不同而进行改变, | GS | |
35 | 最简单的办法是获得一个绝对最低频率(Justeson&Katz,95)。 | GS | |
36 | 尽管如此,通常情况下还是会采用多个概率公式相结合的办法。
| GS | |
37 | 2.3.结果
| GS | |
38 | 若上述过程中获得的结果仍无法完全自动构建一个精确的术语条目, | GS | |
39 | 则必须在覆盖度(召回率)和精确度(精确性)之间达到平衡。 | GS | |
40 | 在该平衡中,覆盖度为优先考虑的部分, | GS | |
41 | 因此必须一直有人负责精简术语词汇。 | GS | |
42 | 若覆盖率需达到95%, | GS | |
43 | 通常精确度会降低至50%, | GS | |
44 | 若令精确度维持在85%左右, | GS | |
45 | 覆盖率甚至不会达到35%。
| GS | |
46 | 3.巴斯克语的应用
| GS | |
47 | IXA研究组试图针对巴斯克语开发一个此类工具, | GS | |
48 | 为此,已准备了词法分析器(阿莱格里亚(Alegria)等,96), | GS | |
49 | 词语分析器/说明性省略语分析器也即将开发完成(阿杜里斯(Aduriz)等,96),我们同时也在研究和句法相关的工具。
| GS | |
50 | 在准备上述工具的同时, | GS | |
51 | 我们也对技术术语进行建模, | GS | |
52 | 即精简这些术语的特性。 | GS | |
53 | 伴随着研发的目的,基于现有的科技字典并使用统计学办法, | GS | |
54 | 我们已经构建了主要的模型。 | GS | |
55 | 尽管还没有取得最终结果, | GS | |
56 | 我们认为该模型已囊括了语段模型涉及的内容。 | GS | |
57 | 另一方面,在筛选技术术语时,单词内部变格尤为重要。 | GS | |