巴斯克语术语自动构建及其应用 1.简介　　近年来，各语种都在开发科技类文章术语的自动构建工具，尽管如此，对于自动选出的术语条目还是需要人工进行最后一步筛选。下文列出了几个相关的术语工具：LEXTER（Bourigault，92），AT & Tko Terminght（Church & Dagan，94）IBM术语（Justeson & Katz，95）NPtool（Arpper，95）。　　这些术语工具的应用领域可以分为两个部分：信息索引以及制作术语词汇表。此外，在诸如计算机等术语呈现动态发展的领域，若未使用上述工具，在实际操作中则不可能进行有效的术语整理工作。　　若尝试对巴斯克语开发一个类似的工具，我们将会因下列原因而遇到种种不便：语言尚未统一使用方法，并且能够进行的研究着实有限，再者是因为巴斯克语是一种黏着语。 2.术语构建　　获取一个术语完整且正式的定义是一个非常艰巨的任务，同时也意味着一个必不可少的环节：明确各术语的特征。为从语料中获取技术术语，通常会融合自然语言处理技术（以语言学知识为基础）以及统计学技术。 2.1.语言学技巧　　语言学技巧通常使用在术语的最初筛选中。由于经常使用词法句法模型，用以分析文本或者至少说明性略语较为合适。语言学工具的质量至少在很大程度上影响着分析结果。而在一些项目中，既不进行词法分析也不分析句法。(Su等人，96)。　　词根分析与词法分析用来消除歧义。对于词尾有复杂变化的语言来说，仅看单词表面就进行分析，只会造成很糟糕的局面。此时词根分析就变得更为不可或缺。语言学知识的掌握同样是术语规范化过程中的重要环节，由于一些术语可以构成其它更长的单词，因此必须加以区分。 2.2.统计学方法　　在绝大部分项目中，人们使用统计学方法来减少同一个语言学模型下的术语数量。统计学方法会按照项目的不同而进行改变，最简单的办法是获得一个绝对最低频率(Justeson&Katz，95)。尽管如此，通常情况下还是会采用多个概率公式相结合的办法。 2.3.结果若上述过程中获得的结果仍无法完全自动构建一个精确的术语条目，则必须在覆盖度（召回率）和精确度（精确性）之间达到平衡。在该平衡中，覆盖度为优先考虑的部分，因此必须一直有人负责精简术语词汇。若覆盖率需达到95%，通常精确度会降低至50%，若令精确度维持在85%左右，覆盖率甚至不会达到35%。 3.巴斯克语的应用　　IXA研究组试图针对巴斯克语开发一个此类工具，为此，已准备了词法分析器（阿莱格里亚（Alegria）等，96），词语分析器/说明性省略语分析器也即将开发完成（阿杜里斯（Aduriz）等，96），我们同时也在研究和句法相关的工具。　　在准备上述工具的同时，我们也对技术术语进行建模，即精简这些术语的特性。伴随着研发的目的，基于现有的科技字典并使用统计学办法，我们已经构建了主要的模型。尽管还没有取得最终结果，我们认为该模型已囊括了语段模型涉及的内容。另一方面，在筛选技术术语时，单词内部变格尤为重要。