甘薯-白薯 红薯 红苕 番薯 山芋 香薯 地瓜 山药 芋头 苕 山药蛋
该词库的同义词包括: 内涵不同而外延相同的概念; 异形词; 全称与简称、缩略语; 术语与俗称; 现代叫法和旧称、古称; 普通话和某些方言词; 不统一的译名;敬辞、谦辞; 等等。目前同义关系涉及 130,000 以上的词或义项,占总义项数的
一半以上。其中最大的同义词集 (也可称为“同义词组”,每个集合含一至多个单词,表示一个概念) 包含 53 个同义词。因此该词库应可当成同词典使用。我们对同义的要求一般比有的工具书严格些。其它工具书中的一些同义词,可能因意义有差别而在该系统中被处理为上下位等。该系统能将一些最密切的同义词排在一起。例如在同义词集“功夫 工夫 闲暇…”中,“功夫”和“工夫”被认为最密切。于是当“功夫”作为主词时,“工夫”总是出现为第一个同义词; 当“闲暇”等是主词时,“功夫”和“工夫”总是在其同义词中紧挨着。所谓最密切的同义,指内涵、非理性意义 (或附加意义) 等都相同,包括通常所说的异形词,但还有若干其它类型,其中不少是译名,目前涉及24,000 以上的词或义项。它们基本对应一些教科书中的“完全同义”,但我们采取更严格的标准。下面是一些有代表性的例子:
奥运会-奥林匹克运动会
天翻地覆-地覆天翻
成年累月-整年累月
伊妹儿-依妹儿
防患未然-防患于未然
拉大旗作虎皮-拉大旗,作虎皮
上位(是一种)-下位(分成类别)。是较狭义的上下位。例如:
打-梆 抽 抽打 打 吊 钉 击 擂 拍板 拍打 扑
打-碰撞
正方形-矩形 菱形 正多边形
上位和下位通常是互逆的。如果 A 是一种 B,则 B 可分成 A 等类别。上位中也可包含不止一个词,如上面的“正方形”中。我们不回避多个上位。上位关系易支持继承。目前超过 1/4 的词或义项带有多个上位或类别。今后还会更多些。上下位关系构成庞大的等级体系。越在下面的词就越专指,也即外延就越小。下面是从这种等级中抽取的片段:
信徒-教徒-佛教徒-僧尼-和尚-高僧
几何图形-多边形-三角形-等腰三角形-等边三角形
动物-脊索动物-脊椎动物-哺乳动物-马-骏马-千里马
事情-活动-文体-运动-田径运动-田径赛-径赛-长跑-马拉松
数量-物理量-标量-面积-地积
反应-答理-理茬-回答-答复-回电
玩耍-游玩-游览-郊游-春游-踏春-踏青
正确-合理-公平-公正-正直-刚直
无法-力不从心-眼高手低-志大才疏
适得其反-弄巧成拙-聪明反被聪明误-机关算尽太聪明,反算了卿卿性命
信徒是有某种信仰的人。如果他信仰的是宗教,则就是教徒。如果他信仰的宗教是佛教,则就是佛教徒。如果他还出家,则就是僧尼。如果他是男子,则就是和尚。如果他还造诣精深,则就是高僧。这样的例子在该词库中不胜枚举。目前这种等级的最大深度超过十几层。上面例子中的一些词可能在有些工具书中被处理成同义词。这样做有时也是可以接受的,因为印刷本的词典不易分成很多层次,否则难于印刷和查阅。而在一些应用系统中,有时不必分得太细也能满足需要,有时甚至不必说明两个词是什么关系,只须指出它们密切相关即可。另外,同义和上下位等确实经常不易区分。一些词的含义或用法比较灵活、模糊,不易准确描述。对它们的处理也就不能太严格。目前绝大多数词都含有上位或后面要介绍的“类型”、“由充当”的关系。还有少数词不含这些关系,其中有些是合理的,个别词则有待补充。有时相关词之间还应该协调。例如,方向的相关词不应该是“东 西方 南边 北面”,而应该是“东 西 南 北”或“东方 西方 南方 北方”等。这个问题在汉语中似乎突出些。本系统在早期确实出现过类似的问题。现在已经基本能够避免。