CSC中文语义词库 (原名 CWB中文词库) 是自主研制的软件系统。其核心是一个初具规模的中文词库。该词库目前收入了超过 190,000 的书面形式的词条 (带230,000 以上的义项) ,包括单词、固定词组、成语、一定比例的专名、少量在中文文献中较常见的英文缩写或含有字母的词语,等等。该系统还在不断发展之中。它也是一种较简化的知识本体 (ontology) 或知识库,有类似著名英文词库WordNet 的用途,可作为智能搜索、自然语言处理等领域的辅助资源。
主要特点
·对词库中的每个词条,尽量给出与它关系比较密切的各种相关词,例如同义词、反义词、上位词、下位词等等。目前词库中绝大多数词有所属的意义类别,130,000 以上的词或义项有较准确的同义词,14,000 以上的词或义项有反义或并列词,多数词条中还带有其它相关词,总共含有 2,100,000 以上个关系实例,主体内容的文本形式超过 12,400,000 字符。整个词库在一些方面类似英文词库 WordNet,但两者也有不少差别。与一些知识图谱不同,这种语义库比较侧重通用的日常词语或概念的描述。
·多种检索途径。能够以词形、读音、意义为入口快速地查词。可通过意义上的联系在词条之间漫游。可使用通配符模糊查词。内置的拼音输入法能提高查词的效率。
·多种显示方式。可以按拼音、长度等顺序显示相关词,可以用树形显示一些单词中的上下位等关系的等级层次。
相关搜索:词库
进入 CSC 系统并输入词之后出现如下窗口 (本手册所举的例子在该系统的某些版本中可能略有变化,恕不另外说明):
左上角是主词窗口,其中的“电脑”称为主词。其右边是义项号窗口和工具按钮。中间占据最大面积的是相关词窗口。其左边是关系窗口。最下面是释义窗口。
主词窗口是一个下拉组合框,可在里面输入要查阅的词条。义项号窗口是下拉列表组合框,可选择要显示的义项。关系窗口列出主词的当前义项所具有的关系。关系的各种类型将在后面介绍。相关词窗口显示主词的各种相关词。释义窗口显示主词或相关词的释义或提示信息,但目前这里经常没有内容。
除了使用鼠标外,还可以使用 Tab 或 Shift+Tab 键在各个窗口之间切换。关系窗口、相关词窗口和释义窗口构成了切分窗口,可以用鼠标拖动边框或窗棱调整各窗格的大小。
目前界面不美观,因为用户通常只须调用数据而不需要这里的界面。