|
一、概况
"藏缅语族语言词汇数据库"是中央民族大学计算机系许寿椿教授主持的自然科学基金项目"多语种微机语料库及语言比较"中的一部分。与这个数据库配套的软件系统,简称为"ZCDT"。开发ZCDT软件的目的的主要有四个:
①探讨计算机在少数民族语言、文字研究领域的应用,为进行一步研究少数民族语言、文字提供新工具、新方法和科学的统计数据,使部分民族语言的研究由定性分析逐步发展到定量分析,为发展民族文字信息处理技术积累经验。
②建立一个多种少数民族语言词汇的数据库。包括藏缅语族的50个语种、汉字词条、汉语拼音和英语词条,词汇数量为1822条。选择词汇的标准各语种共有的,其余词条也是多个语种共有的。每个词汇均用国际音标的形式标注。
③统计分析收录的50个语种的语音特征,为进一步研究这些语种的语音特征提供科学准确的基础数据。
④提供一个使用方便的查询软件。
以此为基础出版的《藏缅语族语言词汇》一书获1993年国家民委社会科学研究成果二等奖,1993年中国民族版图书一等奖。
该软件的运行环境:①硬件环境:IBM/PC及其兼容机。②系统软件:与汉英兼容的国际音标汉字操作系统,简称IPA。③计算机语言:DBASEⅢ或FOXBASE+。
二、软件设计
为实现上述目标,建立了两个原始数据库:原始词汇数据库和所选择的50个语种的所有元音数据库。在此基础上生成基本统计数据库(每个语种一个,用序号加以区分,为叙述上主方便依次称为基本统计库1、基本统计库2、……、基本统计库50)。在基本统计库的基础上自动建立各语种的多种单项语音特征统计数据库(简称单项统计库)。在单项统计库和基本统计库的基础上自动生成全部语种和部分语种的多种语音特征综合统计数据库(简称综合统计库)。
1.原始词汇数据库
本数据库共有字段5个,分别对应藏缅语族的50个语种和汉语、汉语拼音及英语;共有记录1822条,分别对应1822条,分别对应1822个词汇;各语种的词汇均用国标音标标出,有的一个汉语词汇对应的语种有多种表示形式,均一并收入以便保持资料的完整性。所有数据均由人工录入。建成后的原始数据库约占4.8MB存储空间。
2.元音数据库
本数据库有一个字段,存放所选50个语种的全部元音。用于自动划分各语种的音节、声母和韵母。
3.基本统计数据库
基本统计数据库共有50个,分别对应50个语种,各基本统计数据库的结构是一致的,其中存储的主要内容是在分音节时自动建立的。这个数据库记录了各语种揿种语音特征。其中包括的特征有:音节、音节数、声母、韵母、声调、各音节位的音节数量、名词、形容词、数词
的各个音节的音节数量、鼻音特征、长短元音特征、卷舌音特征、松紧元音特征、弱化音特征、鼻冠音特征等。它用于各语种语音特征的统计分析。它是统计各种语种诸琼音特征的关键。
在本系统中,自动生成每个语种的各个单项统计库均以基本统计库为基础,自动生成全部语种和部分语种的综合统计库,均以各单项统计库和基本统计库为基础。实际上,给出的各种单项/综合统计数据库仅是由基本统计数据库所能生成的各种统计数据库中的一小部分。由基本统计数据库所能生成的各种统计数据库的数量是非常大的,它可以按着其中的一项或多项的综合为标准,生成所需要的统计数据库。
基本统计库的作用主要体现在四个方面:一是大大地减少了编程工作量;二是使编写程序代码变得更加简单;三是有效地提高了数据的一致性,难程序和数据的维护带来了极大的方便;四是大大地提高了程序的运行速度,在基本统计库上生成同一个统计表比在原始词汇数据库上平均至少快500倍以上。
4.单项统计数据库
它存储的是一个语种按单项语音特征产生的统计结果。其中,数据库结构和记录数量均由本系统根据语种及单项语音特征自动生成。如:音节及其出现频度数据库,存储了这个语种的所有音节和相应音节出现的频度,并按音节出现频度降序排列,记录数量由相应语种的音节数量动态确定。本系统对每个语种都能自动生成18种单项统计数据库。另外,可随时方便地产生其他单项统计数据库。
5.综合统计库
它存储的是全部或部分语种按多项语音特征产生的综合统计结果,其中数据库结构和记录数量均由此可见一系统根据所用的语种数量及多项语音特征自动生成。
6.数据库的生成
本系统所用的数据库,除原始数据库、元音数据库和基本统计数据库的结构由人工建立外,其余所有数据库均由系统自动生成。
三、程序设计
1.功能设计
本软件共有五大功能:每种功能下面还包括若干子功能,见本文第四部分。
2.屏幕设计
本软件实现的所有功能均以菜单形式显示在屏幕上,通过数字键或回车键选择相应的功能,对某些选择项允许用户修改其选择。
3.最重要的几个通用子程序设计
①分音节子程序。其功能是把任意一个语种的词汇分解成音节,并存入相应语种的基本统计数据库中,同时,还记录相应音节数量,相应音节在词汇中的位置和词汇的性质(名词、动词、数词等)等。②分声韵调子程序。其功能是把任意一个基本统计数据库的音节分解出声母、韵母、声调,并把它们及相关信息存储在相应基本统计数据库中的有关字段中。③基本统计数据库中相关字段的特殊处理子程序。④原始词汇数据库的输入、修改检查子程序。其功能是显示输入、修改、检索原始词汇数据库的公用信息。
四、ZCDT软件功能概述
ZCDT软件共有五大功能,它们分别是:输入词汇、修改词汇、查询、统计分析和打印输出。
1.输入词汇
本功能用于输入藏缅语族各种词汇。输入词汇时有两种选择:
①按词汇输入。即对于每个词汇要输入其汉语词汇、汉语词汇的拼音、汉语词汇的英文表示和汉语词汇的50种语言表示。输入分多处屏幕显示相关提示信息,在输入的同时可以修改错误。②按语种输入。即每次选择一个语种输入,在输入的同时可以修改输入错误。
2.修改
本功能用于修改词汇数据库中的输入错误,有五种修改形式:
①顺序修改所有记录。②从指定汉语词汇编号开始顺序修改记录。③顺序修改指定语种的所有词汇。④按汉语词汇编号修改指定记录。⑤按汉语词汇编号修改指定记录的指定字段。
3.查询
本功能用多种形式查询各语种的词汇信息和各语种的语音特征统计数据库中的相关信息。
4.统计分析
本功能主要包括三部分。
①基本统计分析:根据50个语种的1822条记录分析统计,分别生成50个基本统计数据库,整个基本统计数据库均包括相应语种的多种语音特征。②单项统计分析:以各语种的基本统计数据库为基础,每个语种按单项语音特征统计,生成各个语种的单项统计数据库。每个语种共生成18个单项统计数据库。③综合统计分析:以各语种的单项统计数据库和基本统计数据库为基础,全部语种或部分语种按单项或多项语音特征统计,生成综合统计数据库。本系统共生成综合统计数据库16个。
统计分析需要处理四个方面的问题:
第一是分音节,由分音节子程序完成。它记录了音节、音节数量、音节在词汇表示中的位置、词性,生成基本统计数据库中的大部分数据,一次处理一个语种。
第二是分声韵调,由分声韵调子程序完成。它把音节分成声母、韵母、声韵母和声调(对于没有声调的语种,仅分声母和韵母),并存入相应字段中,一次处理一个语种。
第三是规则语言"现象"的处理
第四是不规则语言"现象"的处理。
其中,前三个方面的问题由程序自动处理,第四方面的问题要由程序自动处理,第四方面的问题要由相应的文字专家做一些特殊"标记",然后由程序自动处理。
基本统计分析在整个语音特征统计分析中起着关键作用,成功与否直接影响到整个统计功能的成败。
在本系统中设计的基本统计数据库,基本上能满足大部分语音特征的统计要求。但是,由于各个语种的语音特征都存在着较大的差异,即使是在同一个语种中,也存在着一些程度不同的有争议的问题。因此,基本统计数据库中的内容不可能包括所有语种的全部语音特征,在设计基本统计数据库时充分地考虑了这一点,留有接口。若需要统计基本统计数据库中没有包括的内容,可以按照建立基本统计库的原则,在原有基本统计库的基础上适当增加一些新的特征位即可。
5.打印输出功能
本功能主要包括两部分内容:词汇数据库的报表打印输出和各种统计数据库的报表打印输出。
首页[1]末页
|