古籍中异体字现象研究以方志物产广西分卷为例(附件)

异体字在古籍资料中是个长期存在的问题,与汉字本身的特点息息相关,它的起源和发展经历了漫长的历史过程。异体字的大量存在,对现代汉字的使用造成了极大的不便。《方志物产》作为世界上唯一一套明清方志农业资料,其内容也存在着异体字现象,且现象较为普遍,主要是物产名称的同物异名现象。本文选取了《方志物产》的广西分卷作为分析语料,采用轮排算法梳理归纳了《方志物产》中所记载的异体字现象,根据轮排结果分析异体字在《方志物产》中的类型及成因,并尝试通过构建对照词典进行异体字人工替换以实现物产名称的规范化。
目录
摘要 1
关键词 1
Abstract 1
Key words 1
一、问题发现 2
(一)方志物产简介 2
(二)语料来源(广西卷) 2
(三)分析方法 3
(四)异体字的存在 3
二、异体字现象 4
(一)概念 4
(二)类型 5
(三)成因 6
1. 造字方法 6
2. 字体演化 6
3. 文字运用 7
4. 版本更替 7
5. 避讳 7
6. 地方方言 7
三、解决方案设计 8
(一)正异对照词典构建 8
(二)人工替换思路设计 9
四、测试与结果 9
(一)正异字现象规范化 9
(二)结果分析 9
(三)测评结果 10
五、小结 11
(一)创新之处 11
(二)存在问题 11
致谢 11
参考文献 12
附录 13
表1 第一轮测试 13
表2 第二轮测试 13
表3 第三轮测试 14
表4 第四轮测试 14
表5 第五轮测试 15
表6 第六轮测试 15
古籍中异体字现象研究
——以《方志物产》广西分卷为例
引言
我国古籍文献种类繁多、规模宏大,是我国独一无二的文化 *好棒文|www.hbsrm.com +Q: #351916072# 
瑰宝,但在其传播和传承的过程之中,由于岁月的变迁和侵蚀,最初的载体形式正慢慢地走向老化,许多古籍面临着毁于一旦的危险境地。值得欣慰的是,近年来,随着计算机技术的迅猛发展以及“数字人文”[1]研究领域的兴起,古籍的呈现模式打破了以往纸质文献的束缚,正朝着数字化[2]的方向发展,越来越多的古籍文献被开发建设成了数字化资源库,研究人员可以直接通过计算机调用这些数字化资源,就能对古籍进行分析和研究,大大提高了以往的工作效率。
然而在对数字化古籍进行研究的过程中,发现古籍普遍存在的一种现象,即异体字现象。随着古籍数字化的不断推进,这种现象变得日益突出,并引起了学者们的广泛关注。异体字在古籍资料中是个长期存在的问题,它与汉字本身的形成特点密切相关。汉字的组成分为三个部分,分别包括意符、音符和记号,由于在选择意符的角度方面会因人而千差万别,并且音符又和拼音中的字母差别很大,因此,汉字在表达意思的过程中自然而然地就产生了异体字[3]。异体字的存在给古籍数字化的进展带来了不少的阻力,它严重制约着后续的研究与发现。因此,对异体字的处理刻不容缓。
本文选取了《方志物产》中的广西分卷作为分析语料,着重研究异体字现象,从异体字的概念、类型、成因等角度归纳异体字,并尝试解决异体字问题,以顺应当今数字化发展的时代潮流。
一、问题发现
(一)方志物产简介
方志,又称地方志,是地方文献的前身和来源,是依据一定的框架体系综合全面记载一定时间和空间内的政治、经济、文化、社会等方面的综合性文献资料,有“一方之全史”的美称[4]。
《方志物产》就是地方志其中一种门类,它是20世纪50年代我国著名农史学家、农史学科主要创始人之一的万国鼎先生,组织数十人,历时六年,它是从全国40多个大中型城市、100多个文史单位、8000余种旧地方志中摘抄并辑成的431册农业专题性资料,全文约3000万字。其范围覆盖全国大部分省份和地区,内容主要以农业为主,包括农业生产的多个环节,尤其是以动物、植物品种有关的种养技术为主,分门别类地记录了物产的名称、作用以及地理空间分布等等信息,是目前世界上仅有的一套明清方志农业资料,对现代农业的研究具有很高的借鉴意义,同时对当今生态环境史的分析也颇具史料价值。
《方志物产》的行文结构异于传统文本段落的组织形式,主要是以物产信息作为分段标准,一条物产信息即为一个独立的自然段[5]。一条完整的物产信息内容主要包括物产名称以及物产备注信息。物产名称是本次研究的重点,绝大多数异体字也是由于物产的同物异名现象而产生的;物产备注信息主要是解释物产名称,涉及物产的地理分布、价格、用途、性能、产量、引书、制作工艺以及其它和物产相关的要素信息[6],起到补充说明的作用。
(二)语料来源
中华农业文明研究院的王思明教授研究团队已完成《方志物产》的数字化工作,即对手工摘录的纸质文本进行扫描和文字录入等基础性工作。因此,本研究只需在其基础上,利用已经掌握的方法和知识[79],对《方志物产》广西分卷的物产名称信息进行模式化处理,并导入数据库。一条完整的物产条目格式如下:

鴆/廣志鴆鳥大如鶚毛出紫緑色有毒頸長七八寸食蝮蛇?多運日鴟名隂諧以其毛瀝飲食則殺人
蔞葉/圓尖如薯葉味香脆合灰以食梹榔根名蔞薯味尤香美
薑/味辛辣似桂秋成入冬氣足而味更辣另有山薑一種形味稍異
菉豆/夏熟
標魚/即連魚,頭小形扁,鱗細,腹肥,色白,每年約產數萬觔

“/”前面的内容代表物产名称,“/”后面的内容是物产的补充信息,中间用“/”符号区分开来。
本次用于研究的《方志物产》广西分卷共有十五本,涵盖清朝到民国时期的地方志,共包括163部志书,全文约75万字。筛选剔除无用的物产名称,诸如“*”、“?”、“口”、“T”、“{}”等符号的物产名称,共得到39530条有效的物产条目。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/527.html

好棒文