方志物产药物信息识别系统的构建(附件)

《方志物产》[1]是汇集了一个地方信息资源系统的百科全书,地方志记载的众多的史料文物,药物信息,不仅对于农业生产,对于医药学发展来说也是不可或缺的重要组成部分,本文基于已经数字化处理好的方志物产,通过医药书查询得到的医药名大词汇库以及使用药物疗效属性,药物出处等规则对药物名称进行朴素贝叶斯模型匹配。本文使用朴素贝叶斯模型,根据预先设计好的识别模板把《方志物产》预处理为列标记,并且选取其中的少量语料将其作为训练与测试语料,根据我们选择的训练语料得到药名识别模型,并使用测试语料对该模型做测试,最终得到该药名识别模型效果。本文在前辈们词典匹配的基础上探究了药物属性对药物名的识别作用,给药物识别提供了新角度。
目录
摘要1
关键词1
Abstract1
Key words1
一、引言 3
二、综述 3
三、识别药名的特征 5
(一)词典的选取 5
(二)分析规则 5
四、基于朴素贝叶斯模型的识别模型的建立 6
(一)语料的选择与处理 6
(二)特征的选取 8
五、基于自动识别模型的测试语料识别 8
(一)实验数据 8
(二)评价指标 9
(三)实验结果与分析 9
1.医疗术语识别法 10
2.病症名称识别法 10
3.医疗术语+病症名称识别法 10
4.词典+医疗术语+病症名称识别法 11
六、实验的不足之处 11
(一)地域限制,材料的限制 11
(二)不够普遍 11
(三)发现的识别药物以及其药性的规律单一 11
(四)古言处理困难 11
(五)特征词太少 12
七、未来展望 12
致谢 13
参考文献 14
图1.贝叶斯公式 5
图2.朴素贝叶斯特征公式 5
图3.匹配药物名词典 5
图4.识别模型运行过程 7
表5.标识样例 8
图6.特征词匹配结果 10
《方 *好棒文|www.hbsrm.com +Q: ¥351916072¥ 
志物产》药物信息识别系统的构建
引言
引言
为了在非结构化生物信息中识别出指定类型的名称,必须要进行命名实体的识别,作为信息抽取、检索信息、机器翻译以及自动问答等各种不同语种的处理技术的基础,它占据着重要的地位。[2]在如今的时代,人工智能发展迅猛,在此时代背景下,作为人工智能的基础,国内外有很多组织也在实体识别这一块收获颇丰,其中包括机器学习方法(例如条件随机场模型,支持向量基模型等)、词典匹配方法、基于规则的方法。
本文研究主体《方志物产》中记载的众多的史料文物,药物信息,不仅对于农业生产,就对于医药学发展来说也是不可或缺的重要组成部分,在我国古代古籍文献中,方志类古籍凭借其丰富详实的史料基础以及不可替代的史料架子可谓是古籍文献中的大宗,据相关学者保守估计,我国历史中迄今保留下来的古籍中,方志类古籍占总数量的大约1/10。
本文主要基于《方志物产广东卷》中数字化后的非结构化数据,通过网页抓取收集到的药物名称数据库,与文本匹配,匹配到相应的药物名称;同时寻找语料的药名分布特点,对其进行朴素贝叶斯模型匹配;选择部分文本作为训练语料进行预处理,使用朴素贝叶斯模型对语料中具体药名进行训练,最终得到药名识别系统,通过人工观察分析其召回率,精准率从而对其识别能力进行评测
二.相关研究综述
目前,在生物医学领域中,基于词典的方法、基于规则的方法、基于机器学习的方法和混合的方法是实体抽取的四种最主要的方法,众所周知,药物名中其实也包含了研究和应用价值,而且具有相当重要的意义。最近在药物名信息领域投入精力的研究人员数量急剧增多。目前在生物医学领域有很多的数据库资源可用于药物名识别,如 Pub Chem,Ch EBI,Jochem,Chem Spider和 Drug Bank等,这些数据库可以以字典的方式用于识别药物名。然而,当前公开可用的药物名抽取系统还是比较少,具有代表性的是 Whatizit,OSCAR3/4和Chem Spot等Whatizit 利用词典匹配的方法识别药物名实体。OSCAR3/4 是基于机器学习方法来识别,他使用最大熵模型在 OSCAR 语料集上生成。Chem Spot 是一个基于机器学习和字典匹配的混合模型。虽然药物名抽取的重要性不言而喻,但是目前关于药物名抽取的系统还比较少见。实现并比较不同系统的瓶颈在于
没有适用的语料库;2)对化合物和药物的标注原则不够清晰;3)数据的来源互有差异;4)缺少可比较的评价标准。[3]
基于词典: 基于词典的方法是一种通过匹配或查找字典来识别实体的技术,主要工作是词典的构建和匹配方法的实现两方面。
有很多方法可以用于生物命名实体识别,其中是最简单的方法就是词典匹配法,此算法中,主要是两种配备,其一是前向最大匹配,其二则是后向最大匹配。而且词典匹配法中,占主要地位的工作就是词典的构造,实体识别的准确性高低取决于词典中包含的实体数量的多少,也就是说,如果词典中包含的实体数量较少,就会使得实体识别相应地不会那么准确。徐博等用模板匹配的方法从生物医学资源中构造了一个药名词典, 此时如需要在识别出药品名的基础上同时还要求它识别出数据库中不包含的药名,于是他们就对该词典进行了去噪处理,这种方法首先可以识别出文本中药名、基因名以及疾病名,然后通过语义法将药物、疾病和疾病与基因之间的关系抽取出来。在数据中下载的词典中很大部分被应用在论文中,识别基因名可以用词典查找方法。一开始,凭借在线基因组资源,作者构造了一个词典,第二部作者开始过滤一些常用词,接着用最终的词典来识别实体。等从语料中获取了一些实体构成一个词典,最后用该词典进行实体识别。
然而,在这个过程中,经常会遇到比如字典规模过大之类等等的一些问题,因为药物名实体通常会有大量的系统名称和琐碎的名称,字典的大小通常会达到数百万的级别,如 Jochem数据库化合物词典中包含了近两百万的同义词项[4]。在匹配词典时,如果使用精确的字符串匹配,由于撰写时的拼写错误和印刷出版时字体的影响词典不能覆盖大量的实体,系统往往会有很高的精确率,但是召回率很低。这种情况下,可以使用近似匹配和计算词项相似性的方法,如正则表达式或使用编辑距离来计算近似性。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/510.html

好棒文