vsm文本相似度算法的健身领域问答系统(源码)
通过搜索引擎查询问题时,其往往会返回一系列网页集合,用户仍需要花费一定的时间浏览每个页面以得到结果。为了得到更好的问题结果,出现了问答系统。传统的基于知识库的问答系统往往需要庞大的知识库作为支撑,其后续的知识维护和更新需要一定成本。考虑到二者的优劣,本文将二者结合构建了一个健身领域问答系统。本文利用文本相似度算法进行答案选择,在传统的VSM算法上,利用Word2Vec加入语义相似度计算。最后,为了验证改进后算法的有效性,人工构建了问答对。通过比对算法的MRR值,可以验证本文改进后的算法具有更好的正确性。该课题的研究和成果在中文信息处理的其他领域也将有一定的利用和参考价值。
目录
摘要 1
关键词 1
Abstract 1
Key words 1
1 绪论 1
1.1 课题的研究背景及意义 1
1.2 国内外研究状况 2
1.3 本文研究内容 2
2 相关技术讨论 3
2.1 文本预处理 3
2.1.1 分词 3
2.1.2 去停用词 3
2.2 关键词处理 3
2.2.1 关键词提取 3
2.2.2 关键词拓展 4
2.3 爬虫技术 4
2.4 VSM向量空间模型与相似度计算方法 4
3 基于Word2Vec的语义相似度计算 5
3.1 Word2Vec简介 5
3.1.1 CBOW模型 5
3.1.2 SkipGram模型 6
3.2 利用Word2vec训练模型 7
3.2.1 训练文本 7
3.2.2 分词方法 7
3.2.3 参数设置 7
3.2.4 Word2vec在VSM算法中的使用 7
3.3 实验及结果分析 8
3.3.1 模型训练 8
3.3.2 算法验证 9
4 基于改进后算法的健身领域问答系统实现 11
4.1 系统需求分析 11
4.2 系统结构与流程 11
4.3 系统设计 1 *好棒文|www.hbsrm.com +Q: ^351916072#
2
4.3.1 系统环境 12
4.3.2 效果展示 13
5 总结与展望 16
5.1 总结 16
5.2 展望 17
致谢 17
参考文献 18
基于VSM文本相似度算法的健身领域问答系统
目录
摘要 1
关键词 1
Abstract 1
Key words 1
1 绪论 1
1.1 课题的研究背景及意义 1
1.2 国内外研究状况 2
1.3 本文研究内容 2
2 相关技术讨论 3
2.1 文本预处理 3
2.1.1 分词 3
2.1.2 去停用词 3
2.2 关键词处理 3
2.2.1 关键词提取 3
2.2.2 关键词拓展 4
2.3 爬虫技术 4
2.4 VSM向量空间模型与相似度计算方法 4
3 基于Word2Vec的语义相似度计算 5
3.1 Word2Vec简介 5
3.1.1 CBOW模型 5
3.1.2 SkipGram模型 6
3.2 利用Word2vec训练模型 7
3.2.1 训练文本 7
3.2.2 分词方法 7
3.2.3 参数设置 7
3.2.4 Word2vec在VSM算法中的使用 7
3.3 实验及结果分析 8
3.3.1 模型训练 8
3.3.2 算法验证 9
4 基于改进后算法的健身领域问答系统实现 11
4.1 系统需求分析 11
4.2 系统结构与流程 11
4.3 系统设计 1 *好棒文|www.hbsrm.com +Q: ^351916072#
2
4.3.1 系统环境 12
4.3.2 效果展示 13
5 总结与展望 16
5.1 总结 16
5.2 展望 17
致谢 17
参考文献 18
基于VSM文本相似度算法的健身领域问答系统
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/1678.html