高校师生科技文献个性化服务系统设计(附件)
为了解决海量科技文献带来的信息过载问题,提高向用户推送文献的准确率,设计实现了一种基于Word2Vec的高校师生科技文献个性化服务系统。编写爬虫挖取知网、中国专利数据库科技文献并采用基于Lucene的全文检索方案对数据检索存储与检索。通过Word Embedding技术计算文献中标题,全文分词内容与用户兴趣本体的相似度来拓展用户阅读兴趣词袋模型,在一定程度上解决了系统数据稀疏性与冷启动问题。在120万篇科技文献的基础上,达到了良好的实验效果。实验取得了科技文献82%的推荐准确率,为科技文献推荐算法提供相关参考。系统以高校师生为服务对象,满足其对文献检索的效率的需求。关键词 个性化推荐,信息过载,Word Embedding,混合推荐,用户建模2000年时,NEC研究院研究员Kurt等人在搜索引擎CiteSeer中加入了个性化推荐模块,在用户检索信息时向用户推送可能喜欢的项目;至2001年,纽约大学的Gediminas?Adoavicius和Alexander?Tuzhilin设计并实现了推荐系统中的用户兴趣建模模块,发现用户现在的兴趣点以及预测未来可能的兴趣点[4]。至2003年,Google提出了一种基于个性化推荐技术的AdWords盈利模式,该盈利模式加入了个性化相关功能,该系统收集用户每次检索的关键词以及在一段时间内用户的检索历史记录,对用户的这些数据进行分析并将模型存入系统数据库来了解每位用户的个人偏好和需求,从而能够更加精准的向网站用户呈现用户可能感兴趣的项目。
目 录
1 引言 1
1.1 课题背景 1
1.2 国内外研究综述 2
1.3 课题来源 3
2 关键问题的研究 3
2.1 关键问题 3
2.2 关键技术 5
3 算法设计 12
3.1 文档预处理算法 12
3.2 科技文献特征抽取算法 12
3.3 用户偏好模型建立算法 14
3.4 科技文献推荐算法 17
4 实验过程 20
4.1 文本预处理 20
4.2 科技文献个性化推荐模型 22
4 数据结构设计 23
4. *好棒文|www.hbsrm.com +Q: ¥351916072$
1 文献数据设计 23
4.2 用户浏览记录数据设计 24
5 系统设计 25
5.1 总体架构 25
5.2 模块设计 26
6 系统部署与测试 29
6.1 系统部署 29
6.2 系统测试及结果 29
结论 31
致谢 32
参考文献 33
附录A 申请的相关发明专利1 35
附录B 申请的相关发明专利2 36
附录C发表的相关研究论文1 37
附录D发表的相关研究论文2 41
附录E 大学期间完成项目 46
附录F大学期间获得的竞赛证书 47
附录G大学期间完成软件著作权 48
附录H论文查重报告 49
1 引言
1.1 课题背景
互联网技术的诞生深刻地改变了人们获取、分享知识的方式,人们可以方便、快捷地通过互联网发表最新的观点与认识,据最新资料显示,万方论文数据库可以检索到的文献数目已经达到7000万余篇,其中包括来自期刊、学位论文、会议、外文文献数据库。海量的数据造成的“信息过载”问题让信息检索人员耗费大量时间和精力用于在寻找对自己有价值的信息上[1]。个性化推荐服务系统是解决“信息过载”问题的有效途径。
自上世纪90年代开始,互联网上的数据量进入了爆炸式增长阶段。据2014年美国易安信(EMC)公司发布的一份数字宇宙(Digital Universe)报告得知,至2020年,全球的互联网上的数据总量将达到约44ZB,这些数据多以数据流形式存在并且在各个数据节点之间快速流动[2],数据的内容包括文档、图像、视频等。在互联网上的这些海量的数据中,科技文献是高校师生了解所研究领域最新研究进展与成果一个重要的途径。近日,中国科学院大学国家计算机网络入侵防范中心研究出了一种运用黑盒遗传算法动态调整测试参数方法,在加快检测安卓系统漏洞速度的同时,测试表示该算法也据有发现未知漏洞能力,进一步提高了用户安卓系统安全,研究成果以论文形式发表在《计算机学报》中。北京邮电大学马华东教授课题组设计了一种新的仿生优化算法—变形虫优化,显著提高了网络中暴露路径、斯坦纳树等问题的求解效率,并以论文形式发表在IEEE Transactions on Computers上。《细胞研究》期刊发表了题为《神经元通过释放含有miR132的外泌体调节脑部血管完整性》的研究论文,工作揭示了神经元调节脑血管发育的新机制方面的最新成果,并首次发现了外泌体介导的这种神经血管调节方式。由此可见,如何在海量的文献中高效地获取对检索人员有价值的文献对于科研的调研阶段具有重要的实际意义。
科技文献个性化服务技术关键关键是精确抓取用户使用系统的使用行为,根据其中用户浏览记录的或标记的项目进行抽取,为每一个用户建立文献偏好模型用于预测可能喜欢的文献,同时能够让偏好模型具有自适应性,由于时间的前进用户兴趣发生的漂移也能够更新到系统的用户模型中去。研究科技文献的个性化服务技术能够提高科研人员检索文献的效率,更好的让科研任务取得突破性的进展。
1.2 国内外研究综述
随着互联网技术的普及,自然语言处理技术与个性化服务技术是目前信息检索近几年比较火爆的领域,很多人对它给予了很高的期望。国内外众多的研究人员对此进行了深入的研究并取得了许多实质性的成果。
1.2.1 国外研究现状
在国外,推荐技术雏形出现的最早时间是1993年,由美国那时的人工智能协会首次提出,那时的推荐系统用于人员的个性化导航;1997年AT&T实验室提出了一个个性化推荐系统PHOAS和Referral Web,这个推荐系统是第一次使用了基于协同过滤的推荐概念;至1999年,第一个个性化的电子商务原型系统TELLIM由德国Dresden技术大学的TanjaJoerding设计并实现,为现代个性化电子商务服务系统奠定了基础;在搜索引擎领域[4]。
2000年时,NEC研究院研究员Kurt等人在搜索引擎CiteSeer中加入了个性化推荐模块,在用户检索信息时向用户推送可能喜欢的项目;至2001年,纽约大学的Gediminas?Adoavicius和Alexander?Tuzhilin设计并实现了推荐系统中的用户兴趣建模模块,发现用户现在的兴趣点以及预测未来可能的兴趣点[4]。至2003年,Google提出了一种基于个性化推荐技术的AdWords盈利模式,该盈利模式加入了个性化相关功能,该系统收集用户每次检索的关键词以及在一段时间内用户的检索历史记录,对用户的这些数据进行分析并将模型存入系统数据库来了解每位用户的个人偏好和需求,从而能够更加精准的向网站用户呈现用户可能感兴趣的项目。
目 录
1 引言 1
1.1 课题背景 1
1.2 国内外研究综述 2
1.3 课题来源 3
2 关键问题的研究 3
2.1 关键问题 3
2.2 关键技术 5
3 算法设计 12
3.1 文档预处理算法 12
3.2 科技文献特征抽取算法 12
3.3 用户偏好模型建立算法 14
3.4 科技文献推荐算法 17
4 实验过程 20
4.1 文本预处理 20
4.2 科技文献个性化推荐模型 22
4 数据结构设计 23
4. *好棒文|www.hbsrm.com +Q: ¥351916072$
1 文献数据设计 23
4.2 用户浏览记录数据设计 24
5 系统设计 25
5.1 总体架构 25
5.2 模块设计 26
6 系统部署与测试 29
6.1 系统部署 29
6.2 系统测试及结果 29
结论 31
致谢 32
参考文献 33
附录A 申请的相关发明专利1 35
附录B 申请的相关发明专利2 36
附录C发表的相关研究论文1 37
附录D发表的相关研究论文2 41
附录E 大学期间完成项目 46
附录F大学期间获得的竞赛证书 47
附录G大学期间完成软件著作权 48
附录H论文查重报告 49
1 引言
1.1 课题背景
互联网技术的诞生深刻地改变了人们获取、分享知识的方式,人们可以方便、快捷地通过互联网发表最新的观点与认识,据最新资料显示,万方论文数据库可以检索到的文献数目已经达到7000万余篇,其中包括来自期刊、学位论文、会议、外文文献数据库。海量的数据造成的“信息过载”问题让信息检索人员耗费大量时间和精力用于在寻找对自己有价值的信息上[1]。个性化推荐服务系统是解决“信息过载”问题的有效途径。
自上世纪90年代开始,互联网上的数据量进入了爆炸式增长阶段。据2014年美国易安信(EMC)公司发布的一份数字宇宙(Digital Universe)报告得知,至2020年,全球的互联网上的数据总量将达到约44ZB,这些数据多以数据流形式存在并且在各个数据节点之间快速流动[2],数据的内容包括文档、图像、视频等。在互联网上的这些海量的数据中,科技文献是高校师生了解所研究领域最新研究进展与成果一个重要的途径。近日,中国科学院大学国家计算机网络入侵防范中心研究出了一种运用黑盒遗传算法动态调整测试参数方法,在加快检测安卓系统漏洞速度的同时,测试表示该算法也据有发现未知漏洞能力,进一步提高了用户安卓系统安全,研究成果以论文形式发表在《计算机学报》中。北京邮电大学马华东教授课题组设计了一种新的仿生优化算法—变形虫优化,显著提高了网络中暴露路径、斯坦纳树等问题的求解效率,并以论文形式发表在IEEE Transactions on Computers上。《细胞研究》期刊发表了题为《神经元通过释放含有miR132的外泌体调节脑部血管完整性》的研究论文,工作揭示了神经元调节脑血管发育的新机制方面的最新成果,并首次发现了外泌体介导的这种神经血管调节方式。由此可见,如何在海量的文献中高效地获取对检索人员有价值的文献对于科研的调研阶段具有重要的实际意义。
科技文献个性化服务技术关键关键是精确抓取用户使用系统的使用行为,根据其中用户浏览记录的或标记的项目进行抽取,为每一个用户建立文献偏好模型用于预测可能喜欢的文献,同时能够让偏好模型具有自适应性,由于时间的前进用户兴趣发生的漂移也能够更新到系统的用户模型中去。研究科技文献的个性化服务技术能够提高科研人员检索文献的效率,更好的让科研任务取得突破性的进展。
1.2 国内外研究综述
随着互联网技术的普及,自然语言处理技术与个性化服务技术是目前信息检索近几年比较火爆的领域,很多人对它给予了很高的期望。国内外众多的研究人员对此进行了深入的研究并取得了许多实质性的成果。
1.2.1 国外研究现状
在国外,推荐技术雏形出现的最早时间是1993年,由美国那时的人工智能协会首次提出,那时的推荐系统用于人员的个性化导航;1997年AT&T实验室提出了一个个性化推荐系统PHOAS和Referral Web,这个推荐系统是第一次使用了基于协同过滤的推荐概念;至1999年,第一个个性化的电子商务原型系统TELLIM由德国Dresden技术大学的TanjaJoerding设计并实现,为现代个性化电子商务服务系统奠定了基础;在搜索引擎领域[4]。
2000年时,NEC研究院研究员Kurt等人在搜索引擎CiteSeer中加入了个性化推荐模块,在用户检索信息时向用户推送可能喜欢的项目;至2001年,纽约大学的Gediminas?Adoavicius和Alexander?Tuzhilin设计并实现了推荐系统中的用户兴趣建模模块,发现用户现在的兴趣点以及预测未来可能的兴趣点[4]。至2003年,Google提出了一种基于个性化推荐技术的AdWords盈利模式,该盈利模式加入了个性化相关功能,该系统收集用户每次检索的关键词以及在一段时间内用户的检索历史记录,对用户的这些数据进行分析并将模型存入系统数据库来了解每位用户的个人偏好和需求,从而能够更加精准的向网站用户呈现用户可能感兴趣的项目。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/wljs/349.html