面向学术搜索引擎查询日志的学术用户的信息搜索行为特征分析(附件)
随着时间的推移,国内外对信息搜索行为的研究越来越深入,学者逐渐通过观察、访谈、问卷调查、出声思考、日记法、实验和日志分析等一系列方法来获取数据,对所获数据的处理也逐渐从统计方法向具体的计量方法转变。近年来,在信息检索方面建立多维用户相关性模型吸引了大量的关注。然而,现有的研究大多是基于小规模的用户研究,这可能不能反映一个真实的自然搜索场景。因此,本文通过对2015/6/2—2016/12/31“江苏省工程技术文献信息中心”的日志数据进行数据清洗、HTML解析、会话识别、事务识别后,基于多维用户相关性模型(MURM)(包括五个维度主题性、新颖性、可靠性、易懂性和覆盖度),并添加额外维度——兴趣(用来反映检索文档时的个性化相关性判断),通过一系列特征量化每一维度对日志数据进行广泛的文档排序,系统地研究了每个维度对检索性能的影响,并获得了深刻的见解,这将有益于未来信息系统的设计,使用户的搜索体验获得进一步地提高。
目录
摘要3
关键词3
Abstract3
Key words3
引言4
一、研究背景4
(一)基本概念 4
1.信息搜索行为4
2.学术搜索引擎4
3.学术用户4
(二)研究现状4
1.数据收集方法4
2.数据处理方法5
二、实验设计5
(一)日志获取5
(二)数据清洗7
(三)HTML解析7
(四)会话识别8
(五)事务识别9
(六)用户相关性判断——多维用户相关性模型 ( MURM ) 10
1.主题性 ( Topicality ) 12
2.新颖性 ( Novelty ) 12
3.可靠性 ( Reliability ) 13
4.易懂性 ( Understandability ) 13
5.覆盖度 ( Scope ) 13
6.兴趣 ( Interest ) 14
三、实验结果与分析14
(一)查询日志数据的简单统计14
(二)特征标准化14 *好棒文|www.hbsrm.com +Q: ^351916072^
(三)排序模型的整体性能15
四、研究结论与展望17
(一)研究结论17
(二)研究局限与展望17
致谢18
参考文献19
图1 页面编号为181的部分信息6
图2 数据清洗过程7
图3 会话识别流程图9
图4 事务识别流程图10
图5 多维用户相关性模型11
图6 不同维度的排序模型的整体性能15
图7 新颖性维度中不同特征组合下排序模型的整体性能16
表1 数据表visit_log的结构及样例6
表2 数据表url_content的结构及样例6
表3 针对keyword字段的清洗类型7
表4 数据表url_content_parse1的结构7
表5 数据表url_content_parse2的结构8
表6 数据表url_content_error的结构8
表7 各维度特征中特定字母的含义11
表8 主题性维度的特征12
表9 新颖性维度的特征13
表10 可靠性维度的特征13
表11 易懂性维度的特征13
表12 覆盖度维度的特征14
表13 兴趣维度的特征14
表14 查询日志数据的简单统计14
表15 不同维度的排序模型的整体性能15
表16 新颖性维度中不同特征组合下排序模型的整体性能16
面向学术搜索引擎查询日志的学术用户的信息搜索行为特征分析
引言
信息的需求与搜索对学者的工作来说是非常重要的,学者“根据课题研究的需要,通过查找与之相关的信息,对那些通过质量评估标准的信息在研究中加以运用”。因此,针对学者的研究来讲,信息的检索与搜集有着不凡的意义,对于用户的信息搜索行为的研究已成为一项越来越受重视的课题。并且关于在搜索引擎检索信息时的用户搜索行为的研究已经非常普遍,如搜索结果相关性判断,满意或不满意度。了解用户如何组织相关的查询语句和哪些因素将影响用户对搜索结果的满意度判断,这将有助于研究人员统计数字资源的使用情况,做出采购计划;设计更有效的检索模型和更好的评价方法,优化与改进学术搜索引擎;以及提供独具特色的个性化服务,旨在使用户的搜索体验获得进一步地提高。
一、研究背景
(一)基本概念
为方便读者对文章有更好的理解,现对“信息搜索行为”、“学术搜索引擎”、“学术用户”三个复合名词的概念作简单说明。
1.信息搜索行为
关于信息搜素行为的研究由来己久,但是直到现在对其还不存在统一的解释。Wilson[1],巢乃鹏[2]等著名研究着都普遍认为:信息搜索行为由信息需求引起,并且当这种需求不再存在时,个体也将随即退出搜索过程。因此,可以将信息搜索行为理解为:个体为满足其特定的目标需求而产生的一系列有目的的获取信息的整个活动过程。
2.学术搜索引擎
借鉴图书[3]对搜索引擎的理解。本文将学术搜索引擎理解为:以学术资源(如:文献、数据、知识点等)为检索对象,使用预先定义的特定程序按照适当的方法对互联网上的信息进行搜集,然后对所获信息进行加工,再按照一定的组织形式展现给用户,给他们提供搜索服务的系统。
3.学术用户
学术用户[4]是指在科研、教育、管理等系列活动中对信息资源进行使用的全部社会成员。他们通过不停地借鉴前人的知识成果对自己的思绪作出启迪,从而发现新知,正因为如此,学术用户需要对信息进行频繁地搜集,是学术搜索引擎的主要用户。
(二)研究现状
对于信息搜索行为的研究,国外不仅比国内早8年左右,而且成果较为丰富。1994年初,美国就曾对万维网的用户及其行为进行分析研究。2002年 [5]才真正打开了国内基于用户对信息搜索行为的研究,从2007年开始,国内学者逐渐投入此研究课题,加深了对信息搜索行为的研究。现分别从数据收集方法和数据处理方法两方面对其研究现状进行简单地概括。
1.数据收集方法
久而久之,学者逐渐通过观察、访谈、问卷调查、出声思考、日记法、实验和日志分析等一系列方法来获取数据。芦姗等[6]采用问卷调查法对文献资源的检索及利用情况进行了分析研究;Moukdad等[7]采用日志法,基于提交的检索提问式对用户的搜索行为进行了分析;Nicholas等[8]、Spink等[9] 也采用了日志法分析用户的搜索行为,但他们是从更深层面对日志数据进行挖掘得到的结论。
目录
摘要3
关键词3
Abstract3
Key words3
引言4
一、研究背景4
(一)基本概念 4
1.信息搜索行为4
2.学术搜索引擎4
3.学术用户4
(二)研究现状4
1.数据收集方法4
2.数据处理方法5
二、实验设计5
(一)日志获取5
(二)数据清洗7
(三)HTML解析7
(四)会话识别8
(五)事务识别9
(六)用户相关性判断——多维用户相关性模型 ( MURM ) 10
1.主题性 ( Topicality ) 12
2.新颖性 ( Novelty ) 12
3.可靠性 ( Reliability ) 13
4.易懂性 ( Understandability ) 13
5.覆盖度 ( Scope ) 13
6.兴趣 ( Interest ) 14
三、实验结果与分析14
(一)查询日志数据的简单统计14
(二)特征标准化14 *好棒文|www.hbsrm.com +Q: ^351916072^
(三)排序模型的整体性能15
四、研究结论与展望17
(一)研究结论17
(二)研究局限与展望17
致谢18
参考文献19
图1 页面编号为181的部分信息6
图2 数据清洗过程7
图3 会话识别流程图9
图4 事务识别流程图10
图5 多维用户相关性模型11
图6 不同维度的排序模型的整体性能15
图7 新颖性维度中不同特征组合下排序模型的整体性能16
表1 数据表visit_log的结构及样例6
表2 数据表url_content的结构及样例6
表3 针对keyword字段的清洗类型7
表4 数据表url_content_parse1的结构7
表5 数据表url_content_parse2的结构8
表6 数据表url_content_error的结构8
表7 各维度特征中特定字母的含义11
表8 主题性维度的特征12
表9 新颖性维度的特征13
表10 可靠性维度的特征13
表11 易懂性维度的特征13
表12 覆盖度维度的特征14
表13 兴趣维度的特征14
表14 查询日志数据的简单统计14
表15 不同维度的排序模型的整体性能15
表16 新颖性维度中不同特征组合下排序模型的整体性能16
面向学术搜索引擎查询日志的学术用户的信息搜索行为特征分析
引言
信息的需求与搜索对学者的工作来说是非常重要的,学者“根据课题研究的需要,通过查找与之相关的信息,对那些通过质量评估标准的信息在研究中加以运用”。因此,针对学者的研究来讲,信息的检索与搜集有着不凡的意义,对于用户的信息搜索行为的研究已成为一项越来越受重视的课题。并且关于在搜索引擎检索信息时的用户搜索行为的研究已经非常普遍,如搜索结果相关性判断,满意或不满意度。了解用户如何组织相关的查询语句和哪些因素将影响用户对搜索结果的满意度判断,这将有助于研究人员统计数字资源的使用情况,做出采购计划;设计更有效的检索模型和更好的评价方法,优化与改进学术搜索引擎;以及提供独具特色的个性化服务,旨在使用户的搜索体验获得进一步地提高。
一、研究背景
(一)基本概念
为方便读者对文章有更好的理解,现对“信息搜索行为”、“学术搜索引擎”、“学术用户”三个复合名词的概念作简单说明。
1.信息搜索行为
关于信息搜素行为的研究由来己久,但是直到现在对其还不存在统一的解释。Wilson[1],巢乃鹏[2]等著名研究着都普遍认为:信息搜索行为由信息需求引起,并且当这种需求不再存在时,个体也将随即退出搜索过程。因此,可以将信息搜索行为理解为:个体为满足其特定的目标需求而产生的一系列有目的的获取信息的整个活动过程。
2.学术搜索引擎
借鉴图书[3]对搜索引擎的理解。本文将学术搜索引擎理解为:以学术资源(如:文献、数据、知识点等)为检索对象,使用预先定义的特定程序按照适当的方法对互联网上的信息进行搜集,然后对所获信息进行加工,再按照一定的组织形式展现给用户,给他们提供搜索服务的系统。
3.学术用户
学术用户[4]是指在科研、教育、管理等系列活动中对信息资源进行使用的全部社会成员。他们通过不停地借鉴前人的知识成果对自己的思绪作出启迪,从而发现新知,正因为如此,学术用户需要对信息进行频繁地搜集,是学术搜索引擎的主要用户。
(二)研究现状
对于信息搜索行为的研究,国外不仅比国内早8年左右,而且成果较为丰富。1994年初,美国就曾对万维网的用户及其行为进行分析研究。2002年 [5]才真正打开了国内基于用户对信息搜索行为的研究,从2007年开始,国内学者逐渐投入此研究课题,加深了对信息搜索行为的研究。现分别从数据收集方法和数据处理方法两方面对其研究现状进行简单地概括。
1.数据收集方法
久而久之,学者逐渐通过观察、访谈、问卷调查、出声思考、日记法、实验和日志分析等一系列方法来获取数据。芦姗等[6]采用问卷调查法对文献资源的检索及利用情况进行了分析研究;Moukdad等[7]采用日志法,基于提交的检索提问式对用户的搜索行为进行了分析;Nicholas等[8]、Spink等[9] 也采用了日志法分析用户的搜索行为,但他们是从更深层面对日志数据进行挖掘得到的结论。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/492.html