电商网站用户评论的企业网络口碑情感倾向性研究
摘要:随着互联网的进一步发展和移动互联网的崛起,网络的普及率正以一种空前的增长速度在向人们证明“地球村”的梦想变得更加触手可及了。越来越多的人开始使用上互联网并积极地参与到了互联网的发展和建设之中,其中一些重要的方面就是电子商务、O2O、社交网络等。在这里普通的消费者才是主角,世界上没有两片一样的叶子,正是每个参与进来的不同用户的独特性构成了互联网这个独一无二的产物。网速更快,网络覆盖率更广,上网设备更便宜等诸多因素让人们更加方便的在网上分享自己关于产品或者服务的评论。由此将会产生大量的的网络口碑,热门产品的网络口碑甚至会出现指数级的增长并且借助互联网的传播效应不断扩大自己的影响范围。而商家倘若想要根据用户们的评论来制定企业战略就不得不面对海量的口碑文本,如何对这些文本进行有效的过滤并挖掘出有价值的信息将会是一个重要的研究方面。本文通过回顾网络口碑和情感倾向性分析的研究,构建了基于情感词典的口碑情感倾向性模型,并对所构建的模型和计算方法做了数据测试。
目录
摘要 1
关键字 1
Abstract 1
Key words 1
绪论 3
(一)研究背景及意义 3
(二)国内外研究现状 3
一、情感分析概述 4
(一)词语级的情感分析 5
(二)句子级的情感分析 6
二、网络口碑的搜集以及预处理 6
(一)口碑文本采集 6
(二)口碑文本分词分句 7
(三)停用词过滤 8
三、网络口碑文本特征选择及其对情感倾向性的影响 8
(一)文本特征选择 8
(二)词逆向文档频率 8
四、基于情感词典的网络口碑情感倾向性分类模型 9
(一)情感词典的构建 9
(二)口碑情感计算 9
(三)口碑情感分类模型 11
(四)京东手机口碑实证 12
五、总结与展望 14
(一)总结 14
(二)展望 14
致谢 15
参考文献: 15
图 1 流程图 6
图 2 口碑文本预处理相关步
*好棒文|www.hbsrm.com +Q: %3^5`1^9`1^6^0`7^2#
骤 6
表 1额外的一些停用词表 8
表 2添加到情感词典的非规范词 9
表 3部分程度副词表 9
表 4否定词表 9
表 5 计算流程表 11
表 6形式化表 11
表 7部分文本的情感值和情感倾向 12
表 8各类口碑情感倾向人工,自动打分数量和比例对比表(400条数据) 13
表 9专家打分以及自动打分部分口碑示例对比表 13
表 10各类口碑情感倾向自动打分数量和比例表(10750条数据) 13
基于电商网站用户评论的企业网络口碑情感倾向性研究
引言
绪论
(一)研究背景及意义
2015年7月中国互联网络信息中心(CNNIC)像往常一样发布了《中国互联网络发展状况统计报告》,该报告显示到 2015 年 6 月为止,中国上网民众人数达到 6.68 亿,在这半年里增加的网民数量达到了 1894 万人。中国目前为止的互联网普及率为 48.8%,这比2014 年底的数据有了0.9 个百分点的提升,整体网民规模增速继续放缓。同时,到2015年 6 月为止,中国手机网民的数量达 到5.94 亿,在2013 年底的数量上增加了3679万人。网民中使用手机上网人群占比由 2014年12月的 85.8%提升至 88.9% (CNNIC,2015)。随着互联网的普及,在中国每年都有大量的人开始使用上了互联网,其中归功于智能手机行业的发展,手机网民的增长趋势十分强劲。电子商务越凭借其自身高效率、低沉本、虚拟化、集成性、协调性等优点受到了很多人的喜爱,越来越多的人喜欢通过电子商务在网上进行购物和消费,与此同时很多电子商务网站在这股发展的浪潮中涌现出来。
“去中心化”是互联网作为一个从创造之初就被人们赋予了连接全世界的使命的奇迹产物所固有的属性之一,各类网站和即时聊天工具给许许多多的网民提供了平等表达自己意见的“新公共领域”。据CNNIC的调查显示,有 43.8%的网民表示喜欢在互联网上发表评论,网络空间已经成为人们发表言论的重要场所。以我自身的经历为例,我在购买一双运动鞋之前会去电商网站上进行细致的挑选,在确定购买Nike的鞋子之后会比较各个商家给出的价格,最后综合各方面的因素做出购买。由于这双鞋子是我自己精心挑选的所以很在意,在收到商品并使用过后我会相对较认真地给出自己真实的正面或者负面的评价,而这些文字会对其他消费者的消费情感倾向性造成影响。所以现如今企业要想全面了解消费者的需求和意见就应该借助对产品的网络口碑的分析来获得更多的数据和技术的支持。
(二)国内外研究现状
1.网络口碑研究现状
传统口碑或者说口碑(WordofMouth)传播是一种人类社会的商业文明发展到一定程度之后产生的信息传播方式。
Arndt【1】 (1967)认为口碑是指信息发送者和接纳者之间口头的信息沟通与交流行为并且该交流是基于某件产品、某个品牌、某个组织或某项服务的,它是一种直接面对面(face to face)、并且无商业盈利目的的行为。
阙克儒【2】 (2004)对于口碑的定义是:非营销者愿意主动且积极的,以非商业非盈利的目的,散布自己或所认知的人对于某项服务或产品的使用经验和心得。
传统线下口碑在数量和质量方面正在被网络口碑所赶超和取代,关于网络口碑的研究在网络越来越普及的今天得到了很多学者的重视。
Gleb,Johnson【3】 (1995)在对医疗行业口碑的分析与研究中较早地认识到了网络口碑的存在。认为通过互联网所进行的信息沟通行为包括文字和多媒体(如图片,视频等)的也属于口碑的范畴。
Kim&Lee【4】(2001)指出网络口碑是:经验不足的顾客从经验丰富的顾客那里获得关于某件产品的口碑,其中包括正面以及负面的口碑信息;没有购买或使用过相关产品或服务的消费者可以通过阅读那些老手们的总结文章来丰富自己的产品知识。
多数研究网络口碑的学者和研究检测机构通过设计调查问卷或检测系统来获取并分析口碑数据,但是由于系统维护和更新的成本较高很容易被搁置,而调查问卷的发放、填写和回收存在较多的误差,且接受调查的人群相对来讲不够随机和全面故存在较大的局限性。也有学者通过自己制作的工具来进行数据采集和分析但多限于主题摘要、词频统计等传统方法,少有对网络口碑做情感倾向性方面的研究。
2.情感倾向性分析研究现状
Kim【5】等人于美国加州大学(University of California)对意见提出了自己的定义,认为意见由陈述(claim)、主题(topic)、持有者(holder)、情感(sentiment)等四个元素组成,这四个元素之间的联系可以由如下说法来说明:带有意见的人(即意见持有者)在理解了某个主题的情况下形成对该主题的主观看法,情感倾向性研究就是探索陈述、情感、主题和持有者这四个方面之间的区别和联系。例如,“上星期我我去饭店吃了一次饭,他家的菜不但特别好吃,而且价格还公道。”在这个语句中,一共有三个子句。首句是对我的状态的描述,所以它不是包含意见的陈述。接下来的两个句子则明显带有主观色彩,而且体现出了我所持的意见。这两个分句体现的主题分别是“菜”和“价格”。这两个分句的意见持有者是 “我”。在句子里面带有的情感词(sentiment word)分别是“好吃”和“公道”,是明显的肯定词。除此之外“特别”是个表示程度的副词,用来润饰表示情感的形容词,以强化肯定的程度。根据情感词以及情感词和它的修饰部分的组合来构成情感描述项。在上例中的情感描述项便是“特别好吃”和“公道”。
目录
摘要 1
关键字 1
Abstract 1
Key words 1
绪论 3
(一)研究背景及意义 3
(二)国内外研究现状 3
一、情感分析概述 4
(一)词语级的情感分析 5
(二)句子级的情感分析 6
二、网络口碑的搜集以及预处理 6
(一)口碑文本采集 6
(二)口碑文本分词分句 7
(三)停用词过滤 8
三、网络口碑文本特征选择及其对情感倾向性的影响 8
(一)文本特征选择 8
(二)词逆向文档频率 8
四、基于情感词典的网络口碑情感倾向性分类模型 9
(一)情感词典的构建 9
(二)口碑情感计算 9
(三)口碑情感分类模型 11
(四)京东手机口碑实证 12
五、总结与展望 14
(一)总结 14
(二)展望 14
致谢 15
参考文献: 15
图 1 流程图 6
图 2 口碑文本预处理相关步
*好棒文|www.hbsrm.com +Q: %3^5`1^9`1^6^0`7^2#
骤 6
表 1额外的一些停用词表 8
表 2添加到情感词典的非规范词 9
表 3部分程度副词表 9
表 4否定词表 9
表 5 计算流程表 11
表 6形式化表 11
表 7部分文本的情感值和情感倾向 12
表 8各类口碑情感倾向人工,自动打分数量和比例对比表(400条数据) 13
表 9专家打分以及自动打分部分口碑示例对比表 13
表 10各类口碑情感倾向自动打分数量和比例表(10750条数据) 13
基于电商网站用户评论的企业网络口碑情感倾向性研究
引言
绪论
(一)研究背景及意义
2015年7月中国互联网络信息中心(CNNIC)像往常一样发布了《中国互联网络发展状况统计报告》,该报告显示到 2015 年 6 月为止,中国上网民众人数达到 6.68 亿,在这半年里增加的网民数量达到了 1894 万人。中国目前为止的互联网普及率为 48.8%,这比2014 年底的数据有了0.9 个百分点的提升,整体网民规模增速继续放缓。同时,到2015年 6 月为止,中国手机网民的数量达 到5.94 亿,在2013 年底的数量上增加了3679万人。网民中使用手机上网人群占比由 2014年12月的 85.8%提升至 88.9% (CNNIC,2015)。随着互联网的普及,在中国每年都有大量的人开始使用上了互联网,其中归功于智能手机行业的发展,手机网民的增长趋势十分强劲。电子商务越凭借其自身高效率、低沉本、虚拟化、集成性、协调性等优点受到了很多人的喜爱,越来越多的人喜欢通过电子商务在网上进行购物和消费,与此同时很多电子商务网站在这股发展的浪潮中涌现出来。
“去中心化”是互联网作为一个从创造之初就被人们赋予了连接全世界的使命的奇迹产物所固有的属性之一,各类网站和即时聊天工具给许许多多的网民提供了平等表达自己意见的“新公共领域”。据CNNIC的调查显示,有 43.8%的网民表示喜欢在互联网上发表评论,网络空间已经成为人们发表言论的重要场所。以我自身的经历为例,我在购买一双运动鞋之前会去电商网站上进行细致的挑选,在确定购买Nike的鞋子之后会比较各个商家给出的价格,最后综合各方面的因素做出购买。由于这双鞋子是我自己精心挑选的所以很在意,在收到商品并使用过后我会相对较认真地给出自己真实的正面或者负面的评价,而这些文字会对其他消费者的消费情感倾向性造成影响。所以现如今企业要想全面了解消费者的需求和意见就应该借助对产品的网络口碑的分析来获得更多的数据和技术的支持。
(二)国内外研究现状
1.网络口碑研究现状
传统口碑或者说口碑(WordofMouth)传播是一种人类社会的商业文明发展到一定程度之后产生的信息传播方式。
Arndt【1】 (1967)认为口碑是指信息发送者和接纳者之间口头的信息沟通与交流行为并且该交流是基于某件产品、某个品牌、某个组织或某项服务的,它是一种直接面对面(face to face)、并且无商业盈利目的的行为。
阙克儒【2】 (2004)对于口碑的定义是:非营销者愿意主动且积极的,以非商业非盈利的目的,散布自己或所认知的人对于某项服务或产品的使用经验和心得。
传统线下口碑在数量和质量方面正在被网络口碑所赶超和取代,关于网络口碑的研究在网络越来越普及的今天得到了很多学者的重视。
Gleb,Johnson【3】 (1995)在对医疗行业口碑的分析与研究中较早地认识到了网络口碑的存在。认为通过互联网所进行的信息沟通行为包括文字和多媒体(如图片,视频等)的也属于口碑的范畴。
Kim&Lee【4】(2001)指出网络口碑是:经验不足的顾客从经验丰富的顾客那里获得关于某件产品的口碑,其中包括正面以及负面的口碑信息;没有购买或使用过相关产品或服务的消费者可以通过阅读那些老手们的总结文章来丰富自己的产品知识。
多数研究网络口碑的学者和研究检测机构通过设计调查问卷或检测系统来获取并分析口碑数据,但是由于系统维护和更新的成本较高很容易被搁置,而调查问卷的发放、填写和回收存在较多的误差,且接受调查的人群相对来讲不够随机和全面故存在较大的局限性。也有学者通过自己制作的工具来进行数据采集和分析但多限于主题摘要、词频统计等传统方法,少有对网络口碑做情感倾向性方面的研究。
2.情感倾向性分析研究现状
Kim【5】等人于美国加州大学(University of California)对意见提出了自己的定义,认为意见由陈述(claim)、主题(topic)、持有者(holder)、情感(sentiment)等四个元素组成,这四个元素之间的联系可以由如下说法来说明:带有意见的人(即意见持有者)在理解了某个主题的情况下形成对该主题的主观看法,情感倾向性研究就是探索陈述、情感、主题和持有者这四个方面之间的区别和联系。例如,“上星期我我去饭店吃了一次饭,他家的菜不但特别好吃,而且价格还公道。”在这个语句中,一共有三个子句。首句是对我的状态的描述,所以它不是包含意见的陈述。接下来的两个句子则明显带有主观色彩,而且体现出了我所持的意见。这两个分句体现的主题分别是“菜”和“价格”。这两个分句的意见持有者是 “我”。在句子里面带有的情感词(sentiment word)分别是“好吃”和“公道”,是明显的肯定词。除此之外“特别”是个表示程度的副词,用来润饰表示情感的形容词,以强化肯定的程度。根据情感词以及情感词和它的修饰部分的组合来构成情感描述项。在上例中的情感描述项便是“特别好吃”和“公道”。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/910.html