python的酒店网络爬虫开发与应用(附件)
摘 要随着大数据时代的到来,网络数据成为了各行各业必不可少的资源。而随着网络上的数据数量巨大内容复杂,数据的获取和整理筛选需要有效的技术手段,网络爬虫就是因此而生。酒店网络爬虫顾名思义,就是针对网络上与酒店有关的数据进行爬取和整理,为酒店业的研究及分析提供真实有效的数据基础。本文章基于python语言的和其外部库,编写了用于酒店网络数据爬取的爬虫代码,此代码拥有运用灵活并且效率高等优点,并以大众点评网站为例进行实际应用。爬取了青岛市各星级所有酒店的信息,包括点名、价格、地址、交通等,对整理出的文本数据做出数据透视表进行分析,最后分析出酒店地址对不同星级酒店定价的影响程度。
目录
Abstract III
一、前言 1
(一)什么是网络爬虫 1
(二)国内外研究现状 1
1.爬虫技术在现今各行各业的影响 1
2.爬虫技术在旅游领域的开发与应用 2
3.对现有爬虫技术研究的总结 2
二、酒店网络爬虫的设计与编程 3
(一)酒店网络爬虫需求分析 3
(二)酒店网络爬虫开发平台选择 3
1.目标网页的接口请求 3
2.网页抓取时的文本数据处理 3
3.拥有丰富的爬虫框架 4
(三)酒店网络爬虫的设计与实现 4
1.爬虫相关库 4
2.爬虫的请求头 4
3.爬虫的目标网页连接 4
4.爬虫的网页信息提取 5
5.爬虫的网页信息保存 5
6.爬虫的主函数 5
7.爬虫的运行 6
三、基于Python的酒店网络爬虫的应用 7
(一)爬虫应用实例 7
(二)对采集到的数据进行整理分析 8
(三)酒店价格透视分表分析 9
1.五星级酒店平均价格走势分析 9
2.四星级酒店平均价格走势分析 10
3.三星级及以下酒店平均价格走势分析 11
(四)酒店网络爬虫的应用前景 12
四、结语 13
参考文献 14
致 谢 15
*好棒文|www.hbsrm.com +Q: #351916072#
一、前言
(一)什么是网络爬虫
网络爬虫,英文名Web crawler,所以也被人们称为网页蜘蛛。它是一个可以按照编者指定的规则,自动抓取网络上各种各样文本信息的程序或脚本。随着网络的迅速发展,大数据时代的来临,互联网中承载着各种各样数量庞大的数据信息,如何有效地从杂乱无章的数据源中提取并合理利用这些信息成为了一项重要挑战,网络爬虫便是为了解决这一难题所产生的。网络爬虫可分为四类,分别为通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和深层网络爬虫。本文章所开发的网络爬虫属于聚焦网络爬虫,只作用于大众点评网的酒店分支,具有针对性强、速度快、占用空间小且数据易整理等优点。
(二)国内外研究现状
1.爬虫技术在现今各行各业的影响
国内学者周中华等(2014)意识到社交网络研究大多采用国外平台数据,而国内平台数据则很少采用,为此开发了一款适用于微博的数据抓取工具,用于流感问题的数据采集和研究分析。该研究成果为国内平台的数据采集开辟了道路[1]。陈琳等(2016)设计出了用于抓取微博用户正文内容的python爬虫程序,并详细描述了设计方法,用于雾霾问题的分析,为基于python的爬虫设计提供了框架[2]。
夏火松等(2016)针对如何采集动态评论网页进行研究,相比于通用网络爬虫,他们设计出的动态网页爬虫算法实现了动态网页评论的信息采集,针对性更强,采集速度更快,为其他领域的学者提供了快速获取网络动态评论的有效方法[3]。
刘顺程等(2017)分析了大数据时代下更行各业对于网络数据的需求,并重点研究网络数据的收集,最终得出基于Python的网络爬虫技术的流程及框架[4]。李琳(2017)通过对数据抓取工具的实际运用,以抓取网络二手房信息为例,做到了将数据抓取工具应用于学术研究[5]。此后熊畅等多位学者也将爬虫技术应用于学术研究,并分析爬取到的数据进行有效的分析研究,最终得出结论[6, 7]。
谢克武(2017)系统的针对大数据时代网络爬虫的应用及重要性进行分析,详细介绍了其概念、原理、流程等等,并介绍了python在编写中的优势,最后提供了专业的网络爬虫框架,并介绍了其运行原理及过程[8]。
庞正扬等(2018)不仅将python用于编写网络爬虫,还应用于文本分析、神经网络建模等等,针对实际问题进行分析[9]。此后不断有学者通过计算机语言建立针对各个领域研究的算法和网络建模,如朴素贝叶斯的旅游网络情感分类研究,爬虫数据的二手房价空间分析,基于Python的51job抓取程序设计等等[1012]。
2.爬虫技术在旅游领域的开发与应用
Hsu等(2005)通过旅客对酒店网站的访问行为进行抓取与研究,可以帮助酒店管理者更好地了解顾客对特定酒店网站维度和属性的偏好[13]。Lau等(2005)在《康奈尔酒店及餐厅管理季刊》一书中提出了酒店网络文本挖掘的概念[14]。Kasper等(2011)通过抓取网络客源对酒店的在线评价,分析了酒店网站规模和结构属性对客户的感官影响[15]。Allen Williams等(2011)也通过酒店在线评价,分析了酒店也的服务模式和服务主导的逻辑对旅游管理的影响[16]。刘希良(2014)发现越来越多的消费者更倾向于在线消费并且通过网络评论了解服务产品,以此来做出决策。同时服务提供者也可以从网络评论获取信息,帮助改善服务质量来提高市场竞争力。但因为网络数据信息难以获取,所以刘希良在文章中建立了更加方便科学的评论挖掘工具,并针对网络评论的文本信息进行了情感倾向性研究,以此快速掌握消费者对酒店各个方面更加细致和准确的感受[17]。
叶玮等(2016)着眼于在线旅游,认为在线旅游网站的数据值得深入研究,随即设计了数据爬取工具获取旅游数据,对数据进行精细化分析为智慧旅游提供了数据集和理论基础。同年国内学者邹科文等人则着眼于百度公司推出的百度百科,为开发“景点达人”旅游移动软件,研究了解析和爬取百度百科旅游有关信息,收集景点资料,为APP的开发提供了大数据资源[18]。
郑聪(2017)总结了在互联网+时代在线旅游信息的重要性。随着大众旅游行为越来越依赖网络,其在网络上遗留的数据成为了研究旅游各项指标的重要资源,郑聪为研究旅游满意度从爬虫入手分析网络舆情,并最终进行实验验证。同年学者王开元在硕士论文《上海经济型酒店顾客安全感影响因素研究》中合理运用网络爬虫技术,抓取有效信息1002条,并通过专业分析为我国酒店安全理论研究以及游客安全感理论方面提供依据与参考[19]。
目录
Abstract III
一、前言 1
(一)什么是网络爬虫 1
(二)国内外研究现状 1
1.爬虫技术在现今各行各业的影响 1
2.爬虫技术在旅游领域的开发与应用 2
3.对现有爬虫技术研究的总结 2
二、酒店网络爬虫的设计与编程 3
(一)酒店网络爬虫需求分析 3
(二)酒店网络爬虫开发平台选择 3
1.目标网页的接口请求 3
2.网页抓取时的文本数据处理 3
3.拥有丰富的爬虫框架 4
(三)酒店网络爬虫的设计与实现 4
1.爬虫相关库 4
2.爬虫的请求头 4
3.爬虫的目标网页连接 4
4.爬虫的网页信息提取 5
5.爬虫的网页信息保存 5
6.爬虫的主函数 5
7.爬虫的运行 6
三、基于Python的酒店网络爬虫的应用 7
(一)爬虫应用实例 7
(二)对采集到的数据进行整理分析 8
(三)酒店价格透视分表分析 9
1.五星级酒店平均价格走势分析 9
2.四星级酒店平均价格走势分析 10
3.三星级及以下酒店平均价格走势分析 11
(四)酒店网络爬虫的应用前景 12
四、结语 13
参考文献 14
致 谢 15
*好棒文|www.hbsrm.com +Q: #351916072#
一、前言
(一)什么是网络爬虫
网络爬虫,英文名Web crawler,所以也被人们称为网页蜘蛛。它是一个可以按照编者指定的规则,自动抓取网络上各种各样文本信息的程序或脚本。随着网络的迅速发展,大数据时代的来临,互联网中承载着各种各样数量庞大的数据信息,如何有效地从杂乱无章的数据源中提取并合理利用这些信息成为了一项重要挑战,网络爬虫便是为了解决这一难题所产生的。网络爬虫可分为四类,分别为通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和深层网络爬虫。本文章所开发的网络爬虫属于聚焦网络爬虫,只作用于大众点评网的酒店分支,具有针对性强、速度快、占用空间小且数据易整理等优点。
(二)国内外研究现状
1.爬虫技术在现今各行各业的影响
国内学者周中华等(2014)意识到社交网络研究大多采用国外平台数据,而国内平台数据则很少采用,为此开发了一款适用于微博的数据抓取工具,用于流感问题的数据采集和研究分析。该研究成果为国内平台的数据采集开辟了道路[1]。陈琳等(2016)设计出了用于抓取微博用户正文内容的python爬虫程序,并详细描述了设计方法,用于雾霾问题的分析,为基于python的爬虫设计提供了框架[2]。
夏火松等(2016)针对如何采集动态评论网页进行研究,相比于通用网络爬虫,他们设计出的动态网页爬虫算法实现了动态网页评论的信息采集,针对性更强,采集速度更快,为其他领域的学者提供了快速获取网络动态评论的有效方法[3]。
刘顺程等(2017)分析了大数据时代下更行各业对于网络数据的需求,并重点研究网络数据的收集,最终得出基于Python的网络爬虫技术的流程及框架[4]。李琳(2017)通过对数据抓取工具的实际运用,以抓取网络二手房信息为例,做到了将数据抓取工具应用于学术研究[5]。此后熊畅等多位学者也将爬虫技术应用于学术研究,并分析爬取到的数据进行有效的分析研究,最终得出结论[6, 7]。
谢克武(2017)系统的针对大数据时代网络爬虫的应用及重要性进行分析,详细介绍了其概念、原理、流程等等,并介绍了python在编写中的优势,最后提供了专业的网络爬虫框架,并介绍了其运行原理及过程[8]。
庞正扬等(2018)不仅将python用于编写网络爬虫,还应用于文本分析、神经网络建模等等,针对实际问题进行分析[9]。此后不断有学者通过计算机语言建立针对各个领域研究的算法和网络建模,如朴素贝叶斯的旅游网络情感分类研究,爬虫数据的二手房价空间分析,基于Python的51job抓取程序设计等等[1012]。
2.爬虫技术在旅游领域的开发与应用
Hsu等(2005)通过旅客对酒店网站的访问行为进行抓取与研究,可以帮助酒店管理者更好地了解顾客对特定酒店网站维度和属性的偏好[13]。Lau等(2005)在《康奈尔酒店及餐厅管理季刊》一书中提出了酒店网络文本挖掘的概念[14]。Kasper等(2011)通过抓取网络客源对酒店的在线评价,分析了酒店网站规模和结构属性对客户的感官影响[15]。Allen Williams等(2011)也通过酒店在线评价,分析了酒店也的服务模式和服务主导的逻辑对旅游管理的影响[16]。刘希良(2014)发现越来越多的消费者更倾向于在线消费并且通过网络评论了解服务产品,以此来做出决策。同时服务提供者也可以从网络评论获取信息,帮助改善服务质量来提高市场竞争力。但因为网络数据信息难以获取,所以刘希良在文章中建立了更加方便科学的评论挖掘工具,并针对网络评论的文本信息进行了情感倾向性研究,以此快速掌握消费者对酒店各个方面更加细致和准确的感受[17]。
叶玮等(2016)着眼于在线旅游,认为在线旅游网站的数据值得深入研究,随即设计了数据爬取工具获取旅游数据,对数据进行精细化分析为智慧旅游提供了数据集和理论基础。同年国内学者邹科文等人则着眼于百度公司推出的百度百科,为开发“景点达人”旅游移动软件,研究了解析和爬取百度百科旅游有关信息,收集景点资料,为APP的开发提供了大数据资源[18]。
郑聪(2017)总结了在互联网+时代在线旅游信息的重要性。随着大众旅游行为越来越依赖网络,其在网络上遗留的数据成为了研究旅游各项指标的重要资源,郑聪为研究旅游满意度从爬虫入手分析网络舆情,并最终进行实验验证。同年学者王开元在硕士论文《上海经济型酒店顾客安全感影响因素研究》中合理运用网络爬虫技术,抓取有效信息1002条,并通过专业分析为我国酒店安全理论研究以及游客安全感理论方面提供依据与参考[19]。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jmgl/lygl/720.html