python分布式爬虫的问答数据搜索平台(源码)【字数:9098】
摘 要随着网络社区的快速发展,特别是Web2.0技术的兴起和在线社交服务的迅速普及,网络问答社区以"提问-回答"为主要内容已经浮出了水面。回答内容专业、平民用户越来越多、结果通常相对理想、运作方式社交化的特点使得了特别多的青年、中年人争相加入。在越来越多的问答平台中,大多数青年人的言论呈现出自由、多样化、热点事件反应迅速,但易跟风、盲从的特点。网络问答社区的蓬勃发展,为网络用户获得所需要的信息提供了一个新的方式。创作者将自己的知识储备通过网络进行分享,提问者通过网络获取答案。在这整个过程中,一些具有价值的回答通过双方的问答获得了其了现实价值。但在这种新形势下,快速寻找问题的可靠答案有时候却成了难题,答案质量参差不齐,内容杂乱无章,很多时候用户根本无法在短时间内进行筛选。为了解决这一问题,实现初步的回答筛选和引导功能是十分有必要的。该平台是基于Python的分布式爬虫,主要内容来源地为悟空问答,首先采用基于Ruby语言开发的Ruby库——WebDriver获取动态的HTML源代码,再使用bs4库下的BeautifalSoup进行解析,得到编译方式为utf—8的源码文本。得到文本后,使用正则表达式分离提取出有效信息,并规范其格式和进行初步筛选,最终达到一个问题选出一个最佳答案的结果。随后调用Python的pymysql模块,将获取的数据存入mysql数据库中,同时,使用TK接口Tkinter,形成交互式的前端界面。
目录
第1章 前言 1
1.1课题研究背景 1
1.2国内外研究现状 1
1.3开发与运行环境 2
1.4课题研究内容 3
1.5课题研究目的与意义 3
1.5.1 研究目的 3
1.5.2 研究意义 3
1.6全文组织结构 4
第2章 问答数据搜索平台的系统分析与相关技术介绍 5
2.1可行性分析 5
1.经济可行性 5
2.技术可行性 5
3.操作可行性 5
2.2 需求分析 5
2.2.1 系统功能需求 5
2.2.2 对抓取HTML页面源码方式的分析 6
2.2.3 对HTML层级关系的分析 *好棒文|www.hbsrm.com +Q: ^351916072#
6
2.3 WebDriver 7
2.4正则表达式 8
2.5 两个模块:Pymysql与Tkinter 8
第3章 问答数据搜索平台架构的设计 8
3.1问答数据搜索平台架构 8
3.2调度器的设计 10
3.3 URL管理器与网页下载器的设计 10
3.3.1 URL管理器 11
3.3.2网页下载器 11
第4章 问答数据搜索平台架构的实现 11
4.1调度器的实现 11
4.2 URL管理器与网页下载器的实现 13
4.2.1 URL管理器 13
4.2.2网页下载器 13
4.4 网页解析器的设计 13
第5章 爬虫测试 14
5.1爬取测试 15
5.2 数据库测试 15
5.3 网络连接测试 16
第6章 总结与展望 17
6.1 总结 17
6.2 展望 17
附录 19
附上部分代码: 19
参考文献 19
第1章 前言
1.1课题研究背景
随着网络社区的快速发展,出现了一种以"提问回答"为主要内容的网络问答平台。其回答内容专业、平民用户越来越多、结果通常相对理想、运作方式社交化的特点使得了特别多的青年、中年人争相加入。在越来越多的问答平台中,大多数青年人的言论呈现出自由、多样化、热点事件反应迅速,但易跟风、盲从的特点。但随着用户逐渐增加,导致问答网站中的回答水平和质量越来越低, 资源也被很多重复和没意义的话题占用。网民的大量融入,导致高质量答主在其中的比例大幅下降, 问题的类型事态逐渐走向平民化。部分回答表现出“抖机灵”的特点, 答主通过小段子来积攒人气, 答案能博君一笑,可是质量不高不能从根本上解决问题。
在这种新形势下,快速寻找问题的可靠答案有时候却成了难题,答案质量参差不齐,内容杂乱无章,很多时候用户根本无法在短时间内进行筛选。为了解决这一问题,实现初步的回答筛选和引导功能成为了迫切的要求。
1.2国内外研究现状
随着网络社区的快速发展,尤其是Web2.0技术的兴起与网络社交服务的快速普及,以"提问回答"为主要内容的网络问答社区自此出现。回答内容专业、平民用户越来越多、结果通常相对理想、运作方式社交化的特点使得了特别多的青年、中年人争相加入。在越来越多的问答平台中,大多数青年人的言论呈现出自由、多样化、热点事件反应迅速,但易跟风、盲从的特点。
从2005年开始,国内问答平台市场中涌现出了一批以百度知道、爱问知识人以及天涯问答等等为代表的各类问答社区,它们的出现代表了网络社区的进一步发展,大大提高了使用互联网的效率,也极大地改变了互联网的固有模式。从垂直Q&A社区(如Q&在医疗领域的网络)不同的是,他们有较强的社会影响力和议程设置能力。他们有更多的用户,并涵盖更广泛的社会阶层。在线答问社会的主流力量。但是在近几年,它们都显露出了各自的问题。这时,平台如Zhihu.com的出现改善,在许多方面解决了这些问题,有效地提高了信息传播的效率,改进的问题和答案的质量,吸引了一批高质量的用户和形成独立的运营管理模式等等。虽然仍有本身存在一些问题,但它仍然是互联网世界中不可或缺的一部分。
问答网站SNS Quora在2009年正式上线, Quora用户呈现精英化特点, 内容质量高, 通过用户之间的社交行为进行信息与经验的传播,其对我国知乎等网络问答社区的发展具有重要影响作用。
2011年知乎正式在国内上线, 知乎上线之始采用的是“邀请注册”模式, 用户只有获得知乎使用用户的邀请后才能注册账号, 知乎早期用户呈现“精英化”的特点,以精英信息生产量为基础。早期知乎用户数量只有40万。随后, 知乎一改用户注册方式, 用户可以通过自己的社交账号进行注册, 用户人数急剧增长到400万。截至2015年3月, 知乎共有话题344150个, 每个话题下又有众多关于此话题的相关问题。知乎的建立,开创了国内网络的问题和答案社区的先河,并逐步发展成为一个新的人们获取知识的胜地。当前知乎已开通知乎live、知乎圆桌、付费提问等越来越多的项目, 各种功能也在不断的发展中完善。
在2016年5月,果贝网推出了分答系统,用户上线的数量在42天数内达到了40万元,支付的内容超过100万的用户,产生50万个的问题和答案,交易金额超过1800万元,并正式声明接受融资2500万和1亿估值。分答创新性地提出“时间电商”的概念, 答案以时长1分钟的语音为卖点, 用时间来量化知识。这一机制促进了用户参与答题的积极性, 用户活跃度在金钱价值的刺激下提升。分答主打的口号是“做以人为核心的知识交易”, 目前分答已经加入社区、小讲等板块,分答正在围绕平台尝试进行社群化、社区化运营。用户从分答中得到的不再是1分钟语音的碎片化知识, 而逐渐成为一个知识体系。
目录
第1章 前言 1
1.1课题研究背景 1
1.2国内外研究现状 1
1.3开发与运行环境 2
1.4课题研究内容 3
1.5课题研究目的与意义 3
1.5.1 研究目的 3
1.5.2 研究意义 3
1.6全文组织结构 4
第2章 问答数据搜索平台的系统分析与相关技术介绍 5
2.1可行性分析 5
1.经济可行性 5
2.技术可行性 5
3.操作可行性 5
2.2 需求分析 5
2.2.1 系统功能需求 5
2.2.2 对抓取HTML页面源码方式的分析 6
2.2.3 对HTML层级关系的分析 *好棒文|www.hbsrm.com +Q: ^351916072#
6
2.3 WebDriver 7
2.4正则表达式 8
2.5 两个模块:Pymysql与Tkinter 8
第3章 问答数据搜索平台架构的设计 8
3.1问答数据搜索平台架构 8
3.2调度器的设计 10
3.3 URL管理器与网页下载器的设计 10
3.3.1 URL管理器 11
3.3.2网页下载器 11
第4章 问答数据搜索平台架构的实现 11
4.1调度器的实现 11
4.2 URL管理器与网页下载器的实现 13
4.2.1 URL管理器 13
4.2.2网页下载器 13
4.4 网页解析器的设计 13
第5章 爬虫测试 14
5.1爬取测试 15
5.2 数据库测试 15
5.3 网络连接测试 16
第6章 总结与展望 17
6.1 总结 17
6.2 展望 17
附录 19
附上部分代码: 19
参考文献 19
第1章 前言
1.1课题研究背景
随着网络社区的快速发展,出现了一种以"提问回答"为主要内容的网络问答平台。其回答内容专业、平民用户越来越多、结果通常相对理想、运作方式社交化的特点使得了特别多的青年、中年人争相加入。在越来越多的问答平台中,大多数青年人的言论呈现出自由、多样化、热点事件反应迅速,但易跟风、盲从的特点。但随着用户逐渐增加,导致问答网站中的回答水平和质量越来越低, 资源也被很多重复和没意义的话题占用。网民的大量融入,导致高质量答主在其中的比例大幅下降, 问题的类型事态逐渐走向平民化。部分回答表现出“抖机灵”的特点, 答主通过小段子来积攒人气, 答案能博君一笑,可是质量不高不能从根本上解决问题。
在这种新形势下,快速寻找问题的可靠答案有时候却成了难题,答案质量参差不齐,内容杂乱无章,很多时候用户根本无法在短时间内进行筛选。为了解决这一问题,实现初步的回答筛选和引导功能成为了迫切的要求。
1.2国内外研究现状
随着网络社区的快速发展,尤其是Web2.0技术的兴起与网络社交服务的快速普及,以"提问回答"为主要内容的网络问答社区自此出现。回答内容专业、平民用户越来越多、结果通常相对理想、运作方式社交化的特点使得了特别多的青年、中年人争相加入。在越来越多的问答平台中,大多数青年人的言论呈现出自由、多样化、热点事件反应迅速,但易跟风、盲从的特点。
从2005年开始,国内问答平台市场中涌现出了一批以百度知道、爱问知识人以及天涯问答等等为代表的各类问答社区,它们的出现代表了网络社区的进一步发展,大大提高了使用互联网的效率,也极大地改变了互联网的固有模式。从垂直Q&A社区(如Q&在医疗领域的网络)不同的是,他们有较强的社会影响力和议程设置能力。他们有更多的用户,并涵盖更广泛的社会阶层。在线答问社会的主流力量。但是在近几年,它们都显露出了各自的问题。这时,平台如Zhihu.com的出现改善,在许多方面解决了这些问题,有效地提高了信息传播的效率,改进的问题和答案的质量,吸引了一批高质量的用户和形成独立的运营管理模式等等。虽然仍有本身存在一些问题,但它仍然是互联网世界中不可或缺的一部分。
问答网站SNS Quora在2009年正式上线, Quora用户呈现精英化特点, 内容质量高, 通过用户之间的社交行为进行信息与经验的传播,其对我国知乎等网络问答社区的发展具有重要影响作用。
2011年知乎正式在国内上线, 知乎上线之始采用的是“邀请注册”模式, 用户只有获得知乎使用用户的邀请后才能注册账号, 知乎早期用户呈现“精英化”的特点,以精英信息生产量为基础。早期知乎用户数量只有40万。随后, 知乎一改用户注册方式, 用户可以通过自己的社交账号进行注册, 用户人数急剧增长到400万。截至2015年3月, 知乎共有话题344150个, 每个话题下又有众多关于此话题的相关问题。知乎的建立,开创了国内网络的问题和答案社区的先河,并逐步发展成为一个新的人们获取知识的胜地。当前知乎已开通知乎live、知乎圆桌、付费提问等越来越多的项目, 各种功能也在不断的发展中完善。
在2016年5月,果贝网推出了分答系统,用户上线的数量在42天数内达到了40万元,支付的内容超过100万的用户,产生50万个的问题和答案,交易金额超过1800万元,并正式声明接受融资2500万和1亿估值。分答创新性地提出“时间电商”的概念, 答案以时长1分钟的语音为卖点, 用时间来量化知识。这一机制促进了用户参与答题的积极性, 用户活跃度在金钱价值的刺激下提升。分答主打的口号是“做以人为核心的知识交易”, 目前分答已经加入社区、小讲等板块,分答正在围绕平台尝试进行社群化、社区化运营。用户从分答中得到的不再是1分钟语音的碎片化知识, 而逐渐成为一个知识体系。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/400.html