web页面图片提取系统设计与实现(源码)【字数:7806】
摘 要随着互联网的迅速发展,Web成为群众获取信息、传递信息的重要平台,现在网页上的数据 都是通过以页面为载体来呈现给用户们的,这种方式缺少对数据本身的描述性,缺乏清晰的语义信息,不能充分的全面的表达信息,所以应用程序不能充分的解析利用网页的信息,造成极大的信息资源浪费,近来,高效快速的获取信息的需求使得Web信息提取技术成为信息研究领域的热点,本文研究如何从Web的页面中抽取出图片,方便用户获取并浏览所有的图片。本文主要研究内容为从Web页面获取图片,并且系统可供用户浏览所有的图片,利用Python解释型语言进行开发,Web方面采用的框架是Flask框架(Flask是一款使用Python编写的轻量级Web应用框架)和SQLAlchemy(提供SQL开发工具包以及对象关系映射工具注重对对象的抽象),并采用MVC开发模式进行扩展,采用MYSQL数据库,开发工具包含eclipse和SQLyog。数据库的用img表来记录图片的信息,包含对图片名称、存放地址插入时间的记录。系统的主要功能模块分为Web页图片的提取、图片的存储、图片的展示等功能。用户可以通过该系统来提取某网页的图片进行浏览查看。
目 录
第一章 绪论 1
1.1选题依据及意义 1
1.2 国内外现状 1
1.3 本文研究内容 2
1.4 主要功能模块 2
1.5 论文结构 2
第二章 相关技术 3
2.1 Web信息提取技术 3
2.2 html编码 3
2.3 MySQL数据库 3
2.4开发工具 3
2.5 html信息抽取 4
第三章 系统设计 5
3.1 架构设计 5
3.2 功能模块设计 5
3.3 业务流程设计 6
3.4 数据库设计 6
第四章 系统实现 7
4.1系统总体架构 7
4.2系统流程 7
4.2 html的解析 7
4.3 图片的识别 8
4.4 图片的提取 8
4.5数据库实现 9
4.5.1模型 9
4. *好棒文|www.hbsrm.com +Q: &351916072&
5.2数据库访问 9
第五章 系统部署与运行 10
5.1 任务背景 10
5.2 项目环境搭建 10
5.3服务器搭建 10
5.3.1配置Gunicorn服务 10
5.3.2配置Nginx服务 11
5.3.3配置服务开机自启动 11
5.4系统运行结果 12
第六章 总结与展望 14
结束语 15
致 谢 16
参考文献 17
第一章 绪论
1.1选题依据及意义
如今Web迅速的发展,网页成为大家获取信息资料的主要来源,杂乱无序的排版以及丰富的数据形式使得人们在浏览网页时,无法自由便利的获取网页中用户感兴趣的图片。
本项目考虑设计网页图片提取系统,实现网页中图片的自动识别与提取保存,并支持图片的查找浏览,方便人们获取网页中的图片资源。
1.2 国内外现状
1.3 本文研究内容
论文主要研究了快速的获取网页上的图片,利用系统来获取某网页上的图片,进行保存并且展示刚才用户浏览的所有图片。
1.4 主要功能模块
系统的主要功能模块分为图片识别、保存图片以及图片展示:
图片的识别指的是辨别网页中的哪些信息是图片资源。
保存图片的功能实现的是将网页中的图片保存到本地。
图片的展示实现了将网页的所有图片的信息展示到页面中,供用户浏览。
1.5 论文结构
第一章 绪论,介绍了课题研究的背景和目的,网页图片提取的研究意义和研究价值,阐述了国内信息提取技术的发展现状等等。
第二章 相关技术,介绍了网页图片提取技术用到的相关工具和技术,包括Python、MYSQL等。
第三章 系统设计,对系统的架构设计、系统的多个功能、系统的执行流程、数据库的设计都进行具体的描述和说明。
第四章 系统实现,根据上述系统的设计与建模进行具体的实现,对系统的功能进行具体介绍,比如html解析的解析过程、获取Web中图片的过程以及图片获取的处理。
第五章 系统的部署与运行,本章介绍了系统运行的环境是如何快速的搭建的,介绍了项目如何利用Gunicorn + Nginx进行部署,第三部分具体的介绍了程序运行的结果并且对他的运行流程进行了详细的分析。
第六章:总结与展望
描述了对信息提取技术的展望和期待。
相关技术
2.1 Web信息提取技术
近年来,随着Web的迅速发展,Web信息提取技术也迅速的得到发展,各个领域也出现了众多的信息提取技术,Web信息抽取技术有多种分类方式,例如半自动方式的信息抽取和自动方式的方式提取、基于HTML结构的信息抽取、基于本身方式的信息抽取、基于网页查询的信息抽取,根据自动化程度就可以分为人工方式的信息抽取和包装器归纳方式的信息抽取,并在以下部分,对于后者分类方式,结合典型的系统,在语义的附加方式、模式的定义方式、规则的表现方式、语义项的定位方式等方面进行了分析和比较,其中结构化的数据称为对象;模式的定义方式主要有2种,信息抽取之前给出对象模式的称为先模式,反之称为后模式,下面各种分类依次分析[4]。本章将简要的介绍这一些有些的Web信息提取技术的相关技术。
2.2 html编码
html是超文本标记语言的缩写,超级表示可以比文本表示更多的内容,它有它自己的编码规范。html中包含了多个’<>’形式的内容,每个’<>’称为一个标签,浏览器解析标签,按照语法将其展现在网页中,这就是超文本标记语言。html以标签为单位,通过标签的嵌套和排序组合成一个包含丰富信息的网页。html文档标记:[5]。该标记处于最外层,其余的标签都包含在其中。文档头:该标签一般包含tittle标签和meta标签,用来对网页进行说明;文档主体:,标签里面的内容是html页面展示的内容里面包含如
图片标签,
目 录
第一章 绪论 1
1.1选题依据及意义 1
1.2 国内外现状 1
1.3 本文研究内容 2
1.4 主要功能模块 2
1.5 论文结构 2
第二章 相关技术 3
2.1 Web信息提取技术 3
2.2 html编码 3
2.3 MySQL数据库 3
2.4开发工具 3
2.5 html信息抽取 4
第三章 系统设计 5
3.1 架构设计 5
3.2 功能模块设计 5
3.3 业务流程设计 6
3.4 数据库设计 6
第四章 系统实现 7
4.1系统总体架构 7
4.2系统流程 7
4.2 html的解析 7
4.3 图片的识别 8
4.4 图片的提取 8
4.5数据库实现 9
4.5.1模型 9
4. *好棒文|www.hbsrm.com +Q: &351916072&
5.2数据库访问 9
第五章 系统部署与运行 10
5.1 任务背景 10
5.2 项目环境搭建 10
5.3服务器搭建 10
5.3.1配置Gunicorn服务 10
5.3.2配置Nginx服务 11
5.3.3配置服务开机自启动 11
5.4系统运行结果 12
第六章 总结与展望 14
结束语 15
致 谢 16
参考文献 17
第一章 绪论
1.1选题依据及意义
如今Web迅速的发展,网页成为大家获取信息资料的主要来源,杂乱无序的排版以及丰富的数据形式使得人们在浏览网页时,无法自由便利的获取网页中用户感兴趣的图片。
本项目考虑设计网页图片提取系统,实现网页中图片的自动识别与提取保存,并支持图片的查找浏览,方便人们获取网页中的图片资源。
1.2 国内外现状
1.3 本文研究内容
论文主要研究了快速的获取网页上的图片,利用系统来获取某网页上的图片,进行保存并且展示刚才用户浏览的所有图片。
1.4 主要功能模块
系统的主要功能模块分为图片识别、保存图片以及图片展示:
图片的识别指的是辨别网页中的哪些信息是图片资源。
保存图片的功能实现的是将网页中的图片保存到本地。
图片的展示实现了将网页的所有图片的信息展示到页面中,供用户浏览。
1.5 论文结构
第一章 绪论,介绍了课题研究的背景和目的,网页图片提取的研究意义和研究价值,阐述了国内信息提取技术的发展现状等等。
第二章 相关技术,介绍了网页图片提取技术用到的相关工具和技术,包括Python、MYSQL等。
第三章 系统设计,对系统的架构设计、系统的多个功能、系统的执行流程、数据库的设计都进行具体的描述和说明。
第四章 系统实现,根据上述系统的设计与建模进行具体的实现,对系统的功能进行具体介绍,比如html解析的解析过程、获取Web中图片的过程以及图片获取的处理。
第五章 系统的部署与运行,本章介绍了系统运行的环境是如何快速的搭建的,介绍了项目如何利用Gunicorn + Nginx进行部署,第三部分具体的介绍了程序运行的结果并且对他的运行流程进行了详细的分析。
第六章:总结与展望
描述了对信息提取技术的展望和期待。
相关技术
2.1 Web信息提取技术
近年来,随着Web的迅速发展,Web信息提取技术也迅速的得到发展,各个领域也出现了众多的信息提取技术,Web信息抽取技术有多种分类方式,例如半自动方式的信息抽取和自动方式的方式提取、基于HTML结构的信息抽取、基于本身方式的信息抽取、基于网页查询的信息抽取,根据自动化程度就可以分为人工方式的信息抽取和包装器归纳方式的信息抽取,并在以下部分,对于后者分类方式,结合典型的系统,在语义的附加方式、模式的定义方式、规则的表现方式、语义项的定位方式等方面进行了分析和比较,其中结构化的数据称为对象;模式的定义方式主要有2种,信息抽取之前给出对象模式的称为先模式,反之称为后模式,下面各种分类依次分析[4]。本章将简要的介绍这一些有些的Web信息提取技术的相关技术。
2.2 html编码
html是超文本标记语言的缩写,超级表示可以比文本表示更多的内容,它有它自己的编码规范。html中包含了多个’<>’形式的内容,每个’<>’称为一个标签,浏览器解析标签,按照语法将其展现在网页中,这就是超文本标记语言。html以标签为单位,通过标签的嵌套和排序组合成一个包含丰富信息的网页。html文档标记:[5]。该标记处于最外层,其余的标签都包含在其中。文档头:该标签一般包含tittle标签和meta标签,用来对网页进行说明;文档主体:,标签里面的内容是html页面展示的内容里面包含如
文字标签等[6]。
2.3 MySQL数据库
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/165.html