视频网站内容分类与标签库设计与实现(源码)【字数:7238】
摘 要视频是一种用简略而夸大的手法描绘生活或时事的艺术形式。一般采用变形、类比、符号、暗示、典故的办法,形成幽默的图画或图片集以达到讽刺或颂扬效果。常常使用夸张、比喻、符号等手法,讽刺、批评或歌颂一些人和事,具有较强的社会性,也有纯粹的娱乐性。近年来的作品以日本影片和美国影片为主。随着电子设备的广泛应用,人们可以更容易地获取和使用这些内容。随着信息的爆炸式增长,更多种类、更多储量的媒体内容大量的出现在人们的面前。其中尤以视频的数据量是最多的。假如,只想要靠人类劳动来将这些视频数据进行分门别类,是不切实际的。所以,如何进行有效、快速的对视频内容进行分类,提升用户的体验,就显得尤为重要。视频分类的一种常用方法是建立一个大的视频分类器。分类器的训练样本可以是文本、音频和视频原始视频数据,或者这种组合。分类模型一般依赖机器学习算法来提炼数据特征。本文是对视频网站的内容分类进行研究。在本文中,我们选择的是Python语言,Python语言语法简明清晰,是近年来编成语言中最热门的语言之一。并且,我们选取了大量的数据支持,本文采用网络上开放的视频流。通过TF-IDF算法设计标签库,并且利用贝叶斯算法的原理根据视频的网络评论对视频进行分类。
目 录
第一章 绪论 1
1.1选题的背景 1
1.2视频网站状态 1
1.3本课题研究的意义 2
1.4本章安排 2
第二章 相关知识与技术 2
2.1Python简介 3
2.2文本挖掘 3
2.3贝叶斯算法介绍 5
2.4Pycharm工具介绍 6
第三章 算法与环境搭建 6
3.1朴素贝叶斯算法 6
3.2实践 6
3.2.1环境搭建 6
3.2.2实践数据 7
第四章 视频网站内容分类与标签库设计与实现 7
4.1数据采集 7
4.2.1中文语料分词库 8
4.2.2构建文本对象 8
4.3标签库设计与实现 9
4.4朴素贝叶斯分类器 10
4.5本章小结 11
第五章 总结和展望 11 *好棒文|www.hbsrm.com +Q: ^351916072*
致 谢 11
参考文献 12
第一章 绪论
1.1选题的背景
视频(Video)是利用电信号来组成图像,通过对电信号的捕捉、记载等处理方式将静态的图像转变成动态图像的技术。当连续图像每秒超过24帧时,人眼无法区分单个静态图像和视觉保持原理,它采用看起来平滑且连续的视觉效果,因而连续的图像被称为视频。视频技术最初是为电视系统开发的,但现在随着科技的进步,视频技术已经发展出各种格式用来帮助使用者来录制视频。而随着网络技术的进步,也出现了以流媒体的形式的视频片断存在于互联网上,并能被计算机接收和播放。
视频网站有着完整的技术支持,使用者能使用互联网对视频进行在线的发布,浏览和下载。近年来,无论是使用P2P技术的直播网站、BT文件的下载站,还是观看本地视频的播放软件,视频网站也将扩展到视频点播作为其本身的战略目标之一。
据统计,我国的视频公司有4600多家,专业人才近22万人,从业人员50余万人,年产值超过3000万元的视频企业有24家,年产产值超过1亿元的大型企业有13家。中国的视频产业已经形成了广东、上海和北京、珠江三角洲、长江三角洲和渤海地区的核心区域,以及奥运会的视频。华强视频、第一阵营以腾讯视频、钟楠动画、炫目通讯、Taomi动画、央视动画等为代表。
1.2视频网站状态
麦肯锡的一项新研究标明,在将来的4年内,有超过7亿的中国人将观看在线视频。虽然视频网站拥有着巨大的潜力,但还有许多观察人士对该行业的前景持谨慎态度。他们认为,尽管中国的在线视频市场发展迅速,但很少有公司可以从中盈利,能从众多的在线视频中生存下去只有资源雄厚的公司。
竞争的缺乏给视频网站提供了一个喘息的空间来巩固他们的商业模式。毫无疑问,通过视频投放的广告收入是视频网站盈利的重要来源。在2012年,网络广告的收入预估为30亿元,占中国在线广告支出总额的8.8%。同时广告商称,到2013,这一数字可能超过130亿元,而这个盈利额将占中国在线广告总量的16%以上。
随着网站内容的增多,网络的扩张成本也越来越高,要满足用户的需求也越来越大。P2P技术允许视频用户之间互相下载,而不是从服务器上直接下载视频,这种技术相对廉价,但该技术的特性意味着它只适合于许多人同时观看的非常受欢迎的节目,例如视频直播,或者实时的足球比赛。
另一个(常常被忽视的)成本和潜在的发展阻碍是缺乏有经验的广告推销员。据业内专家估计,2000名中国互联网广告推销员中只有1/3的人拥有足够的经验。
鉴于这些条件,目前最好的商业模式并不明显。一些视频网站向广告商收取他们的频道名称费,其他公司向注册用户收取非广告服务费用,一些网站在电子商务和网络游戏市场寻找合作伙伴以赚取利润。
1.3本课题研究的意义
鉴于视频种类多、更新速度快、网上搜索困难,喜爱视频的朋友很难找到自己喜欢的视频,于是我想通过以挖掘视频隐藏的信息来,将这些信息进行分门别类。让更多喜爱视频的人更加方便快速的找到自己喜爱的视频,让喜欢视频的人快速方便的获取到需要的视频动态,即对在线视频数据进行挖掘处理势在必行。
数据挖掘是一种极具潜力的有效的新技术。它有助于企业在数据库中更加关注有价值的数据。它可以预测企业未来的发展方向和经营状况,为企业带来一个积极的、基于知识的决策。数据挖掘技术不仅可以在现有的软硬件平台上方便地运行,它可以快速实施刚上线的新产品和系统。在高性能客户端/服务器端和分布式处理器端,数据挖掘工具可以找到需要从大型数据库中解决的问题的答案。本文的内容主要基于视频数据分类的数据挖掘技术。
1.4本章安排
第一章,绪论。本文主要介绍视频网站研究背景,以及视频网站的发展现状。并对本论文的主要研究目标及内容进行了描述,对章节安排做了简要的说明。
第二章,相关知识与技术。本章介绍本文涉及的相关技术和基本理论。,主要分为文本挖掘和贝叶斯算法,对数据挖掘的原理进行介绍和深入分析。
第三章,相关算法与搭建。本章主要是对涉及到的算法进行介绍,并且列举详细的搭建过程。
第四章,视频网站内容分类与标签库的设计与实现。本章着重讲述的是在视频网站的分类过程中所需要进行的文本集的训练与测试。
第五章,总结与展望。本章主要对本文研究的内容进行总结,并且列举出在研究过程中的不足与以后的期望。
第二章 相关知识与技术
本章主要介绍使用到的python工具和贝叶斯算法,以及文本的挖掘与分析。
2.1Python简介
目 录
第一章 绪论 1
1.1选题的背景 1
1.2视频网站状态 1
1.3本课题研究的意义 2
1.4本章安排 2
第二章 相关知识与技术 2
2.1Python简介 3
2.2文本挖掘 3
2.3贝叶斯算法介绍 5
2.4Pycharm工具介绍 6
第三章 算法与环境搭建 6
3.1朴素贝叶斯算法 6
3.2实践 6
3.2.1环境搭建 6
3.2.2实践数据 7
第四章 视频网站内容分类与标签库设计与实现 7
4.1数据采集 7
4.2.1中文语料分词库 8
4.2.2构建文本对象 8
4.3标签库设计与实现 9
4.4朴素贝叶斯分类器 10
4.5本章小结 11
第五章 总结和展望 11 *好棒文|www.hbsrm.com +Q: ^351916072*
致 谢 11
参考文献 12
第一章 绪论
1.1选题的背景
视频(Video)是利用电信号来组成图像,通过对电信号的捕捉、记载等处理方式将静态的图像转变成动态图像的技术。当连续图像每秒超过24帧时,人眼无法区分单个静态图像和视觉保持原理,它采用看起来平滑且连续的视觉效果,因而连续的图像被称为视频。视频技术最初是为电视系统开发的,但现在随着科技的进步,视频技术已经发展出各种格式用来帮助使用者来录制视频。而随着网络技术的进步,也出现了以流媒体的形式的视频片断存在于互联网上,并能被计算机接收和播放。
视频网站有着完整的技术支持,使用者能使用互联网对视频进行在线的发布,浏览和下载。近年来,无论是使用P2P技术的直播网站、BT文件的下载站,还是观看本地视频的播放软件,视频网站也将扩展到视频点播作为其本身的战略目标之一。
据统计,我国的视频公司有4600多家,专业人才近22万人,从业人员50余万人,年产值超过3000万元的视频企业有24家,年产产值超过1亿元的大型企业有13家。中国的视频产业已经形成了广东、上海和北京、珠江三角洲、长江三角洲和渤海地区的核心区域,以及奥运会的视频。华强视频、第一阵营以腾讯视频、钟楠动画、炫目通讯、Taomi动画、央视动画等为代表。
1.2视频网站状态
麦肯锡的一项新研究标明,在将来的4年内,有超过7亿的中国人将观看在线视频。虽然视频网站拥有着巨大的潜力,但还有许多观察人士对该行业的前景持谨慎态度。他们认为,尽管中国的在线视频市场发展迅速,但很少有公司可以从中盈利,能从众多的在线视频中生存下去只有资源雄厚的公司。
竞争的缺乏给视频网站提供了一个喘息的空间来巩固他们的商业模式。毫无疑问,通过视频投放的广告收入是视频网站盈利的重要来源。在2012年,网络广告的收入预估为30亿元,占中国在线广告支出总额的8.8%。同时广告商称,到2013,这一数字可能超过130亿元,而这个盈利额将占中国在线广告总量的16%以上。
随着网站内容的增多,网络的扩张成本也越来越高,要满足用户的需求也越来越大。P2P技术允许视频用户之间互相下载,而不是从服务器上直接下载视频,这种技术相对廉价,但该技术的特性意味着它只适合于许多人同时观看的非常受欢迎的节目,例如视频直播,或者实时的足球比赛。
另一个(常常被忽视的)成本和潜在的发展阻碍是缺乏有经验的广告推销员。据业内专家估计,2000名中国互联网广告推销员中只有1/3的人拥有足够的经验。
鉴于这些条件,目前最好的商业模式并不明显。一些视频网站向广告商收取他们的频道名称费,其他公司向注册用户收取非广告服务费用,一些网站在电子商务和网络游戏市场寻找合作伙伴以赚取利润。
1.3本课题研究的意义
鉴于视频种类多、更新速度快、网上搜索困难,喜爱视频的朋友很难找到自己喜欢的视频,于是我想通过以挖掘视频隐藏的信息来,将这些信息进行分门别类。让更多喜爱视频的人更加方便快速的找到自己喜爱的视频,让喜欢视频的人快速方便的获取到需要的视频动态,即对在线视频数据进行挖掘处理势在必行。
数据挖掘是一种极具潜力的有效的新技术。它有助于企业在数据库中更加关注有价值的数据。它可以预测企业未来的发展方向和经营状况,为企业带来一个积极的、基于知识的决策。数据挖掘技术不仅可以在现有的软硬件平台上方便地运行,它可以快速实施刚上线的新产品和系统。在高性能客户端/服务器端和分布式处理器端,数据挖掘工具可以找到需要从大型数据库中解决的问题的答案。本文的内容主要基于视频数据分类的数据挖掘技术。
1.4本章安排
第一章,绪论。本文主要介绍视频网站研究背景,以及视频网站的发展现状。并对本论文的主要研究目标及内容进行了描述,对章节安排做了简要的说明。
第二章,相关知识与技术。本章介绍本文涉及的相关技术和基本理论。,主要分为文本挖掘和贝叶斯算法,对数据挖掘的原理进行介绍和深入分析。
第三章,相关算法与搭建。本章主要是对涉及到的算法进行介绍,并且列举详细的搭建过程。
第四章,视频网站内容分类与标签库的设计与实现。本章着重讲述的是在视频网站的分类过程中所需要进行的文本集的训练与测试。
第五章,总结与展望。本章主要对本文研究的内容进行总结,并且列举出在研究过程中的不足与以后的期望。
第二章 相关知识与技术
本章主要介绍使用到的python工具和贝叶斯算法,以及文本的挖掘与分析。
2.1Python简介
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/rjgc/118.html