基于python的提取电影人物关系研究【字数:10186】


目 录
1 绪论 1
1.1 背景和意义 1
1.2 开发设计思想 2
2 开发技术简介 3
2.1 python 3
2.2 gephi 4
2.3 jieba 5
2.4 vmware 6
3 提取《釜山行》人物关系 8
3.1 开发准备 9
3.2 观察文本结构准备词典 9
3.3 确定需要的变量 10
3.4 在文本中识别实体 11
3.5 根据识别结果构建网络 12
3.6 过滤冗余边并输出结果 12
4 可视化网络 14
5 电影人物关系带来的实际意义 21
5.1 精准定位观影群体 21
5.2 借助数据分析提高用户体验 21
5.3 有助于观众理解电影关系 22
结语 23
参考文献 24
致谢 25
1 绪论
1.1 背景和意义
随着社会的发展,信息的处理有重要位置,其中最重要的的便是提取信息的方法。可以用文件系统来组织和存取用户数据[1]。当计算机技术的进程前进时,1960年诞生了世界上第一个词库布朗语料库,近年来发展迅速而且逐渐完整了。语料库语言学的对象是实际生活中所用的东西。借助计算机的能力和统计方法的帮助,实际的文字被定性地定量地叙述、总结,从所有侧面和角度明确文字的规则。数据分析技术已经融合到当今世界生活中的方方面面。关于中文文本处理的技术在中国开始的比较晚,英语单词与汉语单词的分割标志和意思分析完全的不同。英语语料库语言技术不能有效地用于参考,这也是中国落后于这一领域的原因。然而当互联网技术的成熟和知识的全球化,中文文本分类技术越来越好,取得了以前无法想象的成就。
数据分析在企业活动的过程中扮演着“医生”的角色,为企业日常业务活动提供身体检查服务,警告业务运营过程中可能发生的问题,为今后的预防,处理好现状的问题[2]。例如,在事业展开的过程中,对投资合并、背景的尽职调查、投资合并对象的开发经过属于这个范畴。另一方面,提供了企业日常业务流程中的“访问” *好棒文|www.hbsrm.com +Q: ^351916072^ 
服务,探索了企业日常业务中的问题。
它具体化了资源的合理分配和利用,实现了资源分配更加合理的优化和从此利润最大化的目的。例如,广告布局和的日常业务优化内部广告资源分配,属于这个范畴。准确的广告布局被用于提高广告布局的效率,而企业资源分配则根据广告数量来进行,以提高用户的经验和用户的保存率[3]。
1.2 开发设计思想
互联网现在的发展程度,产生的数据量越来越来大[4,5]。现在介绍从非结构化数据集中捕获有用的结构化数据的几种方法。它只讨论文本数据中共存的基本实现。将知道如何根据一段文本,从蜘蛛甚至视频中捕获的一组互联网数据生成图表。
网络由一组节点和一组边来组成[6],将节点集命名为v,边命名为e。本文面临的第一个问题是在哪里可以得到v,在大多数情况下,甚至无法描述节点的具体情况。可以给一些已经知道的节点,然后让模型了解这些节点是什么的。这可能有点复杂,所以本文把他们抛在了后面。在这里本文做一个假设,已经拥有了所有节点的集合,也就是说,有v和数据集,需要做的只是从给定的数据集为v生成一个网络[7]。听起来简单吗?但事实确实如此。在某些情况下,在电影中出现的主要实体很少,所以本文可以从网络中获取它们的标识(这里是名称),或者自己制作它们。在这里本文遇到了第二个问题如何得到边,这里本文只介绍一个简单的方法,这就是上面所说的,传统的共现方法。共现网络,就像它的名字所暗示的,使用两个实体一起发生的信息[8]。例如,两个节点出现在同一段落中,本文只需要为它们建立一个边缘。如果两个节点总是有一边则该边的权重将增加。一旦数据集足够大,就会出现数据集的主线。可以选择有向边或无向边,也可以选择完整图形或不完整图形。共现网络只适用于具有明显集中性的数据集,低权值的边缘总是冗余的。此外,大量节点缺少存在的意义。实体间的联系是在统计信息的基础上,人物之间比较紧密的联系往往会在文字中多个地方一起出现,随后使用早已定义好的人物字典进行识别,统计角色出现的地方。当这些角色出现在一起的时候比较多,本文认为角色与角色之间必然会存在关联,这样的一种关联本文认为可以具现化。
2 开发技术简介
2.1 python
Python坚持清晰统一的设计风格,使Python成为一种广泛使用的语言,易于阅读,易于维护,深受广大用户的欢迎[10]。
Python的发明者在设计语法的时候取消了C语言中括号的限制,而是采用了句首空行的形式来代替C语言中的括号。这一方式在代码简洁性上有着无与伦比的优势,但是也存在着一些争议觉得这是在退步,可能在阅读上会有歧义。诚然,Python通过强制程序员缩进使用模块所需的所有内容(包括if、for和函数定义),确实使程序更干净、更美观[11]。
python语言的优点:
(1)好的python程序进行阅读的后就如同读文章一样自然。那个不是解决自己的问题,而是能理解语言本身。
(2)简单地学习,Python扔掉了C语言指针非常复杂的语法。
(3)Python是FLOSS之一。简单来说,分发软件的复印件,读源代码,加上修改,在新的免费软件中可以使用其中一部分。
(4) 在计算机里,python的编译器将代码转换为中间的样子,然后编译成机器能够识别,进行使用。事实是,编译的功能足够的可靠,连接重现正确的功能也不是必须的。因为python程序需要尽心迁移,所以python需要非常好的移植性。
(5) python支持的语言形式非常多,面向对象或者面向过程,python都可以使用。在过程指向语言中,程序从过程或函数构建,所述过程或函数仅为可再用代码。
(6)如果扩展性和嵌入性需要快速运行的密钥代码,或关闭一些算法,可以写C或C +程序中的一些程序,并可以在Python程序中使用它们。能够让python嵌入到其他程序中为使用者提供脚本功能[12]。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/dzkxyjs/475.html

好棒文