web社区发现方法研究

1Web社区发现是指在无序和分散的互联网环境中发现潜在的或已定义的社区,并从互联网中抽取这些社区的过程。本文分别从理论、算法和实现三个方面研究Web社区发现技术。首先阐述了Web社区发现的相关概念,并对现有的Web社区发现算法进行归纳分类;然后从原理、实现流程、时间复杂度等方面对典型的GN算法、FN算法和FEC算法进行了研究分析;最后基于matlab平台实现了以上三种算法的仿真,并通过真实网络和人工网络环境对算法进行了测试,从时间复杂度、模块度和准确度三个方面对测试结果进行比较分析。
目 录
Abstract 1
Key words 1
引言 1
1 绪论 1
1.1 研究背景及意义 1
1.2 研究现状 2
1.3 研究内容 2
2 Web社区发现相关技术 3
2.1 超链接和图 3
2.2 Web图 3
2.3 Web社区发现 4
2.4 Web社区发现方法简介 5
2.4.1 基于优化的方法 5
2.4.2 启发式的方法 5
3 典型社区发现算法仿真 6
3.1 典型发现算法分析 6
3.1.1 GN算法 6
3.1.2 FN算法 7
3.1.3 FEC算法 9
3.2 实验环境与流程 10
3.3 测试数据 10
3.3.1 LFR基准网络 10
3.3.2 真实网络数据集 10
3.4 结果的图形化显示 11
3.5 测试结果分析 11
3.5.1 时间复杂度分析 12
3.5.2 模块度对比 12
3.5.3 准确度对比 13
4 总结 14
致谢 14
参考文献 14
Web社区发现方法研究
网络工程 刘爽
指导教师 郭小清
Research on web community detection
Student majoring in *好棒文|www.hbsrm.com +Q: @351916072@ 
Network Engineering Liu Shuang
Tutor Guo Xiaoqing
Abstract: Web community detection refers to the discovery of potential or defined communities from the disorderly scattered Internet environment, as well as the process to extract these communities from the Internet. The paper studies web community detection through theory, algorithm and implementation three aspects. Firstly, it explains the related theory of web community detection and categorizes the existing algorithms of web community detection. Secondly, classic GN algorithm, FN algorithm and EEC algorithm are researched from the following aspects which contain theory, implementation process and time complexity etc. Finally, abovementioned three algorithms are simulated based on matlab platform and tested in real and artificial network environment. In addition, it analyzes the results of experiment in three aspects, which contain time complexity, modularity and accuracy.
Key words: web community; community detection; Simulation; modularity
引言:Web社区是指互联网上由于主题或内容的相关性聚集在一起的页面集合。将Web页面以社区的形式进行组织有很多优点:社区可以帮助用户及时找到有价值的信息;社区可以帮助实现Web自动分类;社区可以帮助商家发现客户信息;社区还可以帮助研究Web的发展变化。目前,互联网上已经存在很多知名社区,为我们提供了各种各样的服务。但这些社区大部分都是靠人工发现和维护的,不仅维护成本高,更新也较困难;并且已经发现的社区只占Web社区中的很小一部分,还有大量的社区未被发现。此外,已经形成的社区也可能逐渐消失,新的社区也在不断形成。所以,靠人工的方式去发现和维护社区是不现实的,需要加强对Web社区发现方法的研究,实现自动化或半自动化的Web社区发现。
绪论
研究背景及意义
上世纪90年代以后,互联网飞速发展,随着越来越多的人使用Web发布和获取信息,Web资源飞速增长,并朝着多元化、复杂化的方向发展。目前,我们生活中的大部分信息都是来源于Web,它已经成为我们发布和获取信息的主要平台。然而由于Web资源的多元化和复杂化,使得从Web中及时准确的获取所需要的信息以及隐藏在信息中的知识变得十分困难。因此,如何发现并利用Web中潜在的、有价值的信息是当今信息领域中既十分重要又极具有挑战性的研究内容。
相比于传统的数据环境,Web中包含了一种特殊的信息,即网页之间的超链接结构信息。在Web环境中,基本上所有的网页都是通过超链接来联系的。因此,可以利用Web中超链接结构信息来对Web信息查询、Web社区挖掘等问题进行研究。如果把Web中的网页看成节点,网页间的超链接看成边,那么整个Web就是一个巨大的、不断扩展、不断变化的有向图,我们称之为Web图[1]。在这个巨大的Web图中,由于主题或内容上的相关性,某些节点之间边会比较稠密,这些联系比较紧密的节点的集合,我们就称之为Web社区。社区包含着Web中的很多重要的信息,从Web中系统的抽取出社区结构至少有以下意义:
引导用户找到自己感兴趣的、有价值的信息
可以帮助商家发现客户信息
有利于研究拥有共同兴趣的用户的组织形式
通过识别和区分Web社区,实现Web信息的自动分类

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/2016.html

好棒文