计算机行为识别研究

既使在人工智能蓬勃发展的今天,特别在机器学习,数据挖掘,自然语言处理方向仍然有无数问题需要人类工作的样本来帮助机器更好的学习以在今后做出更好的判断。我们干脆将人和机器的角色反过来,让普通人类帮助机器去处理识别这样的工作。人类的大脑始终有很多功能或者说在很多类型的工作中比机器好百倍。例如识别一张照片中是猫是狗,听歌分类这是摇滚乐还是古典音乐。
既然人计算有如此大的优势,那我们可以用什么方法将人的优势发挥出来呢。我们可以借鉴分布式计算的理念。分布式计算是一门研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果的计算机科学。将处理好莱坞电影中人的行为识别这样一个需要巨大人计算的任务,分成小份发布到网上,利用网络的力量,收集整合结果。最终结果就是,每个人都被当成一个处理器,处理一些数量很小和难度对人来说忽略不计的工作,地理的分布在星球上任意角落并依靠Internet连接起来构成一个人类分布式系统。
在网站的搭建过程中,根据MVC设计模式在J2EE技术框架下采用B/S系统模式,来实现人计算的要求。经实际运行测试,本网站运行效率高,性能稳定,能良好地搜集并统计分析结果实现人计算识别人的行为的功能。
【关键词】人计算  行为识别  好莱坞电影  网站  HM000038
Even in today's booming artificial intelligence, particularly in machine learning, data mining, natural language processing directions, there are still many issues that need work samples from humanity to help machine make better judgments in the future. We just turn over the role of man and machine allowing ordinary human to help machine with identification work. There is always a lot of brain function or in the many types of work a hundred times better than the machine. Such as identifying a photograph is a cat is a dog, this is rock music classification or classical music.
Since human computation has such a big advantage, then in what method to exploit the advantages of people. We can learn from the concept of distributed computing. Distributed computing is a branch of computer science, which learns how to divide a huge-computation-needy problem into smaller parts, and then assign the results of these smaller problems together to get the final result. We divided identifying peoples’ behaviors from Hollywood films background which is a huge-computation-needy problem into small portions, posted online, collected and integrated results using the power of Internet. The final result is that, everyone is seen as a processer processing some small and negligible difficulty for people work, forming a distributed system of human processors, which geographical distributed in any corner of the planet and rely on the Internet connection.
In the process of building the website, we achieve human computing requirements by according to the MVC design pattern in J2EE technology framework using B / S system model. Through actual running test, the site is running high efficiency, stable performance, can be a good collection and statistical analysis, achieve the function of identifying people’s behavior through human computation.
【Key words】Human computation  Behavior recognition  Hollywood movies  Website
(二)人计算运行条件
1.条件 查看完整请+Q:351916072获取
基础条件有两个。第一是互联网,通过互联网,才有可能将一些工作化整为零由网络群体共同完成;第二是互联网上有很多“闲人”,这些人闲到会以相当的时间和精力去做一些“无聊”的事情(比如以前比较流行的偷菜游戏等)。这种模式要能运行,必须要有两个条件: (a) 要设计出与任务相匹配的激励机制(可以是达到某种目的,如完成注册,也可以是钱或者荣誉等); (b) 任务必须能够被分解成“小块”,且能够再被组装起来。
2.动机
人计算最大原则是不改变用户行为,或轻微改变用户行为,将系统意图隐藏在人机交互过程,实现人计算目的。实现人计算,需要首先了解用户参与计算的动机。一般包括:
1, 物质奖励。如有奖问答、积分送礼等等,通过物质奖励调动用户积极性。
2, 精神参与。包括志愿者、趣味游戏,将用户参与意愿和系统结合起来。
3, 活动需要。本身工作及需求,如将人计算目的隐藏在工作过程中,在处理中加入少量不影响工作,但具有人计算目的数据或操作。
(三)人计算用户
reCAPTCHA中针对的是所有的网民,这种模式也可以被设计成针对一些特定的群体,比如topcoder也可以认为是一种针对开发人员的同类模式。在topcoder中,主要靠美元来激励,由架构师负责将任务分解成模块由开发人员完成,最终会再组装起来。相对来说,广大学生是较为有闲的一类群体,且这类群体多受过良好的教育,有能力完成较复杂的任务。因此,针对这类群体设计一个“human computation”模式,成功可能性较大。 
(四)人计算属性
1.    Motivation:动力是DHC系统的最大挑战。一般的志愿者的动力来源有:报酬、助人、娱乐、盲从。
2.    Quality:志愿者可能会在工作中作弊,减少作弊的手段依赖于志愿者的工作动力所在。一般的作弊防御手段一般有:强协议约束、报酬与工作质量挂钩、防御型任务设计(cheat的成本高于做的成本,甚至高于放弃的成本)、工作冗余分配并做对比。工作质量的检查方法一般有:统计、冗余工作、分层review、专家review、强协议约束、自动检查、声誉系统、不检查。
3.    Aggregation:将所有分散给人的task结果组合。聚合的方法因DHC类型不同而不同。一般有:知识库(KCVC),统计(Wisdom of Crowds),Grand search(Jim Gray),Unit tasks(ChaCha)。
 4.    Human skill:DHC系统利用人的能力解决计算机解决不好的工作,如计算机视觉、自然语言处理、人工智能等工作,这对人的能力就有了一定的要求。具体要求与具体要解决的问题有关。
 5.    Participation time:志愿者需要花费的最小时间也是一个重要属性。目前没有细致的研究工作,这里粗分四类:接近0,小于2分钟,2~10分钟,10分钟以上。
6.    Cognitive load:志愿者需要花费的认知负担。有一些工作花费时间很长,但很机械。但有一些工作十分考验脑力,可能时间很短也可能需要很长时间思考。分为Low(被动处理,无须集中精力或快速响应)、Medium(需要简单的问题解决能力、领域知识、创新能力)、High(实时响应或多步骤问题解决能力或其他明显高难度工作)三类。查看完整请+Q:351916072获取
目  录
前 言  1
第一章  人计算  2
一.  人计算的背景  2
二.人计算的定义  3
(一)具体定义  3
(二)人计算的具体特征  5
(三)人计算的优势  6
(四)人机关系的转变  6
三.人计算的应用  7
(一)具体案例  7
(二)人计算运行条件  9
(三)人计算用户  10
(四)人计算属性  10
(五)人计算分类  11
四.GWAP  12
(一)GWAP定义  12
(二)GWAP分类  13
(三)GWAP设计  14
第二章  开发工具  17
一.  MyEclipse  17
二.Microsoft SQL Server2000  18
三.J2EE  19
第三章 系统设计  21
一.概要设计  21
(一)系统用例图  21
(二)用例事件流  21
二.数据库设计  22
(一)物理结构设计  22
(二)逻辑结构设计  24
三.网站总体设计  25
四.用户界面设计  26
第四章 系统实现  32
一.测试  32
(一)测试目标  32
(二)遇到的问题及解决方法  32
二.功能实现  33
三.结果验证  34
四.部分关键代码  35
(一)session  35
(二)视频播放器  35
第五章 总结与展望  36
一.设计总结  36
二.人计算前景展望  36
致 谢  38
参考文献  39
附 录  41
一.  英文原文:  41
二.  中文翻译:  45 查看完整请+Q:351916072获取

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/3280.html

好棒文