基于图像处理的人体行为识别系统
基于图像处理的人体行为识别系统[20191214194158]
摘要
如今,识别视频中的人体行为是涉及计算机视觉;人工智能与模式识别三大领域的一项重要的研究课题,具有极其广泛的应用前景。然而,人体行为具有非刚性和多样性,处理视频图像的过程又十分复杂。所以研发出一套稳健、准确而又实时的方法是一项极具挑战的任务。本文则提出了一套完整的、实时性较高的行为识别系统。
本文主要对运动的人体进行检测和行为的识别,本文所用系统将就三方面内容进行阐述:第一,人体检测。系统是在VS2010+OpenCv2.4.0的环境下开发调试完成的。就行人检测部分,本文系统采用了提取图像hog特征,输入已训练的svm分类器中进行检测,最终检测出行人并用矩形框框出,为接下来的跟踪和识别提供目标源。第二,目标跟踪。本文体统采用了基于压缩感知理论的目标跟踪方法,即CT跟踪。其主要思想是利用符合压缩感知RIP条件的随机感知矩对多尺度图像特征进行降维,然后使用朴素贝叶斯分类器对降维后的特征进行分类。该算法简单高效,理论新颖,实时性强,可极大程度上保证跟踪的实时有效性。第三,行为识别。本文使用背景差分法,提取测试目标可能的连通域,进而绘制轮廓图形,而上述CT跟踪的结果将进一步保证目标轮廓的准确性,最后计算轮廓重心和人体宽高比。人体的宽高比将反应人体是否处于直立状态,重心的运动将极大程度上反应人体的行为。最终系统可实现人体的跑、走路与跌倒的行为识别。
经实验验证,本文提出的系统可稳定运行,准确性较高,存在一定的实用价值。
查看完整论文请+Q: 351916072
关键字:字行为识别;svm分类器;CT跟踪;朴素贝叶斯分类器;背景差分法;人体宽高比
Keywords: behavioral recognition, SVM classifier, CT tracking, naive bayes classifier, background subtraction, ratio of width to height.目 录
第1章 绪论 1
1.1 课题背景与意义 1
1.2 相关国内外技术现状 2
1.2.1 国外现状 2
1.2.2 国内现状 3
1.3 行为识别方法 3
1.4 论文章节安排 6
第2章 开发平台搭建与系统总设计 7
2.1 开发平台的搭建 7
2.2 系统总设计 11
第3章 行人检测 12
3.1 HOG特征 12
3.1.1 HOG特征概念 12
3.1.2 HOG特征提取算法的实现 13
3.2 SVM分类器 13
3.3 基于HOG+SVM的行人检测 14
3.4 实验结果 16
第4章 目标跟踪 16
4.1 压缩感知 17
4.2 压缩跟踪 22
4.2.1 实时压缩跟踪概述 22
4.2.2 压缩跟踪实现流程 22
4.2.3 压缩跟踪相关理论 23
4.2.4 压缩跟踪算法 27
4.3 朴素贝叶斯分类器 28
4.3.1 朴素贝叶斯概率模型 28
4.3.2 参数估计 30
4.3.3 样本修正 30
4.3.4 构造分类器 31
4.4 实验结果 31
第5章 行为识别 33
5.1背景差分 33
5.2 连通域重心计算 33
5.3 行为判断 34
5.4 实验结果 34
第6章 总结与展望 36
6.1 总结 38
6.2 前景展望 39
致谢 40
参考文献 41
附录 44
第1章 绪论
1.1 课题背景与意义
社会发展日新月异,人们的生活也随之发生着巨大的改变。安全问题成为现阶段人们愈发关注的焦点,越来越多的监控类设备也融入人类的生活。如学校、停车场、居民楼、银行、商场等均安装了摄像装置。然而,此类摄像监控装置大部分并没能被用来进行实时监控,确保人们的安全。基本上,只有在发生异常情况后,人们才会对记录结果进行分析,提取出有价值的视频资料。故目前急需一种系统能24小时主动监控视频中的行人,并自动分析摄像头捕捉的图像中的数据,进而对图像中人体的行为进行准确的分析,在异常情况发生时能发出警报,从而降低犯罪行为的发生率。
如果监控系统能够真正被用来协助甚至代替警务人员的工作任务,那将极大程度的减少人力和财力的投入。除此之外,储存大量时间的无运动视频资料不仅浪费资源,在查找时也十分不便。因此,传统的视频监控系统不仅浪费大量的人力财力,而且很可能产生漏警,准确性实时性均不能满足人们的需求。监控系统若能实时对人体进行检测并对行为分析识别,不仅能够大规模代替监视人员的工作任务,在提高监视系统准确度以及存储效率方面也会起到极大的作用。故人体行为识别系统,在视频监控系统中将有着广阔的应用前景和经济价值。
而且,现如今人口老龄化已成为一个全球性问题,这使得很多老人的健康受到危害。其中跌倒造成的伤害尤其严重。应对这种社会现象,更需要监控系统的完善和科技的创新。系统若能实现实时监测是否有人摔倒,并作出及时的警告,将极大程度上降低老年人出世故的概率。
不仅如此,行为识别系统在其他领域也有着很高的经济价值。如人机交互、智能交通、医学、虚拟现实、视频会议等。综上所述,行为识别的技术发展具有较为广泛的应用前景和经济价值,开展这方面的研究有着很高的社会以及经济意义。
1.2 相关国内外技术现状
1.2.1 国外现状
基于视频监控的人体运动行为分析在智能安防、人机交互、智能交通、机器人导航有广泛的应用前景,引来愈来愈多的科研人员和相关商家前来,投入大量的精力和资金进行研发,并取得了一定的进展。
国外在行为识别方面具有较大影响的项目有:
(1) VSAM 项目
1997年,美国国防高级研究计划局(DARPA)资助卡内基梅隆大学、戴维 SARNOFF 研究中心、麻省理工大学,合作研发了视频监控系统 VSAM(Visual Surveillance and Monitoring)[1]。VSAM 采用分布式主动视频传感器,能使单个用户方便地对一片较为开阔的区域进行监控。当发现显著运动物体时,分式自治传感器平台会自动对用户报警。VSAM 提出了许多先进监控技术,例如基于静止与运动摄像机的实时运动物体检测与跟踪;一般对象(人体、卡车等)识别与特定对象(校园警车等)识别;对象姿态估计;主动相机控制与多相机协同跟踪;步态分析;简单的多主体活动识别。其核心技术主要致力于对战场及普通民用场景的监控。
(2)ADVISOR 系统
1999 年,欧盟Framework5程序委员会建立重大项目(ADVISOR系统[2]),其目的在于开发一个公共交通场所的安全管理系统,通过对人群和个人的行为模式分析等研究对公共交通场所的安全实施监控。
(3)实时视觉监控系统W4
实时视觉监控系统W4[3]是由马里兰大学的Haritaoglu等人研发的,该系统在实现对人体身体进行定位和分割的基础上,又对多人进行实时跟踪,同时还可以对室外环境中的人进行检测和跟踪,并监控它们之间的交互行为。
(4)英国的雷丁大学先后开展的 REASON、ETISE 等项目
英国雷丁大学先后开展的 REASON(robust methods for monitoring and understanding people in public spaces)、ETISE(evaluation of video scene understanding)等项目开展了对车辆和行人的跟踪及其交互作用识别的相关研究。
1.2.2 国内现状
国内对于视频中的人体行为识别方面的研究起步要相对较晚,但也有许多科研机构和大学投入到这项研究中:郁映卓[4]所提出的三维重构方法,可以检测下蹲和跌倒两种异常行为,不足之处则在于没有针对连续视频进行实验研究;许良武[5]主要研究侧面跌倒的行为,运用了机器学习的方法实现了行为识别,而没有专门针对与跌倒易混淆的行为进行研究;中国科学院自动化模式识别国家重点实验室、北京大学视觉与听觉信息处理国家重点实验室、清华大学及浙江大学人工智能研究所等一些在国内知名大学和科研机构也在进行探索和研究。
2007 年 10 月,由中国科学院自动化所承担的国际科技重点项目“人的运动和行为视频分析”项目顺利通过验收,并成功应用于北京城铁13 号线[6]。在学术方面,一些国际权威期刊如 CVIU、IJCV、IVC 和重要的学术会议如 ICPR、ICCV 和 CVPR 等将智能化视频监控技术研究,尤其是对人体运动视觉分析作为主题内容之一,IEEE 也定期举办关于人体运动分析的专题会议,可见国际上对该项研究高度重视。国内每年召开一次智能视频监控学术会议,为该领域的科研人员提供更多的交流机会。
1.3 行为识别方法
运动目标检测,就是从视频中将变化区域从背景图像中分离出来。而提取运动目标的成功与否将影响就下来的目标跟踪和行为理解,因为此后的处理将只考虑图像中提取出的运动目标的区域。即便如此,由于背景图像并不是持久不变的,存在着光照、天气、影子等干扰,运动目标的检测一直被人们视为较为困难的项目和工作。常用的运动检测方法有以下几种:
(1)时域差分法(Temporal Difference):在图像序列中两个或三个相邻帧之间通过采取基于像素的时间差分,并且阈值化处理来提取图像中可能的运动区域,Lipton[7]等人就是利用这种方法对运动对象进行检测,在相邻帧差分后,进行阈值化方法可提取图像中运动区域,从而将提取到的运动区域整合为运动对象。但上述方法很难得到所有运动对象的像素,所提取的运动对象轮廓并不完整。改进的方法是将两帧差分改为三帧差分。例如 VSAM研发了一种三帧差分与自适应背景减除相结合的算法,该算法能够快速且有效地从背景中检测出运动目标。此类方法缺点在于它将增加时间跨度,因而很容易混淆多个运动对象占据的图像。除此之外,Archetti[8]等人采用连通性分析和符号差分方法对两帧时间域差分方法进行了改进,也取得了叫好的效果。时域差分法在处理动态环境具有较强的自适应性,方法简单,操作易行,十分快捷,然而存在的缺点是不能完全提取出所有相关的像素点,从而在运动实体内部产生空洞现象。
(2)光流法(Optical flow):根据运动目标随时间变化而产生的光流特性,计算相邻帧各像素位置的可能发生的变化,从而实现运动区域的检测。如Meyer[9]等初始化基于轮廓的跟踪算法,就是运用了计算位移向量光流场的理论知识,进而有效地提取和跟踪运动目标。除此之外,Sidenbladh[10]不仅运用了水平方向光流场计算,还运用了支持向量机(SVM)分类器对运动进行检测,该方法能够有效提取人体的运动。其优点在于它即使在摄像机运动的情况下,也能检测出运动目标。然而,大多数的光流计算方法相对复杂,抗噪性能差,对硬件装置要求较高。尽管Baker[11]等人对光流计算作了一系列的改进,仍然没有从根本上解决效率低下的问题。
(3)背景建模法(Background modeling):目前,这种方法在运动检测中是最常见的,其原理是采用背景模型[12-18] 为每一当前帧生成一幅背景图像。而后将当前帧和背景图像计算差分,最后进行运动检测。该方法优点在于可以得到运动物体的完整轮廓。但缺点在于,背景模型必须随时更新背景环境。例如微风中荡漾的水波,背景中树叶随风飘动,光照条件的变化等。目前,大部分的研究人员都致力于开发不同的背景模型,从而最大程度上降低动态场景变化对运动检测的影响。现有的背景建模方法有以下几种:增量式高斯平均、时序中值滤波、混和高斯模型、顺序核密度近似、核密度估计以及特征背景建模。
在计算机视觉领域中,目标跟踪是其主要的组成部分。无论是视频监控,车辆驾驶辅助系统还是人机交互以及增强现实,都离不开目标跟踪。近年来,目标跟踪的环境也从刚开始的实验室,进一步拓展到了现实世界中来[19]。在现实环境中,实现稳健的目标跟踪十分困难,其原因在于跟踪过程中目标可能发生不确定的变化,运动的形态也会发生变化,严重的变化通常发生在低帧率的视频中或是目标突然产生剧烈运动[20,21]。不仅如此,若目标是非刚体即随时可能发生形变,则目标的几何特性以及外观在跟踪过程中也可能发生改变,所以目标的跟踪模板的维护是十分困难。视觉跟踪可视为状态估计类问题,在复杂场景下视觉跟踪则是典型的非线性、非高斯状态估计问题。在解决传统跟踪问题时,粒子滤波[22]表现出了较高的效率。在目标跟踪中,成功地运用蒙特卡罗-马尔科夫链也解决了不少问题[23,24]。然而,当运动模型的个数和目标的观测模型增加时,样本个数则要远大于上述两种模型的数目。Ross 等人[25]在线增量主成分分析法,开发了一种动态跟踪方法,该方法对光照变化、尺度以及姿态具有较强的鲁棒性。但是,以上三种方法都没有对运动发生极端变化时的情况进行考虑,当目标的运动形态发生突变时,将会导致跟踪是被。然而,利用蒙特卡罗-马尔科夫链,将跟踪分解为几个基本的运动模型和观测模型,进而利用模型的不同组合形成最终的跟踪器的方法,能够比较稳健地跟踪运动及外观发生突变的目标。在跟踪过程中,如果目标的形状不断地发生变化,即目标的外观信息以及几何特性都在不断的变化,这将导致跟踪过程中,维护目标模板变得十分困难。目前,在线学习算法[26]基本可以克服目标的外观变化的问题。但是很少有算法可以应对严重几何形状的变化。Schindler 等人[27]将目标表示成几个部分,采用 Rao-Blackwellized 粒子滤波准确地跟踪蜜蜂,但该方法各个部分之间的拓扑结构是一定的,这将导致在目标跟踪中很难适应目标的形态变化。Ramanan 等人[28]通过在线选择开发出了跟踪器,该方法对有关节的人体又很好的跟踪效果,但必须在跟踪之前确定人体的形态。自从 Isard 和 Blake提出采用粒子滤波进行目标跟踪以来,出现了许多基于该理论的视觉跟踪算法。
摘要
如今,识别视频中的人体行为是涉及计算机视觉;人工智能与模式识别三大领域的一项重要的研究课题,具有极其广泛的应用前景。然而,人体行为具有非刚性和多样性,处理视频图像的过程又十分复杂。所以研发出一套稳健、准确而又实时的方法是一项极具挑战的任务。本文则提出了一套完整的、实时性较高的行为识别系统。
本文主要对运动的人体进行检测和行为的识别,本文所用系统将就三方面内容进行阐述:第一,人体检测。系统是在VS2010+OpenCv2.4.0的环境下开发调试完成的。就行人检测部分,本文系统采用了提取图像hog特征,输入已训练的svm分类器中进行检测,最终检测出行人并用矩形框框出,为接下来的跟踪和识别提供目标源。第二,目标跟踪。本文体统采用了基于压缩感知理论的目标跟踪方法,即CT跟踪。其主要思想是利用符合压缩感知RIP条件的随机感知矩对多尺度图像特征进行降维,然后使用朴素贝叶斯分类器对降维后的特征进行分类。该算法简单高效,理论新颖,实时性强,可极大程度上保证跟踪的实时有效性。第三,行为识别。本文使用背景差分法,提取测试目标可能的连通域,进而绘制轮廓图形,而上述CT跟踪的结果将进一步保证目标轮廓的准确性,最后计算轮廓重心和人体宽高比。人体的宽高比将反应人体是否处于直立状态,重心的运动将极大程度上反应人体的行为。最终系统可实现人体的跑、走路与跌倒的行为识别。
经实验验证,本文提出的系统可稳定运行,准确性较高,存在一定的实用价值。
查看完整论文请+Q: 351916072
关键字:字行为识别;svm分类器;CT跟踪;朴素贝叶斯分类器;背景差分法;人体宽高比
Keywords: behavioral recognition, SVM classifier, CT tracking, naive bayes classifier, background subtraction, ratio of width to height
第1章 绪论 1
1.1 课题背景与意义 1
1.2 相关国内外技术现状 2
1.2.1 国外现状 2
1.2.2 国内现状 3
1.3 行为识别方法 3
1.4 论文章节安排 6
第2章 开发平台搭建与系统总设计 7
2.1 开发平台的搭建 7
2.2 系统总设计 11
第3章 行人检测 12
3.1 HOG特征 12
3.1.1 HOG特征概念 12
3.1.2 HOG特征提取算法的实现 13
3.2 SVM分类器 13
3.3 基于HOG+SVM的行人检测 14
3.4 实验结果 16
第4章 目标跟踪 16
4.1 压缩感知 17
4.2 压缩跟踪 22
4.2.1 实时压缩跟踪概述 22
4.2.2 压缩跟踪实现流程 22
4.2.3 压缩跟踪相关理论 23
4.2.4 压缩跟踪算法 27
4.3 朴素贝叶斯分类器 28
4.3.1 朴素贝叶斯概率模型 28
4.3.2 参数估计 30
4.3.3 样本修正 30
4.3.4 构造分类器 31
4.4 实验结果 31
第5章 行为识别 33
5.1背景差分 33
5.2 连通域重心计算 33
5.3 行为判断 34
5.4 实验结果 34
第6章 总结与展望 36
6.1 总结 38
6.2 前景展望 39
致谢 40
参考文献 41
附录 44
第1章 绪论
1.1 课题背景与意义
社会发展日新月异,人们的生活也随之发生着巨大的改变。安全问题成为现阶段人们愈发关注的焦点,越来越多的监控类设备也融入人类的生活。如学校、停车场、居民楼、银行、商场等均安装了摄像装置。然而,此类摄像监控装置大部分并没能被用来进行实时监控,确保人们的安全。基本上,只有在发生异常情况后,人们才会对记录结果进行分析,提取出有价值的视频资料。故目前急需一种系统能24小时主动监控视频中的行人,并自动分析摄像头捕捉的图像中的数据,进而对图像中人体的行为进行准确的分析,在异常情况发生时能发出警报,从而降低犯罪行为的发生率。
如果监控系统能够真正被用来协助甚至代替警务人员的工作任务,那将极大程度的减少人力和财力的投入。除此之外,储存大量时间的无运动视频资料不仅浪费资源,在查找时也十分不便。因此,传统的视频监控系统不仅浪费大量的人力财力,而且很可能产生漏警,准确性实时性均不能满足人们的需求。监控系统若能实时对人体进行检测并对行为分析识别,不仅能够大规模代替监视人员的工作任务,在提高监视系统准确度以及存储效率方面也会起到极大的作用。故人体行为识别系统,在视频监控系统中将有着广阔的应用前景和经济价值。
而且,现如今人口老龄化已成为一个全球性问题,这使得很多老人的健康受到危害。其中跌倒造成的伤害尤其严重。应对这种社会现象,更需要监控系统的完善和科技的创新。系统若能实现实时监测是否有人摔倒,并作出及时的警告,将极大程度上降低老年人出世故的概率。
不仅如此,行为识别系统在其他领域也有着很高的经济价值。如人机交互、智能交通、医学、虚拟现实、视频会议等。综上所述,行为识别的技术发展具有较为广泛的应用前景和经济价值,开展这方面的研究有着很高的社会以及经济意义。
1.2 相关国内外技术现状
1.2.1 国外现状
基于视频监控的人体运动行为分析在智能安防、人机交互、智能交通、机器人导航有广泛的应用前景,引来愈来愈多的科研人员和相关商家前来,投入大量的精力和资金进行研发,并取得了一定的进展。
国外在行为识别方面具有较大影响的项目有:
(1) VSAM 项目
1997年,美国国防高级研究计划局(DARPA)资助卡内基梅隆大学、戴维 SARNOFF 研究中心、麻省理工大学,合作研发了视频监控系统 VSAM(Visual Surveillance and Monitoring)[1]。VSAM 采用分布式主动视频传感器,能使单个用户方便地对一片较为开阔的区域进行监控。当发现显著运动物体时,分式自治传感器平台会自动对用户报警。VSAM 提出了许多先进监控技术,例如基于静止与运动摄像机的实时运动物体检测与跟踪;一般对象(人体、卡车等)识别与特定对象(校园警车等)识别;对象姿态估计;主动相机控制与多相机协同跟踪;步态分析;简单的多主体活动识别。其核心技术主要致力于对战场及普通民用场景的监控。
(2)ADVISOR 系统
1999 年,欧盟Framework5程序委员会建立重大项目(ADVISOR系统[2]),其目的在于开发一个公共交通场所的安全管理系统,通过对人群和个人的行为模式分析等研究对公共交通场所的安全实施监控。
(3)实时视觉监控系统W4
实时视觉监控系统W4[3]是由马里兰大学的Haritaoglu等人研发的,该系统在实现对人体身体进行定位和分割的基础上,又对多人进行实时跟踪,同时还可以对室外环境中的人进行检测和跟踪,并监控它们之间的交互行为。
(4)英国的雷丁大学先后开展的 REASON、ETISE 等项目
英国雷丁大学先后开展的 REASON(robust methods for monitoring and understanding people in public spaces)、ETISE(evaluation of video scene understanding)等项目开展了对车辆和行人的跟踪及其交互作用识别的相关研究。
1.2.2 国内现状
国内对于视频中的人体行为识别方面的研究起步要相对较晚,但也有许多科研机构和大学投入到这项研究中:郁映卓[4]所提出的三维重构方法,可以检测下蹲和跌倒两种异常行为,不足之处则在于没有针对连续视频进行实验研究;许良武[5]主要研究侧面跌倒的行为,运用了机器学习的方法实现了行为识别,而没有专门针对与跌倒易混淆的行为进行研究;中国科学院自动化模式识别国家重点实验室、北京大学视觉与听觉信息处理国家重点实验室、清华大学及浙江大学人工智能研究所等一些在国内知名大学和科研机构也在进行探索和研究。
2007 年 10 月,由中国科学院自动化所承担的国际科技重点项目“人的运动和行为视频分析”项目顺利通过验收,并成功应用于北京城铁13 号线[6]。在学术方面,一些国际权威期刊如 CVIU、IJCV、IVC 和重要的学术会议如 ICPR、ICCV 和 CVPR 等将智能化视频监控技术研究,尤其是对人体运动视觉分析作为主题内容之一,IEEE 也定期举办关于人体运动分析的专题会议,可见国际上对该项研究高度重视。国内每年召开一次智能视频监控学术会议,为该领域的科研人员提供更多的交流机会。
1.3 行为识别方法
运动目标检测,就是从视频中将变化区域从背景图像中分离出来。而提取运动目标的成功与否将影响就下来的目标跟踪和行为理解,因为此后的处理将只考虑图像中提取出的运动目标的区域。即便如此,由于背景图像并不是持久不变的,存在着光照、天气、影子等干扰,运动目标的检测一直被人们视为较为困难的项目和工作。常用的运动检测方法有以下几种:
(1)时域差分法(Temporal Difference):在图像序列中两个或三个相邻帧之间通过采取基于像素的时间差分,并且阈值化处理来提取图像中可能的运动区域,Lipton[7]等人就是利用这种方法对运动对象进行检测,在相邻帧差分后,进行阈值化方法可提取图像中运动区域,从而将提取到的运动区域整合为运动对象。但上述方法很难得到所有运动对象的像素,所提取的运动对象轮廓并不完整。改进的方法是将两帧差分改为三帧差分。例如 VSAM研发了一种三帧差分与自适应背景减除相结合的算法,该算法能够快速且有效地从背景中检测出运动目标。此类方法缺点在于它将增加时间跨度,因而很容易混淆多个运动对象占据的图像。除此之外,Archetti[8]等人采用连通性分析和符号差分方法对两帧时间域差分方法进行了改进,也取得了叫好的效果。时域差分法在处理动态环境具有较强的自适应性,方法简单,操作易行,十分快捷,然而存在的缺点是不能完全提取出所有相关的像素点,从而在运动实体内部产生空洞现象。
(2)光流法(Optical flow):根据运动目标随时间变化而产生的光流特性,计算相邻帧各像素位置的可能发生的变化,从而实现运动区域的检测。如Meyer[9]等初始化基于轮廓的跟踪算法,就是运用了计算位移向量光流场的理论知识,进而有效地提取和跟踪运动目标。除此之外,Sidenbladh[10]不仅运用了水平方向光流场计算,还运用了支持向量机(SVM)分类器对运动进行检测,该方法能够有效提取人体的运动。其优点在于它即使在摄像机运动的情况下,也能检测出运动目标。然而,大多数的光流计算方法相对复杂,抗噪性能差,对硬件装置要求较高。尽管Baker[11]等人对光流计算作了一系列的改进,仍然没有从根本上解决效率低下的问题。
(3)背景建模法(Background modeling):目前,这种方法在运动检测中是最常见的,其原理是采用背景模型[12-18] 为每一当前帧生成一幅背景图像。而后将当前帧和背景图像计算差分,最后进行运动检测。该方法优点在于可以得到运动物体的完整轮廓。但缺点在于,背景模型必须随时更新背景环境。例如微风中荡漾的水波,背景中树叶随风飘动,光照条件的变化等。目前,大部分的研究人员都致力于开发不同的背景模型,从而最大程度上降低动态场景变化对运动检测的影响。现有的背景建模方法有以下几种:增量式高斯平均、时序中值滤波、混和高斯模型、顺序核密度近似、核密度估计以及特征背景建模。
在计算机视觉领域中,目标跟踪是其主要的组成部分。无论是视频监控,车辆驾驶辅助系统还是人机交互以及增强现实,都离不开目标跟踪。近年来,目标跟踪的环境也从刚开始的实验室,进一步拓展到了现实世界中来[19]。在现实环境中,实现稳健的目标跟踪十分困难,其原因在于跟踪过程中目标可能发生不确定的变化,运动的形态也会发生变化,严重的变化通常发生在低帧率的视频中或是目标突然产生剧烈运动[20,21]。不仅如此,若目标是非刚体即随时可能发生形变,则目标的几何特性以及外观在跟踪过程中也可能发生改变,所以目标的跟踪模板的维护是十分困难。视觉跟踪可视为状态估计类问题,在复杂场景下视觉跟踪则是典型的非线性、非高斯状态估计问题。在解决传统跟踪问题时,粒子滤波[22]表现出了较高的效率。在目标跟踪中,成功地运用蒙特卡罗-马尔科夫链也解决了不少问题[23,24]。然而,当运动模型的个数和目标的观测模型增加时,样本个数则要远大于上述两种模型的数目。Ross 等人[25]在线增量主成分分析法,开发了一种动态跟踪方法,该方法对光照变化、尺度以及姿态具有较强的鲁棒性。但是,以上三种方法都没有对运动发生极端变化时的情况进行考虑,当目标的运动形态发生突变时,将会导致跟踪是被。然而,利用蒙特卡罗-马尔科夫链,将跟踪分解为几个基本的运动模型和观测模型,进而利用模型的不同组合形成最终的跟踪器的方法,能够比较稳健地跟踪运动及外观发生突变的目标。在跟踪过程中,如果目标的形状不断地发生变化,即目标的外观信息以及几何特性都在不断的变化,这将导致跟踪过程中,维护目标模板变得十分困难。目前,在线学习算法[26]基本可以克服目标的外观变化的问题。但是很少有算法可以应对严重几何形状的变化。Schindler 等人[27]将目标表示成几个部分,采用 Rao-Blackwellized 粒子滤波准确地跟踪蜜蜂,但该方法各个部分之间的拓扑结构是一定的,这将导致在目标跟踪中很难适应目标的形态变化。Ramanan 等人[28]通过在线选择开发出了跟踪器,该方法对有关节的人体又很好的跟踪效果,但必须在跟踪之前确定人体的形态。自从 Isard 和 Blake提出采用粒子滤波进行目标跟踪以来,出现了许多基于该理论的视觉跟踪算法。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/dzkxyjs/2492.html