本书是数字视频处理的权威图书,深入阐述数字图像与视频处理技术。第2版更新了近80%的体系机构和内容,全书章节调整为全新的8章,包括图像滤波、运动估计、视频分割、视频滤波、图像压缩和视频压缩等,尤其体现了在信号处理和计算机视觉的重要进展,以及3D、超高分辨率的视频和数字电影的最新应用。
多年来,本书都是无数工科学生和专业人士深入学习数字图像和视频处理技术的权威指南。在本书第2版中,作者对图像处理、计算机视觉、视频压缩等领域的重大发展进行了探讨,也对诸如数字电影、超高 分辨率视频、3D视频等新应用进行介绍。
全书内容详尽、组织均衡、论述严谨,全面覆盖了图像滤波、运动估计、跟踪、分割、视频滤波和压缩等诸多方向。书中对各章节的习题都进行了更新,并加入了新的MATLAB项目,已使本书成为一本全新的教材。
多维信号与系统:转换、采样、格式转换。
数字图像和视频:人类视觉、数字视频、视频质量。
图像滤波:梯度估计、边缘检测、尺度缩放、多分辨率表示、增强、去噪、复原。
运动估计:成像,运动模型,有差分法、匹配法、优化法、变换域方法,3D运动与形状估计。
视频分割与跟踪:色彩与运动分割、变化检测、镜头边界检测、视频抠图、视频跟踪与性能评估。
视频滤波:运动补偿滤波、多帧标准转换、多帧噪声过滤、复原、超分辨率重建。
图像压缩: JPEG、小波、JPEG 2000。
视频压缩:早期标准、ITU-T H.264/ MPEG-4 AVC、HEVC、可扩展视频压缩、立体视觉和多视图法。
A. 缪拉·泰卡尔普(A. Murat Tekalp)?博士是Koc大学教授、IEEE会士、欧洲学术研究院和土耳其科学院的院士。他是《Proceeding of the IEEE》的编委会成员和ICT的欧洲委员会国际专家。曾在罗切斯特大学(纽约)任教18年,并成为杰出教授。2004年,他获得了土耳其最高科学奖:TUBIAK科学奖。Tekalp博士曾担任IEEE图像与多维信号处理技术委员会的主席,也是IEEE多媒体信号处理技术委员会的创始成员,还曾担任欧洲信号处理协会(EURASIP)的《Signal Processing: Image Communication》杂志(由Elsevier出版)的主编。有美国伦斯勒理工学院的电气、计算机和系统工程学科领域博士学位。
本书于1995年出版了第1版,是第一本全面介绍数字视频处理的教材,当时根据视频处理领域的重要论题分成了25章,在一个学期的课程中,每章可以用一到两次课进行讲授。那个时期的数字视频技术和视频处理算法还不太成熟,数码摄像机和DVD刚刚商业化,数字电视标准正在制定,而数字电影还没有纳入议程。因此,与当今的技术水平相比,第1版中的一些方法/算法和技术已经过时,比如像素级回归的运动估计、矢量量化、不规则形状压缩、基于模型的编码等已不再先进,还有一些诸如模拟视频/电视和128K可视电话等技术则已经淘汰了。同时近20年来的重大进展显然也无法体现出来。
第1版出版至今已有20多年了,在当今这个数字化时代,数字视频已广泛应用于我们的日常生活。信号处理与计算机视觉领域的重大发展促进了视频处理算法的不断成熟,能够应用于不同用途的最常用又有效的算法与技术也更加清晰。因此,现在是本书推出新版的最好时机。本书围绕图像与视频处理的最新发展进行了精心编排,力图成为一本内容全面、结构严谨的教材。
第2版大幅度改进了内容与表述风格的组织方式,包含当今最先进的技术、最有效的算法和最新的知识。全书共分8章,每章对应一个主题,分别是多维信号处理、图像/视频基础、图像滤波、运动估计、视频分割、视频滤波、图像压缩、视频压缩。每个主题侧重介绍最有效的技术。与第1版相比,这一版不是简单的内容增补,而是一次全新的改写。
本书可作为高年级本科生或研究生的数字图像与视频处理课程的教材,要求读者预先掌握微积分、线性代数、概率论和一些基本的数字信号处理概念。具有计算机科学背景但不熟悉信号处理基本概念的读者,则可以跳过第1章,从第2章开始学习。尽管本书表述严谨,但仍然像一般教材一样从原理开始讲起,因此也可以用作产业界或学术界的工程师和研究人员自学的参考书。本书有助于读者理解图像和视频处理方法的理论基础,学习用最通用、最有效的算法解决常见的图像与视频处理问题。大部分章后提供习题集(部分习题集中还含有MATLAB练习),通过这些可加深读者对知识的理解和对方法的掌握。
数字视频处理就是对数字视频比特流的各种操作。所有数字视频应用都离不开压缩。此外,为了获得高质量图像或提取特定信息,数字视频应用也离不开广泛应用于格式转换、增强、复原、高分辨率重建等场合的滤波处理;有些应用还需要用到其他的处理,以实现运动估计、视频分割和3D场景分析。视频的帧与帧之间存在着大量的时间相关性(冗余),这使得视频处理不同于静态图像处理。可以将视频看成静态图像序列,并逐帧独立处理。但若采用基于帧间相关性的多帧联合处理技术,我们能够开发出更有效的视频处理算法,例如运动补偿滤波和预测。此外,某些任务(比如运动估计或动态场景分析)显然是无法基于单个图像来进行的。
本书的目的是为读者提供图像(单帧)和视频(多帧)处理方法的数学基础。特别是,本书还回答了以下基本问题:
●如何从噪声中分离出图像(信号)?
●内插、复原和超分辨率重建之间是否有内在的联系?
●对于不同的应用,该如何估计2D和3D运动?
●如何将图像和视频分割成感兴趣区域?
●如何跟踪视频中的对象?
●与图像滤波相比,视频滤波问题是否更趋向于适定?
●超分辨率重建为何能够实现?
●能否从视频片段中得到高质量的静态图像?
●图像和视频压缩为什么能够实现?
●如何压缩图像和视频?
●图像/视频压缩的最新国际标准是什么?
●3D视频表示和压缩的最新标准是什么?
图像和视频处理的大都是病态问题(欠定的和/或对噪声敏感的),并且它们的解都依赖于某些图像和视频模型。附录B讨论了用于病态问题解的图像建模方法。实际上,图像模型可以分成基于局部平滑、基于变换域稀疏和基于非局部自相似的种类。
图像处理算法大都使用了以上模型中的一种或多种。此外,视频模型还包括基于全局平移或块平移、参数化运动、运动(空间上)的平滑性、时域运动单调性(时域连续或平滑)、3D空时频域的平面支撑等类。
各章概述如下。
第1章回顾了多维信号、变换和系统的基础知识,它们是许多图像和视频处理方法的理论基础。该章还介绍了格上空时采样的体制(如逐行和隔行采样),以及采样格式转换理论。读者如果具有计算机科学背景但不熟悉信号处理概念,则可以跳过本章,直接从第2章开始学习。
第2章给出了数字图像与视频的基础知识。主要内容包括人类视觉、空间频率、彩色模型、模拟和数字视频表示、数字视频标准、3D立体/多视角视频表示、数字视频质量评估等基本概念,以及一些常见的数字视频应用,如数字电视、数字电影和网络视频流等。
第3章介绍了图像(静止帧)滤波类问题,比如图像重采样(抽取与内插)、梯度与边缘检测、增强、去噪、复原等。还介绍了线性移不变滤波器、自适应滤波器和非线性滤波器。附录B给出了求解病态逆问题的一般性框架。
第4章介绍了2D和3D运动估计方法。运动估计是数字视频处理的核心,因为运动是视频的显著特征,并且运动补偿滤波是利用时间冗余的最有效方法。再者,许多计算机视觉工作的第一步都是2D或3D运动估计与跟踪。2D运动估计一般分为稠密光流或稀疏对应估计两类,可以基于参数法和非参数法来实现。非参数法包括基于图像梯度的光流估计法、块匹配法、像素递归法、贝叶斯法和相位相关法。基于仿射模型或单应性的参数法可以用于图像配准或局部变形估计。3D运动/结构估计法一般都基于双帧极线约束法(主要针对立体对)或多帧因子分解法。欧几里得3D结构重建需要对所有相机进行标定,而投影重建法则无需标定。
第5章介绍了图像分割和变化检测,以及基于参数聚类法和贝叶斯法的主要运动或复杂运动分割。我们还讨论了运动估计与分割的同时实现问题。因为双视角运动估计技术对于图像梯度或对应点的估计精度很敏感,因此我们也对长的单目序列或立体像对中分割对象的运动跟踪进行了讨论,其结果更鲁棒。
第6章介绍了视频滤波,包括标准转换、去噪和超分辨率重建等内容。首先介绍了运动补偿滤波的基本原理,随后介绍了标准转换问题,包括帧速转换和去隔行等。视频帧的画面中经常存在颗粒,尤其在静止帧模式下观看时更加严重。为此,讨论了用于噪声抑制的运动自适应和运动补偿滤波。最后介绍了一种统一各种视频滤波问题的综合模型,可用于低分辨率视频获取和超分辨率重建。
第7章介绍了包括二值图像(传真)和灰度图像在内的静态图像压缩方法与标准,如JPEG和JPEG 2000等。还特别讨论了无损的图像压缩、有损的离散余弦变换(DCT)编码和小波变换编码等方法。
第8章讨论了视频压缩方法和标准,它们是实现数字电视、数字电影等数字视频应用的基础。在简要介绍了视频压缩的不同方法后,详细描述了MPEG2、AVC/H264和HEVC(高效视频编码)等标准,以及这些标准在可伸缩视频编码和立体和多视角视频编码方面的扩展。
本书是近20多年来我在数字图像与视频处理领域的教学结晶。本书内容丰富,结构合理,全面覆盖了图像滤波、运动估计、视频分割与跟踪、视频滤波、图像/视频压缩等方面的基本原理和最新成就。然而,一本书无法覆盖数字视频处理和计算机视觉领域所有的最新成就,因此本书只对最基本、最常用的技术和算法加以详解,而对更多的先进算法和最新研究成果只进行简介,并提供用于自学的参考文献。大部分章节最后都包含习题集(部分习题集还包含MATLAB练习),以便读者对所学到的方法进行练习。
教师可以通过申请获得教学资料。表P1提供了一个教学建议,按照一个学期14周、每周两次课、每次课75分钟的方式进行组织,可在一个学期的数字图像与视频处理课程中讲完本书的全部内容。另一种方式是将本书内容分到两个学期中,这样有更多时间对每个主题的细节进行探讨:第一学期可以开设数字图像处理课程,讲解第1、2、3、7章中的内容;第二学期开设数字视频处理课程,讲解第4、5、6、8章的内容。
表P1一学期课程的教学建议
每次课的编号 专题 章/节
1 2D信号与2D变换 11节、12节
2 2D系统、2D FIR滤波器、频率响应 13节
3 格上空时采样 14节、15节
4 数字图像/视频、人类视觉、视频质量 第2章
5 矢量矩阵表示、图像模型、图像/视频处理中病态问题的表达 附录A、附录B
6 抽取、内插、多分辨率金字塔 32节
7 梯度估计、边缘/角检测 33节
8 图像增强、点操作、钝化掩模、双边滤波 31节、34节
9 噪声滤波:LSI滤波器(自适应、非线性、非局部滤波器) 35节
10 图像复原:迭代法、POCS 36节
11 运动建模、光流法、对应法 41节、42节、43节
12 不同的方法:LukasKanade、参数模型 44节
13 块匹配、参数模型估计中的特征匹配、相位相关法 45节、47节
14 3D运动估计、对极几何 48节
15 变化检测、视频分割 52节、53节
16 运动跟踪 54节、55节
17 运动补偿滤波、多帧联合去隔行、去噪 61节、62节、63节
18 超分辨率重建 65节
19 数据/图像压缩介绍、信息论概念、熵编码、算术编码 71节
20 无损位平面编码、G3/G4、JBIG标准 72节
21 预测数据编码、JPEG标准 72节
22 DCT与JPEG图像压缩 73节
23 小波变换、JPEG 2000图像压缩 74节
24 MCDCT、MPEG1、MPEG2 81节、82节
25 MPEG4 AVC/H264标准 83节
26 HEVC 84节
27 可分级视频编码、DASH自适应流、抗误码 85节
28 3D/立体和多视角视频压缩 86节
显然,本书是信号处理和计算机科学相关组织研究成果的荟萃。每章都有很多引用并列出了相关参考文献,但肯定无法涵盖图像和视频领域科研与工业部门杰出研究者的所有成就。此外, 对于ISO和ITU组织中各位科学家经多年工作取得的图像与视频编码的显著成果,这里也难以一一致意。
最后,衷心感谢Xin Li (美国西弗吉尼亚大学,WVU)、 Eli Saber、Moncef Gabbouj、 Janusz Konrad和HJoel Trussell在本书成稿过程中的贡献。同时感谢Prentice Hall出版社的Bernard Goodwin、 Kim Boedigheimer和 Julie Nahil的帮助与支持。
AMurat Tekalp
于土耳其伊斯坦布尔Koc大学
数字视频
多年来,本书都是无数工科学生和专业人士深入学习数字图像和视频处理技术的权威指南。在本书第2版中,作者对图像处理、计算机视觉、视频压缩等领域的重大发展进行了探讨,也对诸如数字电影、超高分辨率视频、3D视频等新应用进行介绍。
全书内容详尽、组织均衡、论述严谨,全面覆盖了图像滤波、运动估计、跟踪、分割、视频滤波和压缩等诸多方向。书中对各章节的习题都进行了更新,并加入了新的MATLAB项目,已使本书成为一本全新的教材。
内容包括:
·多维信号与系统:转换、采样、格式转换。
·数字图像和视频:人类视觉、数字视频、视频质量。
·图像滤波:梯度估计、边缘检测、尺度缩放、多分辨率表示、增强、去噪、复原。
·运动估计:成像,运动模型,有差分法、匹配法、优化法、变换域方法,3D运动与形状估计。
·视频分割与跟踪:色彩与运动分割、变化检测、镜头边界检测、视频抠图、视频跟踪与性能评估。
·视频滤波:运动补偿滤波、多帧标准转换、多帧噪声过滤、复原、超分辨率重建。
·图像压缩: JPEG、小波、JPEG 2000。
·视频压缩:早期标准、ITU-T H.264/ MPEG-4 AVC、HEVC、可扩展视频压缩、立体视觉和多视图法。
[土耳其]A.缪拉·泰卡尔普(A. Murat Tekalp) 著:
A.缪拉·泰卡尔普(A.Murat Tekalp)博士是Koc大学教授、IEEE会士、欧洲学术研究院和土耳其科学院的院士。他是《Proceeding of the IEEE》的编委会成员和ICT的欧洲委员会国际专家。曾在罗切斯特大学(纽约)任教18年,并成为杰出教授。2004年,他获得了土耳其最高科学奖:TUBIAK科学奖。Tekalp博士曾担任IEEE图像与多维信号处理技术委员会的主席,也是IEEE多媒体信号处理技术委员会的创始成员,还曾担任欧洲信号处理协会(EURASIP)的《Signal Processing: Image Communication》杂志(由Elsevier出版)的主编。有美国伦斯勒理工学院的电气、计算机和系统工程学科领域博士学位。
数字图像/视频处理是数字信号处理领域的一个重要方向。自20世纪以来,随着计算机技术、电子技术和数学的发展,人们在数字图像/视频处理的增强、复原、检测、分割、识别、跟踪、压缩等各方面都取得了长足的进展,其成果已广泛应用于人们的日常生活、工作学习、军事建设等各个方面。由于其技术应用已深入到工业、农业、矿产、海洋、军事、娱乐等各领域,所以世界上大多数理工科院校都开设了数字图像处理或相关课程,相关专著和教材也已数以千计。但在其中,大多数相关教材都将重点放在数字图像处理、图像分析、图像理解上,以数字视频处理为重点内容的相关教材和专著相对较少。
数字视频处理是与数字图像处理紧密相关的。但与数字图像处理相比,由于输入信号中包含了时间维度的信息,因此数字视频处理具有许多独特的理论与技术,如运动估计、视频分割、3D场景分析等。我们可以将视频看成静态图像序列,并逐帧独立处理,但若采用基于帧间相关性的多帧联合处理技术,却能够开发出更有效的视频处理算法,例如运动补偿滤波和预测等。此外,运动估计或动态场景分析等任务显然是无法基于单个图像来实现的。
土耳其的AMurat Tekalp教授是数字图像与视频处理领域的资深专家,长期从事数字图像与视频处理方面的本科和研究生教学工作,具有丰富的教学和科研经验。本书是其近20多年来在数字图像与视频处理领域的教学结晶,全面覆盖了图像滤波、运动估计、视频分割与跟踪、视频滤波、图像/视频压缩等方面的基本原理和最新成就。全书的主要特点是从问题描述入手,按照模型建立、条件约束、求解实现的顺序,建立了较为完整的问题求解框架,从而有效拓展读者对相关问题的认识深度。为此,作者还在开始部分加入了多维信号与系统的介绍,在附录部分提供了问题求解所涉及的相关矩阵、优化等知识的介绍。对于具体的算法实现过程步骤,本书着墨不多。因此,本书更适合相关专业的研究生作为教材使用。
本书的翻译由曹铁勇、张雄伟、杨吉斌、黄辉、李莉共同完成,其中,前言、11节、121节、第3章、第5章、第6章由曹铁勇翻译,第1章其余部分、第2章由张雄伟翻译,第8章和附录部分由杨吉斌翻译,第4章由黄辉翻译,第7章由李莉翻译。全书由曹铁勇统稿。在翻译过程中,还得到了郑云飞、王文、孙蒙、赵斐、吴其前等的帮助。
在本书翻译过程中,我们力求忠于原著,但由于水平有限,难免会出现错误或遗漏之处,恳请广大读者批评指正。
译者
2017年6月
于南京
出版者的话
译者序
前言
第1章多维信号与系统
11多维信号
111有限域信号和周期信号
112对称信号
113特殊的多维信号
12多维变换
121连续信号的傅里叶变换
122离散信号的傅里叶变换
123离散傅里叶变换
124离散余弦变换
13多维系统
131冲激响应和2D卷积
132频率响应
133FIR滤波器和对称性
134IIR滤波器和偏微分方程
14多维采样理论
141格上采样
142格上采样信号的频谱
143格上采样的奈奎斯特准则
144基于格上采样点的重构
15采样结构转换
参考文献
习题集
第2章数字图像与数字视频
21人类视觉系统和色彩
211色觉与模型
212对比灵敏度
213空时频率响应
214立体/深度感知
22模拟视频
221逐行扫描和隔行扫描
222模拟视频信号格式
223模拟/数字转换
23数字视频
231空间分辨率和帧率
232色彩、动态范围和位深
233彩色图像处理
234数字视频标准
243D视频
2413D显示技术
242立体视频
243多视角视频
25数字视频应用
251数字电视
252数字电影
253互联网视频流
254计算机视觉和场景/活动理解
26图像与视频质量
261可视失真
262主观质量评价
263客观质量评价
参考文献
第3章图像滤波
31图像平滑
311线性移不变低通滤波
312双边滤波
32图像重采样和多分辨率表示
321图像抽取
322内插
323多分辨率金字塔表示
324小波表示
33图像梯度估计、边缘和特征检测
331图像梯度的估计
332拉普拉斯估计
333Canny边缘检测
334Harris角检测
34图像增强
341基于像素的对比度增强
342用于色调映射和图像锐化的空间滤波
35图像去噪
351图像与噪声模型
352DFT域的线性空不变滤波器
353局部自适应滤波
354非线性滤波:顺序统计、小波收缩和双边滤波
355非局部滤波:NL均值和BM3D
36图像复原
361模糊模型
362线性空不变模糊退化图像的复原
363盲复原——模糊识别
364空变模糊退化图像的复原
365图像修补
参考文献
习题集
MATLAB资源
第4章运动估计
41成像
411相机模型
4123D运动的光度效应
42运动模型
421投影运动和表观运动
4223D刚体运动投影模型
4232D表观运动模型
432D表观运动估计
431稀疏对应估计、光流估计与图像配准问题
432光流方程和法向流
433位移帧差
434运动估计是病态问题:遮挡和孔径问题
435分层运动估计
436运动估计的性能评价
44差分法
441LucasKanade法
442HornSchunk 运动估计
45匹配算法
451基本的块匹配
452可变大小块匹配
453分层块匹配
454广义块匹配——局部变形运动
455来自特征对应的单应性估计
46非线性优化法
461像素递归运动估计
462贝叶斯运动估计
47变换域法
471相位相关法
472空域频谱法
483D运动与结构估计
481相机标定
482仿射重建
483投影重建
484欧几里得重建
485平面视差和相对仿射结构重建
486基于立体视觉的稠密结构
参考文献
习题集
MATLAB资源
第5章视频分割与跟踪
51图像分割
511阈值法
512聚类
513贝叶斯法
514图方法
515主动轮廓模型
52变化检测
521镜头边界检测
522背景相减
53运动分割
531主要运动分割
532多运动分割
533基于区域的运动分割:色彩与运动融合
534同步进行运动估计与分割
54运动跟踪
541基于图的空时分割与跟踪
542KLT跟踪
543MS跟踪
544粒子滤波跟踪
545主动轮廓跟踪
5462Dmesh 跟踪
55图像和视频抠图
56性能评估
参考文献
习题集
网络资源
第6章视频滤波
61空时滤波原理
611视频的频谱
612运动自适应滤波
613运动补偿滤波
62视频格式转换
621下变频
622去隔行
623帧率转换
63多帧的噪声滤除
631运动自适应噪声滤除
632运动补偿噪声滤除
64多帧复原
641多帧建模
642多帧维纳复原
65多帧超分辨率
651超分辨率
652低分辨率采样建模
653频域超分辨率
654多帧空域法
参考文献
习题集
第7章图像压缩
71图像压缩基础
711信息论概念
712图像压缩系统的组成
713量化
714符号编码
715赫夫曼编码
716算术编码
72无损图像压缩
721位平面编码
722RLC和ITU G3/G4标准
723自适应算术编码和JBIG
724早期无损预测编码
725JPEGLS标准
726LempelZiv编码
73离散余弦变换编码和JPEG
731离散余弦变换
732ISO JPEG标准
733编码器控制和压缩失真
74小波变换编码和JPEG 2000
741小波变换和滤波器的选择
742ISO JPEG 2000标准
参考文献
习题集
网络资源
第8章视频压缩
81视频压缩方法
811帧内压缩、运动JPEG 2000和数字电影
8123D变换编码
813运动补偿变换编码
82早期视频压缩标准
821ISO和ITU标准
822MPEG1标准
823MPEG2标准
83MPEG 4 AVC/ITUT H264标准
831输入视频格式和数据结构
832帧内预测
833运动补偿
834变换
835其他工具和改进
84高效视频编码标准
841视频输入格式和数据结构
842编码树单元
843并行编/解码工具
844其他工具和改进
85可分级视频压缩
851时域可分级
852空域可分级
853质量可分级
854混合可分级
86立体和多视角视频压缩
861帧兼容立体视频压缩
862H264/AVC标准的立体和多视角视频编码扩展
863带深度信息的多视角视频
参考文献
习题集
网络资源
附录A图像和视频处理中的矢量和矩阵运算
附录B图像和视频处理中的病态问题
附录C马尔可夫随机场和吉布斯随机场
附录D优化方法
附录E模型拟合