卷积神经网络与计算机视觉
作者 : [澳] 萨尔曼·汗(Salman Khan) 侯赛因·拉哈马尼(Hossein Rahmani) 赛义德·阿法克·阿里·沙(Syed Afaq Ali Shah) 穆罕默德·本纳努恩(Mohammed Bennamoun) 著
译者 : 黄智濒 戴志涛 译
出版日期 : 2019-04-09
ISBN : 978-7-111-62288-8
定价 : 99.00元
教辅资源下载
扩展信息
语种 : 简体中文
页数 : 196
开本 : 16
原书名 : A Guide to Convolutional Neural Networks for Computer Vision
原出版社: Morgan & Claypool Publishers, Inc.
属性分类: 教材
包含CD : 无CD
绝版 :
图书简介

本书自成一体,如果你既想了解CNN的原理,又想获得将CNN应用于计算机视觉的一手经验,那么本书将非常适合阅读。书中对CNN进行了全面介绍,首先是神经网络的基本概念:训练、正则化和优化。然后讨论了各种各样的损失函数、网络层和流行的CNN架构,回顾了评价CNN的不同技术,并介绍了一些常用的CNN工具和库。此外,本书还分析了CNN在计算机视觉中的应用案例,包括图像分类、对象检测、语义分割、场景理解和图像生成。

图书特色

图书前言

本书的主旨是从计算机视觉的角度全面深入地介绍卷积神经网络(Convolutional Neural Network,CNN)的主题,覆盖了与理论和实践方面相关的初级、中级和高级主题。
本书共分为9章。第1章介绍计算机视觉和机器学习主题,并介绍与它们高度相关的应用领域。第1章的后半部分提出本书的主题“深度学习”。第2章介绍背景知识,展示流行的手工提取的特征和分类器,这些特征和分类器在过去二十年间仍然在计算机视觉中很受欢迎。其中包括的特征描述符有尺度不变特征变换(ScaleInvariant Feature Transform,SIFT)、方向梯度直方图(Histogram of Oriented Gradients,HOG)、加速健壮特征(SpeededUp Robust Features,SURF),涵盖的分类器有支持向量机(Support Vector Machine,SVM)和随机决策森林(Random Decision Forest,RDF)等。
第3章描述神经网络,并涵盖与其架构、基本构建块和学习算法相关的初步概念。第4章以此为基础,全面介绍CNN架构。该章介绍各种CNN层,包括基本层(例如,子采样、卷积)以及更高级的层(例如,金字塔池化、空间变换)。第5章全面介绍学习和调整CNN参数的技巧,还提供可视化和理解学习参数的工具。
第6章及其后的内容更侧重于CNN的实践方面。具体来说,第6章介绍目前的CNN架构,它们在许多视觉任务中表现出色。该章还深入分析并讨论它们的相对优缺点。第7章进一步深入探讨CNN在核心视觉问题中的应用。对于每项任务,该章都会讨论一组使用CNN的代表性工作,并介绍其成功的关键因素。第8章介绍深度学习的流行软件库,如Theano、TensorFlow、Caffe和Torch。最后,第9章介绍深度学习的开放性问题和挑战,并简要总结本书内容。
本书的目的不是提供关于CNN在计算机视觉中的应用的文献综述。相反,它简洁地涵盖了关键概念,并提供了当前为解决计算机视觉的实际问题而设计的模型的鸟瞰图。

上架指导

计算机\人工智能

封底文字

近年来,计算机视觉和机器学习在众多基于图像的应用程序开发中起到关键作用,例如由Google、Facebook、Microsoft提供的各种服务。随着计算性能的提升,基于视觉的技术已经从感知模式转变为可以理解现实世界的智能系统,并且成为该领域的创新企业和技术人员需要掌握的重要技术。
本书不仅包含对卷积神经网络(CNN)的全面介绍,而且分享了CNN在计算机视觉方面的应用经验。本书不要求读者具备相关背景知识,非常适合有兴趣快速了解CNN模型的学生、程序员、工程师和研究者阅读。

通过本书,你将习得:
CNN的训练、正则化和优化方法。
多种损失函数、网络层和流行的CNN架构。
评估CNN的不同技术。
计算机视觉中常用的CNN工具和库。
CNN在计算机视觉中的应用案例,包括图像分类、目标检测、语义分割、场景理解和图像生成等。

作者简介:
萨尔曼·汗(Salman Khan) 澳大利亚国立大学讲师,联邦科学与工业研究组织(CSIRO)研究科学家。
侯赛因·拉哈马尼(Hossein Rahmani) 西澳大利亚大学计算机科学与软件工程学院研究员。
赛义德·阿法克·阿里·沙(Syed Afaq Ali Shah) 西澳大利亚大学计算机科学与软件工程学院副研究员。
穆罕默德·本纳努恩(Mohammed Bennamoun) 西澳大利亚大学教授,曾任计算机科学与软件工程学院院长。

译者简介:
黄智濒 北京邮电大学计算机学院讲师,博士,主要研究方向为计算机视觉和三维可视化。
戴志涛 北京邮电大学计算机学院教授,主要研究方向为深度学习加速器和嵌入式系统。

作者简介

[澳] 萨尔曼·汗(Salman Khan) 侯赛因·拉哈马尼(Hossein Rahmani) 赛义德·阿法克·阿里·沙(Syed Afaq Ali Shah) 穆罕默德·本纳努恩(Mohammed Bennamoun) 著:---作者简介---
萨尔曼•汗(Salman Khan) 澳大利亚国立大学讲师,联邦科学与工业研究组织(CSIRO)研究科学家。
侯赛因•拉哈马尼(Hossein Rahmani) 西澳大利亚大学计算机科学与软件工程学院研究员。
赛义德•阿法克•阿里•沙(Syed Afaq Ali Shah) 西澳大利亚大学计算机科学与软件工程学院副研究员。
穆罕默德•本纳努恩(Mohammed Bennamoun) 西澳大利亚大学教授,曾任计算机科学与软件工程学院院长。

---译者简介---
黄智濒 北京邮电大学计算机学院讲师,博士,主要研究方向为计算机视觉和三维可视化。
戴志涛 北京邮电大学计算机学院教授,主要研究方向为深度学习加速器和嵌入式系统。

译者序

1998年,Yann LeCun教授提出了第一个真正意义上的卷积神经网络LeNet,并将它应用到手写数字识别上。然而这个模型在后来的一段时间并未流行起来,主要原因是卷积神经网络虽然可以有效处理噪声信号,提取输入数据的特征,但需要较大的计算量,受限于当时的计算能力,识别的错误率比同时代的支持向量机要高很多。支持向量机精巧地在容量调节上选择了更合适的平衡点,从而获得了较大的成功,但其噪声信号处理能力较差。随着计算机性能沿摩尔定律的提升,多核处理器、通用图形处理器以及各类高性能分布式计算模式的出现,计算能力有了突飞猛进的发展。终于,在2012年ImageNet大规模视觉识别挑战赛(ILSVRC)上,AlexNet的卓越表现,使得人们认识到卷积神经网络的巨大潜力,各类深度网络结构层出不穷,各种卷积神经网络的应用如雨后春笋般冒出来。其中计算机视觉领域的应用最有代表性,并获得了巨大成功,同时也促进了人们学习并深入研究深度神经网络(特别是深度卷积神经网络)。本书正是在这样的背景下顺应而生的。
Morgan & Claypool综合报告深受广大科研工作者喜爱,每份报告全面阐述一项重要的研究或技术,由该领域著名专家撰写。报告的独特价值在于能带给读者比期刊文章更综合的内容、更深入的分析,同时比一般图书或工具书更模块化、更动态。本书脉络清晰,突出重点,围绕深度卷积神经网络的基础知识、核心概念、最新进展、在计算机视觉领域各方面的近期典型应用案例、主要支撑工具平台以及未来的研究方向等方面进行了介绍。总之,本书非常合适那些既对计算机视觉感兴趣,又想深入学习深度卷积神经网络的中高级读者。
在翻译的过程中,虽然我们力求准确反映原著表达的思想和概念,但由于本书内容大部分来自于近期有影响力的国际期刊和会议论文,有很多新名词尚没有标准的中文译名,因此只能通过查询互联网来选择被广泛接受的中文译名。我们将这些译名整理成术语表附在本书最后,希望本书的出版能推动这些中文译名的统一化,便于国内的研究学习和交流。由于译者水平有限,翻译中难免有错漏之处,恳请读者和同行批评指正。
最后,感谢家人和朋友的支持和帮助。同时,要感谢在本书翻译过程中做出贡献的人,特别是北京交通大学附属中学的韩乐铮,北京邮电大学的董丹阳和赵达菲;还要感谢北京邮电大学计算机学院的大力支持。

北京邮电大学计算机学院
智能通信软件与多媒体北京市重点实验室
黄智濒戴志涛
2018年11月于北京

图书目录

译者序
前言
致谢
作者简介
第1章简介
11什么是计算机视觉
111应用案例
112图像处理与计算机视觉
12什么是机器学习
121为什么需要深度学习
13本书概览
第2章特征和分类器
21特征和分类器的重要性
211特征
212分类器
22传统特征描述符
221方向梯度直方图
222尺度不变特征变换
223加速健壮特征
224传统的手工工程特征的局限性
23机器学习分类器
231支持向量机
232随机决策森林
24总结
第3章神经网络基础
31引言
32多层感知机
321基础架构
322参数学习
33循环神经网络
331基础架构
332参数学习
34与生物视觉的关联
341生物神经元模型
342神经元的计算模型
343人工神经元与生物神经元
第4章卷积神经网络
41引言
42神经网络层
421预处理
422卷积层
423池化层
424非线性
425全连接层
426转置卷积层
427感兴趣区域的池化层
428空间金字塔池化层
429局部特征聚合描述符层
4210空间变换层
43CNN损失函数
431交叉熵损失函数
432SVM铰链损失函数
433平方铰链损失函数
434欧几里得损失函数
4351误差
436对比损失函数
437期望损失函数
438结构相似性度量
第5章CNN学习
51权重初始化
511高斯随机初始化
512均匀随机初始化
513正交随机初始化
514无监督的预训练
515泽维尔(Xavier)初始化
516ReLU敏感的缩放初始化
517层序单位方差
518有监督的预训练
52CNN的正则化
521数据增强
522随机失活
523随机失连
524批量归一化
525集成模型平均
5262正则化
5271正则化
528弹性网正则化
529最大范数约束
5210早停
53基于梯度的CNN学习
531批量梯度下降
532随机梯度下降
533小批量梯度下降
54神经网络优化器
541动量
542涅斯捷罗夫动量
543自适应梯度
544自适应增量
545RMSprop
546自适应矩估计
55CNN中的梯度计算
551分析微分法
552数值微分法
553符号微分法
554自动微分法
56通过可视化理解CNN
561可视化学习的权重
562可视化激活
563基于梯度的可视化
第6章CNN架构的例子
61LeNet
62AlexNet
63NiN
64VGGnet
65GoogleNet
66ResNet
67ResNeXt
68FractalNet
69DenseNet
第7章CNN在计算机视觉中的应用
71图像分类
711PointNet
72目标检测与定位
721基于区域的CNN
722快速RCNN
723区域建议网络
73语义分割
731全卷积网络
732深度反卷积网络
733DeepLab
74场景理解
741DeepContext
742从RGBD图像中学习丰富的特征
743用于场景理解的PointNet
75图像生成
751生成对抗网络
752深度卷积生成对抗网络
753超分辨率生成对抗网络
76基于视频的动作识别
761静止视频帧的动作识别
762双流CNN
763长期递归卷积网络
第8章深度学习工具和库
81Caffe
82TensorFlow
83MatConvNet
84Torch7
85Theano
86Keras
87Lasagne
88Marvin
89Chainer
810PyTorch
第9章结束语
91本书概要
92未来研究方向
术语表
参考文献

教学资源推荐
作者: 周昌乐 著
作者: (澳)Michael Negnevitsky 著
作者: [中]石川(Chuan Shi) [美]俞士纶 (Philip S. Yu) 著
作者: [美]梅尔亚·莫里(Mehryar Mohri) 阿夫欣·罗斯塔米扎达尔(Afshin Rostamizadeh) 阿米特·塔尔沃卡尔(Ameet Talwalkar) 著
参考读物推荐
作者: [美] 弗朗西斯科·里奇(Francesco Ricci) 利奥·罗卡奇(Lior Rokach) 布拉哈·夏皮拉(Bracha Shapira) 保罗 B. 坎特(Paul B. Kantor) 编
作者: [美]马特·R.科尔(Matt R.Cole) 著