从零基础开始,系统阐述卷积神经网络理论基础及其实践应用,可以帮助初学者快速学习和构建深度学习系统。第1章简要介绍了图像表示和一些计算机视觉模型;第2章介绍了回归、机器学习和优化的概念;第3章介绍了Rosenblatt感知器和感知器学习算法、logistic神经元及其激活函数,以及两类和多类问题的单神经元模型等;第4章介绍了卷积池化层和CNN;第5章通过介绍CNN的一些当前新颖实用的用法,进一步拓展和丰富了深度神经网络的结构。
无
近年来,深度学习体系结构由于在计算机视觉等应用中的极大成功而开始流行起来。特别是卷积神经网络(CNN)已经成为深度学习中最重要的一种网络结构。现在普遍认为深度学习和CNN的术语对于初学者来说,太难学习和掌握了。为此,本书涵盖了计算机视觉中的深度学习、设计和部署CNN,以及深度计算机视觉体系结构的基础知识。本书旨在为工程师、本科生和研究生提供入门指南,帮助他们快速学习和建立自己的深度学习系统。本书以通俗易懂的方式写成,目的是为计算机视觉相关的深度学习技术提供一个易学的教材,同时仍然涵盖了大量必要的基础知识。
本书分为5章。第1章简要介绍了图像表示和一些计算机视觉模型,这些模型现在被称为人工方式建模。本章为读者提供了对图像表示的基本理解,并介绍了一些线性和非线性的特征提取或表示方法,以及这些表示的特性。此外,本章还介绍了一些基本图像元素(如边缘)的检测方法,还包括用这些表示来完成一些基本的机器学习任务。本章最后对两种流行的非神经网络计算机视觉建模技术进行了介绍。
第2章介绍了回归、机器学习和优化的概念。本章首先介绍监督学习,介绍的第一个学习模型是线性回归,它的第一种求解方法是利用最小二乘法得到解析解,并用极大似然来进行解释。本章通过基函数展开的方式实现线性模型向非线性模型的转变,并进一步介绍了交叉验证和正则化的方法解决过拟合和泛化问题。本章的后半部分介绍了凸误差面和非凸误差面的梯度下降最优化方法,进一步介绍了各种梯度下降法和正则化几何,并对基本梯度下降法进行了改进,包括二阶最小化损失技术和动量学习。
第3章和第4章是本书的核心。第3章在第2章的基础上,介绍了Rosenblatt感知器和感知器学习算法。本章接着介绍了logistic神经元及其激活函数,研究了两类和多类问题的单神经元模型,以及这种神经元的优缺点,并介绍了异或问题。针对异或问题,提出了多层神经网络的思想,介绍了反向传播算法,并对其进行了改进,给出了一些实用技巧,有助于工程上更好、更稳定的实现。第4章介绍了卷积池化层和CNN。其中研究了该层的各种属性,并分析了典型的数字手写体数据集提取的特征。本章还介绍了目前最流行的四种CNN:AlexeNet、VGG、GoogLeNet和ResNet,并对它们的架构和思想进行了比较。
第5章通过介绍CNN的一些当前新颖实用的用法,进一步拓展和丰富了深度神经网络的结构。本章大致分为两个连续的部分。第一部分讨论了使用网上可下载,并已预训练好的现成深度网络的原理。经过预训练的网络是在一个完整的数据集上进行训练得到的,公开提供给研究人员用于新的机器学习任务。这些都是在满足通用、可迁移的条件下研究的。第5章还研究了给定一个预训练网络的情况下,压缩网络的和学习新任务的方法。第二部分论述了CNN不用于监督学习,而是用于生成网络的思想,简要研究了自编码器和最新的计算机视觉技术:生成对抗网络(GAN)。
本书的相关网站(convolutionnetwork)包含代码及实现(也可登录wwwhzbookcom下载)、部分彩色插图、勘误表和补充资料。2017年春季,本书作为亚利桑那州立大学的一门研究生课程的教材进行讲授,讲座和材料也可以在本书网站上找到。
图11是我拍摄的原始图像(originaljpg)。这是monument山谷的一幅图片,它是美国西南地区的代表,亚利桑那州也在那里。memorypng是以Salvador Dali的风格绘制的,特别是他的绘画《记忆的持久性》,它抽象地描述了心灵幻觉的概念,以无形的形式描绘和处理物体,很像我们在书中研究的神经网络的一些表现形式。
memorypng不是人类所画,而是由本书介绍的神经网络绘制的。如果引用了本书,请使用以下的引文参考方式。
本书配有一个基于Python和Theano的CNN工具箱(该工具箱是由本书作者开发的),还有一个网页包含彩色图片、勘误表和其他补充资料。这个神经网络工具箱被命名为yann,可以在MIT许可证下使用,网址为http://wwwyann network。为了让初学者更容易地阅读书中的内容,作者开发了一套使用yann的教程。该教程和工具箱涵盖了本书讨论的不同体系结构的计算机,并提供了示例代码和应用程序编程接口(API)文档。在撰写本书的时候,yann工具箱正在积极开发中,它的客户支持是通过GitHub提供的。本书的网页在http://guide2cnncom上。书中的大多数图片都是灰度图,但有些图片最初是彩色的,是在制作过程中被转换成了灰度图。这些图片的彩色版本以及附加说明、相关课程的信息以及问答也可在网站上找到。
工具箱和本书将作为亚利桑那州立大学一学期的“深入学习视觉计算”研究生课程的阅读材料。本课程包括录制的讲座、课程内容和作业,可供大家使用,网址为http://wwwcourseconvolutionnetwork。作者可以通过电子邮件回答大家对有关内容和代码的问题,虚心接受大家对本书内容的批评或评论。只要符合出版商的版权政策,作者允许复制书中的图片、结果和内容。作者希望读者喜欢这本书,并希望初学者能够在本书及工具箱的帮助下快速构建自己的学习机器。鼓励读者利用本书中的知识做有益于人类的事,但同时真诚地劝告他们不要建造“Skynet”或任何其他末日人工智能机器。
计算机\人工智能
本书覆盖内容主要包括设计和开发卷积神经网络架构的一些基本知识。对于那些想要学习或构建深度视觉系统的工程师或学生来说,这本书会是一本非常好的入门读物,可以帮助他们快速地进入这个领域。本书还提供了丰富的理论知识和实操案例,以及一系列完备的工具包,以帮助初学者获得在理解和构建卷积神经网络(CNN)时所必要的基本信息。本书的重点将集中在卷积神经网络的基础部分,而不会涉及在高级课程中才出现的一些概念(CNN相关话题)。
本书特点:
为学习和开发CNN提供足够基础和全面的知识。
为非计算机科学专业的人提供成体系和系统的知识内容。
易于理解,通过案例研究、代码片段及数据集进行生动的展示和说明。
适合于那些想要在该领域锻炼自己实操能力的高年级学生或刚从业的人员。
本书包含CNN概念、方法和软件工具集,可以帮助你学习、理解和实现前沿的CNN技术。
[美] 拉加夫·维凯特森(Ragav Venkatesan)李宝新(Baoxin Li)著:拉加夫•维凯特森(Ragav Venkatesan)他是ASU的视觉表示和处理小组的一名研究助理,曾在机器学习、模式识别、视频处理和计算机视觉等多个研究生课程中担任助教。他是机器学习和计算机视觉领域的几个期刊的同行评审和会议审稿人。
李宝新(Baoxin Li)
目前是亚利桑那州立大学计算机科学与工程专业的教授和主任。从2000年到2004年,他任美国夏普实验室的高级研究员,领导研发夏普的HiMPACT体育技术。他还曾是俄勒冈州波特兰州立大学的副教授。他拥有18项美国专利,目前的研究兴趣包括计算机视觉和模式识别、多媒体、社会计算、机器学习和辅助技术。2001年和2004年,他获得夏普实验室总裁奖。2002年,他获得了夏普实验室年度发明者奖,还曾获得国家自然科学基金会职业奖。
随着深度学习的兴起,卷积神经网络重新焕发出光彩,它被成功地应用于计算机视觉领域,并获得了前所未有的进步。不管是业界还是教育界,都希望有一本能快速学习这一技术的资料。但由于这一领域的发展很快,大多内容都散布在各种学术论文中,初学者要通读很多论文后才能掌握这些技术,这无疑是个令人痛苦的过程。在为实验室的研究生新生寻找一本合适的教材时,本人也同样感到万分苦恼。一个偶然的机会,我在亚马逊上发现了本书的英文版。本书从基本的图像知识讲起,到机器学习的核心理论,再到神经网络和卷积神经网络及在计算机视觉中的最新应用,可以说形成了一个非常完整的知识体系。尽管这些内容不管哪一部分单独都可以成为一本教材,但本书的优势就在于用浅显的语言把这些貌似深奥的内容,通过合理的裁剪,围绕视觉计算把逻辑上相关的内容整合到了一起,免去了初学者到处翻阅相关书籍的麻烦,也有助于读者在图像处理、机器学习、深度学习、视觉计算上形成完整的认知。
感谢机械工业出版社华章分社给予翻译这本前沿著作的机会。本书的翻译也得到了浙江省自然科学基金项目(NoLY17F020011)的资助。参加本书翻译的有浙江科技学院大数据学院的钱亚冠、杭州海康威视网络与信息安全实验室的王滨,以及人工智能与机器学习实验室的研究生:卢红波、马骏、马丹峰、郭艳凯、刘新伟、张锡敏等。由于本书内容较新,翻译时间仓促,难免有不足之处,恳请读者批评指正!联系邮箱QianYaGuan@zust.edu.cn。
钱亚冠
2018年6月于杭州
译者序
作者简介
前言
致谢
第1章视觉计算简介
11图像表示基础
111变换域表示
112图像的直方图
113图像梯度和边缘
114超越图像梯度
12基于Hough变换的直线检测
13Harris角点
14尺度不变的特征变换
15方向梯度直方图
151人工设计特征空间中的决策制定
152贝叶斯决策
153线性决策边界
16可变形零件模型的实例研究
17计算机视觉向神经网络转变
本章小结
参考文献
第2章回归问题中的机器学习
21监督学习
22线性模型
23最小二乘法
24极大似然估计的解释
25扩展到非线性模型
26正则化
27交叉验证
28梯度下降
29几何正则化
210非凸误差面
211随机梯度、批梯度及在线梯度下降
212其他自适应学习率的更新规则
213动量
本章小结
参考文献
第3章 人工神经网络
31感知器
32多层神经网络
33反向传播算法
34改进的反向传播算法
341激活函数
342权重剪枝
343批量标准化
本章小结
参考文献
第4章卷积神经网络
41卷积与池化层
42卷积神经网络
本章小结
参考文献
第5章卷积神经网络的新进展
51预训练网络
511通用性和可传递性
512利用预训练网络的模型压缩
513Mentee网络与FitNet
514使用预训练网络的应用:使用CNN的图像美学
52生成网络
521自动编码器
522生成对抗网络
本章小结
参考文献
附录AYann
后记