模式识别:数据质量视角
作者 : [波]伍拉迪斯罗·霍曼达(Władysław Homenda) [加]维托德·派提兹 (Witold Pedrycz) 著
译者 : 张轶 译
出版日期 : 2020-03-16
ISBN : 978-7-111-64675-4
定价 : 79.00元
教辅资源下载
扩展信息
语种 : 简体中文
页数 : 242
开本 : 16
原书名 : Pattern Recognition: A Quality of Data Perspective
原出版社: John Wiley & Sons(USA)
属性分类: 教材
包含CD : 无CD
绝版 :
图书简介

几十年来,实际需求激发了对模式识别的大量理论和应用研究。在这个过程中,限制因素和恒久问题一直是数据——它的多样性、丰富性和可变质量是模式识别创新的主要挑战。本书关注高级数据分析和数据挖掘,创新之处是对数据质量的重新定位——将数据质量看作一个可以处理的因素,而非当作需要克服的困难。

图书特色

图书前言

模式识别以其明确的方法、丰富的算法和清晰的应用领域确立了自己先进的学科地位。近些年来,模式识别成了一门由实际应用需求驱动的、理论与实践相结合的学科。精心制定的模式识别评估策略及方法,尤其是一套分类算法,构成了众多模式分类器的核心。模式识别有许多具有代表性的应用领域,包括识别印刷文本和手稿、识别音乐符号、支持多模式生物识别系统(语音、虹膜、签名)、分类医疗信号(包括心电图、脑电图、肌电图等),以及分类和解释图像。
随着数据的丰富,它们的数量和多样性带来了明显的挑战。我们需要认真解决这些挑战,以促进该领域的进一步发展,从而满足不断增长的应用的需要。简言之,这些都涉及数据质量(data quality)的问题。这个名词开始出现在很多领域,故而得到了广泛的关注。数据缺失、噪声、异类样本(foreign pattern)、有限精度、信息粒度以及不平衡数据都是在构建模式分类器和进行综合数据分析时经常碰到且必须充分考虑的因素。特别是,在进行分析、分类和解析前,我们必须进行适当的数据(样本)变换(或预处理)。
数据质量影响着模式识别的本质,因此需要对该领域的原理进行详尽的研究。数据质量可对分类器开发方案和架构产生直接影响。本书旨在从一个全新的角度(数据质量)来覆盖模式识别的精髓,本质上我们主张建立新的模式识别框架及其方法和算法,以应对数据质量的挑战。比如,本书中讲述的所谓异类样本(奇异样本)就是一个极具代表性的有趣示例。这里提到的异类样本指的是不属于已知类别中的任意一类。模式识别技术不断发展的现状使得辨识异类样本尤为重要。例如,在印刷体文本的识别问题上,奇异样本(比如墨渍、油污或损坏的符号)出现的频率极低。而在处理其他诸如测绘地图或音乐符号等识别问题时,异类样本则经常出现,这不能被忽略。与印刷体文本不同,此类文档包含不规则位置、不同尺寸、重叠或形状复杂的对象,过于严格的字符分割会导致很多可识别字符被拒绝。由于识别模式的可分离性较弱,因此分割准则需要制定得宽松一些,而与可识别样本相近的异类样本则需要仔细审查甚至拒绝。
本书的内容分为两大部分:第一部分是“基础知识”,第二部分是“高级主题:粒度计算框架”。这样安排反映了本书覆盖的主要内容的本质。
第一部分探讨带拒绝的模式识别问题的原理。其中,将拒绝异类样本的任务作为模式识别标准方案和实践的扩展和加强。本书重温并详细阐述了模式识别最基本的概念,以便解释如何通过添加拒绝项来增强现有分类器,从而更好地处理所讨论的问题。正如前文强调的那样,本书内容齐备,介绍了众多知名方法和算法,并全面回顾了模式识别学科的主要目的和研究阶段。关键主题涉及对问题的公式化和理解,特征空间构成、选择、变换和降维,模式分类,以及性能评估。重点分析带拒绝的模式识别领域的研究进展,包括历史及展望。同时,当前和未来的一些解决方案也被提出来,以帮助读者了解该领域未来的发展,特别是针对现有一些挑战所诞生的新技术的发展趋势。相应章节重温了重要技术环节,详述了带拒绝的模式识别问题的解决方法。第1章讨论特征空间构成的基本概念,特征空间在很大程度上决定了分类器的质量。这一章的重点是分析和比较用于特征构建、变换和降维的主要方法。第2章讲述一系列基本分类器的设计方法,包括著名的k-NN(k最近邻)算法、朴素贝叶斯分类器(nave Bayesian classifier)、决策树(decision tree)、随机森林(random forest)和支持向量机(SVM),此章提供了一系列案例以进行比较学习。第3章详尽阐述关于带拒绝的识别问题,附带有大量实例,并且详细介绍了现在在这一领域进行的研究。第4章讲述一套实现带拒绝的模式识别任务所需的评估方法以及经典的性能评估途径,从多方面对模式识别评估机制进行深入的探讨。同时,在平衡和不平衡数据集上进行扩展分析。从标准模式识别问题的评估开始讨论,接下来进入带拒绝的模式识别问题。当不平衡数据的存在使问题进一步恶化时,我们将讨论如何对带拒绝的模式识别问题进行评估。这一章讨论了广泛的解决方法,并将其应用到实验当中,包括那些实验数据的对比。在第5章中,对不同的拒绝架构进行实证评估。我们以一组手写数字和印刷体音乐符号的数据集为例来进行经验验证。另外,我们还提出一种基于几何区域概念的带拒绝的识别方法。不同于拒绝架构,这是一种独立的方法,可用于区分原始和异类样本。我们研究了基本几何区域的用法,特别是超矩形和超椭球体。
第二部分集中讨论信息粒(information granule)和信息粒度(information granularity)的基本概念。信息粒开创了粒度计算这一领域——一个集生成、处理和解析信息粒于一体的典范。信息粒度与数据质量的关键概念紧密相连,有助于对特定质量的模式进行辨识、定量分析和处理。该部分针对这些内容做了自顶向下的组织安排。第6章介绍信息粒的基础知识,给出了关键的激励因素,阐述了其基本形式(包括集合、模糊集、概率),以及操作、变换机理和信息粒的特征描述。第7章介绍信息粒的设计。第8章将聚类放在新环境下,揭示其作为构建信息粒机制的角色。同样,结果表明,将信息粒度引入最初构造的数字集群的描述中,可以显著增强聚类结果(主要是数值性质的)。这一章谈到了关于信息粒聚类的问题,并将其转化为现有聚类方法的扩充。第9章进一步研究了数据质量及其量化和处理。这里我们集中讨论数据(价值)填补和不平衡数据——数据质量起关键作用的两种主要表现形式。在这两种情况下,随着数据质量的量化和分类方案的丰富,相关问题会通过信息粒显现出来。
本书具有一系列吸引读者的重要特点:
●系统地剖析了概念、设计方法和算法。在材料的组织上,我们遵循自顶向下的策略,从概念和动机出发,然后讨论设计细节(尤其是实际算法)并举出一系列具有代表性的应用。
●大量精细构造和组织的说明性内容。本书涵盖了一系列说明性的简要数值实验、细节方案和更高级的问题。
●内容完整独立。我们旨在通过提供所有必要的先决条件来传递内容完整的学习材料。如果必要的话,书中的某些部分将逐步增加对更高级概念的解释,并由精心挑选的说明材料加以支持。
●基于本书的中心主题,我们希望所涉及的内容能受到模式识别和数据分析领域广大研究人员和实践者的喜爱。它可以被看作该领域实际方法的纲领,提供了良好的算法框架。
如果没有各机构和个人的支持,本书是无法完成的。
特别鸣谢国家科学中心为本书提供的经费支持(基金号2012/07/B/ST6/01501, 决策号UMO-2012/07/B/ST6/01501)。
Agnieszka Jastrzebska博士对实验和图表的绘制做了细致入微的工作。感谢John Wiley团队成员Kshitija Iyer 和 Grace Paulin Jeeva S 在本项目开始阶段给予我们的鼓励以及持续的技术支持。

上架指导

计算机\人工智能

封底文字

本书在现有模式识别理论知识的基础上新增了关于数据质量的讨论,主要包括异类样本拒绝、信息粒和粒度计算以及数据填补三个方面,不仅系统剖析了基本概念、设计方法和算法,而且涵盖了一系列具有代表性的应用。
书中首先介绍相关基础知识,探讨带拒绝的模式识别问题的原理,涉及特征空间构成、基本分类器设计,以及实例研究、任务评估、架构评估等。之后集中讨论信息粒和信息粒度,涉及信息粒的概念、设计和聚类,以及数据质量的量化和处理等。

本书特色
引入全新的研究视角,关注数据质量的问题,通过建立新的模式识别框架来应对复杂数据的挑战。
遵循自顶向下的策略,从概念和动机出发,讨论设计细节,并通过实例帮助读者理解具体算法。
内容完整且相对独立,提供必要的预备知识,通过精心挑选和组织的章节逐步加深对概念的阐释。

作者简介
伍拉迪斯罗·霍曼达(W?adys?aw Homenda) 波兰华沙理工大学数学与信息科学学院教授,主要研究兴趣包括知识表示与处理、智能计算、模糊建模、粒度计算和数据挖掘等。
维托德·派提兹(Witold Pedrycz) 波兰科学院系统研究所教授,兼任加拿大阿尔伯塔大学电子与计算机工程系教授。IEEE会士,加拿大皇家学会会士。主要研究兴趣包括智能计算、信息处理、人工智能等。

译者简介
张轶 四川大学计算机学院副教授,研究方向为模式识别、视觉计算和机器智能,担任“模式识别”课程的主讲教师。

作者简介

[波]伍拉迪斯罗·霍曼达(Władysław Homenda) [加]维托德·派提兹 (Witold Pedrycz) 著:---作者简介---
伍拉迪斯罗·霍曼达(Władysław Homenda) 波兰华沙理工大学数学与信息科学学院教授,主要研究兴趣包括知识表示与处理、智能计算、模糊建模、粒度计算和数据挖掘等。

维托德·派提兹(Witold Pedrycz) 波兰科学院系统研究所教授,兼任加拿大阿尔伯塔大学电子与计算机工程系教授。IEEE会士,加拿大皇家学会会士。主要研究兴趣包括智能计算、信息处理、人工智能等。

---译者简介---
张轶,四川大学计算机学院副教授,研究方向为模式识别、视觉计算和机器智能,担任“模式识别”课程的主讲教师。

译者序

现代计算机具有强大的计算和信息处理能力,但其目标识别、环境感知和决策等能力还远不如生物系统。目前有诸多学科试图从不同角度、以不同方法来研究并揭示其中的奥秘,包括计算机视觉、认知科学、生物信息学,以及当下热门的人工智能。而模式识别(也叫模式分类)则是这些学科的理论基础,通过计算机使用数学技术来研究模式的自动处理和判读。模式识别因其对问题的明确定义、严格的数学基础和广泛的应用领域,获得了越来越多的重视。本书适合作为高等院校计算机、电子信息、自动化等专业高年级本科生和研究生的教材,也可供信息处理、机器人学、地球物理、生物信息等交叉领域的专业人员参考。
传统模式识别教材的内容通常涉及贝叶斯决策理论、线性和非线性判别函数、近邻规则、经验风险最小化、特征提取和选择、聚类分析、人工神经网络、模糊模式识别、模拟退火和遗传算法,以及统计学习理论和支持向量机等内容。然而,随着新问题的日益增多,现有的这些模式识别理论和系统已逐渐无法应对新的挑战。鉴于此,研究人员和学者都需要一本从全新角度来分析模式识别问题的著作。本书在现有理论的基础上新增了关于数据质量的章节,从而带来了关于异类样本拒绝、信息粒和粒度计算以及数据填补三个方面的全新认识。本书不仅系统地剖析了模式识别的基本概念和设计方法,对算法进行了详尽的介绍,同时还列举了一系列具有代表性的应用。
本书作者是华沙理工大学的Wadysaw Homenda教授和波兰科学院的Witold Pedrycz教授。其中,Wadysaw Homenda教授是信息处理和系统方面的专家。Witold Pedrycz教授长期从事智能计算、信息处理、模糊系统、人工智能、遗传算法等相关领域的研究,为混杂智能系统的智能学习、知识挖掘与表达领域的研究做出了重要贡献,研究工作得到了世界范围内同行的广泛关注和认可。Witold Pedrycz教授是IEEE会士、加拿大皇家学会会士,并担任历年“IFSA/NAFIPS World Congress”“IEEE International Conference on Fuzzy Systems”“IEEE Congress on Computational Intelligence”等智能计算领域知名会议的主席或委员;自2000年至今还担任了IEEE Trans.SMC、IEEE Trans.Fuzzy Systems等多个国际知名期刊的编辑,以及IEEE Trans.SMCA、Information Sciences等杂志的主编。
本书的翻译是四川大学视觉合成图形图像技术国家重点学科实验室团队共同努力的结果,感谢团队成员蒋洁、倪苒岩、孟飞妤和周雨馨做出的贡献。
在翻译过程中,我们力求准确反映原著内容,同时保持原著的风格。但由于译者水平有限,书中难免有不妥之处,恳请读者批评指正。

图书目录

译者序
前言
第一部分 基础知识
第1章 模式识别:特征空间的构建2
 1.1 概念2
 1.2 从样本到特征5
  1.2.1 向量型特征7
  1.2.2 特征变换:从向量型到向量型8
  1.2.3 特征变换:从向量型到数值型9
  1.2.4 数值型特征10
 1.3 特征尺度化12
  1.3.1 特征归一化13
  1.3.2 标准化14
  1.3.3 特征尺度的经验评价15
 1.4 特征评估和选择18
  1.4.1 相关性18
  1.4.2 特征评估:两种方法20
  1.4.3 基于指数的特征评估:单特征与特征集21
  1.4.4 特征评估指数21
  1.4.5 基于指数的方法和基于包装的方法23
  1.4.6 使用指数和分类器的单特征评估方案24
  1.4.7 特征子集的选择27
  1.4.8 特征子集的生成29
 1.5 结论37
 附录1.A38
 附录1.B40
 参考文献40
第2章 模式识别:分类器42
 2.1 概念42
 2.2 最近邻分类方法43
 2.3 支持向量机分类算法45
  2.3.1 线性可分类的线性划分46
  2.3.2 线性不可分类的线性划分48
  2.3.3 线性不可分类的非线性划分50
 2.4 分类问题中的决策树52
  2.4.1 决策树一览52
  2.4.2 特征分解57
  2.4.3 度量类的差异性57
  2.4.4 选择一个分解特征60
  2.4.5 限制树的结构61
 2.5 集成分类器62
  2.5.1 袋装63
  2.5.2 提升64
  2.5.3 随机森林65
 2.6 贝叶斯分类器67
  2.6.1 应用贝叶斯理论67
  2.6.2 最小化错分概率68
  2.6.3 最小化损失69
  2.6.4 拒绝不确定样本70
  2.6.5 类条件概率分布71
 2.7 结论79
 参考文献79
第3章 分类拒绝问题规范及概述82
 3.1 概念82
 3.2 拒绝架构的概念87
 3.3 基于原始样本的拒绝91
  3.3.1 构建拒绝机制91
  3.3.2 全局拒绝架构下的拒绝机制92
  3.3.3 局部拒绝架构下的拒绝机制95
  3.3.4 嵌入式拒绝架构下的拒绝机制96
 3.4 原始样本数据集中的拒绝选项:案例研究97
  3.4.1 数据集97
  3.4.2 构建一个树形二值分类器100
  3.4.3 针对手写数字数据集构建一个树形二值分类器101
  3.4.4 针对手写数字数据集构建一个带拒绝的树形二值分类器103
  3.4.5 拒绝被错分的原始样本:一些想法105
 3.5 结论106
 参考文献106
第4章 评估模式识别问题108
 4.1 评估带拒绝项的识别:基本概念108
  4.1.1 评估拒绝的效率108
  4.1.2 不平衡原始集与异类集109
  4.1.3 度量拒绝质量的有效性110
  4.1.4 分离原始样本和异类样本111
  4.1.5 对多类原始样本的适应112
  4.1.6 评估带拒绝项的多类分类问题113
  4.1.7 说明性示例114
 4.2 没有异类样本时带拒绝的分类问题117
 4.3 带拒绝的分类:局部特征120
  4.3.1 多类问题的特性描述120
  4.3.2 说明性示例122
 4.4 结论125
 参考文献126
第5章 带拒绝的识别:经验分析127
 5.1 实验结果127
  5.1.1 拒绝架构的对比128
  5.1.2 减少特征集数量131
  5.1.3 分类器质量与拒绝性能133
  5.1.4 用于处理不平衡数据集的带拒绝的分类137
 5.2 几何方法140
  5.2.1 超矩形141
  5.2.2 椭球体142
  5.2.3 在几何模型中限制为原始样本保留的区域143
  5.2.4 文献评论153
 5.3 结论155
 参考文献155
第二部分 高级主题:粒度计算框架
第6章 信息粒的概念158
 6.1 信息粒度和粒度计算158
 6.2 信息粒度的正式平台161
 6.3 区间和区间微积分164
 6.4 模糊集微积分166
  6.4.1 模糊集的隶属函数和类167
  6.4.2 三角范数和三角余模作为模糊集上运算的模型170
 6.5 信息粒的特征:覆盖率和特异性173
 6.6 信息粒匹配176
 6.7 结论177
 参考文献177
第7章 信息粒:基本构造179
 7.1 合理粒度原则179
  7.1.1 一般观察182
  7.1.2 加权数据182
  7.1.3 抑制性数据183
 7.2 对设计有价值的信息粒度184
  7.2.1 粒映射184
  7.2.2 信息粒度分配协议187
  7.2.3 粒度聚合:通过分配信息粒度增强聚合操作187
 7.3 时间序列模型中暂存数据的单步和多步预测188
 7.4 高级类型的粒模型的开发189
 7.5 粒样本的分类192
  7.5.1 分类问题的公式化193
  7.5.2 从数值数据到粒数据193
  7.5.3 粒分类器:增强问题195
 7.6 结论195
 参考文献196
第8章 聚类197
 8.1 模糊c均值聚类方法197
 8.2 k均值聚类算法201
 8.3 带有聚类和变量加权的增强模糊聚类201
 8.4 基于知识的聚类202
 8.5 聚类结果的质量202
 8.6 信息粒与聚类结果解释204
  8.6.1 数字原型的粒度描述符的形成204
  8.6.2 数据粒度及其在FCM算法中的融合205
 8.7 层次聚类205
 8.8 隐私问题中的信息粒:微聚集的概念208
 8.9 更高类型信息粒的开发208
 8.10 实验研究209
 8.11 结论217
 参考文献218
第9章 数据质量:填补和数据平衡219
 9.1 数据填补:基本概念和关键问题219
 9.2 填补方法的选定类别220
 9.3 利用信息粒进行填补221
 9.4 基于合理粒度原则的颗粒填补222
 9.5 基于模糊聚类的颗粒填补225
 9.6 系统建模中的数据填补226
 9.7 不平衡数据及其粒度特征227
  9.7.1 数据平衡的主要方法:概述228
  9.7.2 过采样数据的粒度表示229
 9.8 结论231
 参考文献231

教学资源推荐
作者: 曹其新 庄春刚 等编著
作者: [美]梅尔亚·莫里(Mehryar Mohri) 阿夫欣·罗斯塔米扎达尔(Afshin Rostamizadeh) 阿米特·塔尔沃卡尔(Ameet Talwalkar) 著
作者: [斯洛文尼亚] 马塔伊·米赫尔(Matjaž Mihelj) 塔代·巴吉(Tadej Bajd), 阿尔斯·乌德(Aleš Ude) 贾德兰·勒纳里奇(Jadran Lenarčič) 阿尔斯·斯坦诺夫尼克(Aleš Stanovnik), 马尔科·穆尼(Marko Munih),尤里·雷吉(Jure Rejc)塞巴斯蒂安·斯拉杰帕(Sebastjan Šlajpah) 著
作者: [美] 杰瑞米·瓦特(Jeremy Watt) 雷萨·博哈尼(Reza Borhani) 阿格洛斯·K.卡萨格罗斯(Aggelos K. Katsaggelos) 著
参考读物推荐
作者: [美]托马斯·H. 达文波特(Thomas H. Davenport) 著
作者: 杨强 张宇 戴文渊 潘嘉林 著
作者: 吴茂贵 郁明敏 杨本法 李涛 张粤磊 著