本书结合两个重要和流行的研究领域:复杂网络和机器学习,不仅包括基础背景知识,还包含近期最新的研究进展。书中包括大量插图和例题帮助读者理解主要思想和实现细节。
无
机器学习是计算机科学的一个重要研究领域之一,主要指计算机利用已有的经验来获得学习能力的一种计算方法。虽然已经有众多的机器学习方法被提出并且在各类实际系统中成功应用,但是仍然有很多挑战性的问题需要解决。在过去的几年里,基于复杂网络(大规模的具有复杂连接模式的图)的机器学习方法越来越受到关注。该方法的出现是因为其具有内在的优点,即数据表示是基于网络特性的,能有效捕获数据的空间、拓扑和功能关系。本书介绍了在机器学习领域复杂网络理论的特性和优势。在前七章,我们首先介绍机器学习和复杂网络的一些基本概念,提供必要的背景知识。然后,简要描述基于网络的机器学习技术。在后三章,我们将介绍一些基于网络的监督学习、无监督学习和半监督学习方法,并提供详细的案例分析。特别是,针对无监督和半监督学习,我们探讨了使用随机非线性动力系统的粒子竞争技术。同时,分析了竞争系统内的各类影响因素,以确保该技术的有效性。另外,对于学习系统存在的不完善性,比如半监督学习的数据可靠性问题,可以采用竞争机制来消除训练数据集的缺陷。识别并预防误差传播具有重要的实际意义,但文献中关于这方面的研究很少。在案例分析中,我们提出了一个结合低阶和高阶的混合监督分类技术,低阶项通过传统的分类方法实现,而高阶项通过提取由输入数据构造的底层网络的特征实现。换句话说,其主要思路是低阶项利用数据的物理特征实现测试样本的分类,而高阶项进行测试样本模式的一致性检验。可以看出,该技术可以根据数据的语义特征实现样本分类。
本书旨在融合两个目前被广泛研究的领域:机器学习和复杂网络。所以,我们希望本书能在科学界引起更多学者的兴趣。本书是自成体系的,介绍基于网络的机器学习技术的建模、分析和应用,不仅包含两个领域的基础知识,还介绍了一些新的研究成果,主要面向对机器学习和复杂网络感兴趣的研究人员和学生。对于每一个可探索的话题,我们还提供了相应的参考文献。此外,众多的说明性图例也可以帮助读者理解各类方法的主要思路和实现细节。
致谢
感谢Marcos Gonalves Quiles博士、Fabricio Aparecido Breve博士、Joo Roberto Bertini Jr博士、Thiago Henrique Cupertino博士、Andrés Eduardo Coca Salazar博士、Bilz Marques de Araújo博士、Thiago Ferreira Coves博士、Elbert Einstein Nehrer Macau博士、Alneu Andrade Lopes博士、Xiaoming Liang博士、Zonghua Liu博士、Antonio Paulo Galdeano Damiance Junior先生、Tatyana Bitencourt Soares de Oliveira女士、Lilian Berton女士、Jean Pierre Huertas Lopez先生、Murillo Guimares Carneiro先生、Leonardo Nascimento Ferreira先生、Fabio Willian Zamoner先生、Roberto Alves Gueleri先生、Fabiano Berardo de Sousa先生、Filipe Alves Neto Verri先生和Paulo Roberto Urio先生过去的几年里在该领域内的合作。感谢Jorge Nakahara Jr博士仔细审阅了本书,并在整个出版过程中给予我们持续支持。感谢YingCheng Lai博士引导我们进入迷人的复杂网络研究领域。感谢Hamlet Pessoa Farias Junior先生和Victor Dolirio Ferreira Barbosa先生热烈的讨论成果。也要感谢Joo Eliakin Mota de Oliveira先生为我们提供了两张图。同时,感谢巴西圣保罗大学数学与计算机科学研究所(ICMC)和里贝朗普雷图分校哲学、科学与文学学院,以及巴西中央银行的大力支持。最后,感谢巴西圣保罗研究基金会(FAPESP)、巴西国家科学技术发展委员会(CNPq)和巴西高等教育基金会(CAPES)为我们的研究工作提供资金支持。
Thiago Christiano Silva
Liang Zhao
巴西,巴西利亚和里贝朗普雷图
2015年11月
计算机/人工智能/机器学习
本书将机器学习和复杂网络这两个热点研究领域结合起来,不仅包括必备的基础知识,还涵盖新近的研究成果,并且对监督学习、无监督学习和半监督学习方法的案例进行了详细分析,适合计算机科学和工程方向的研究人员和学生阅读。
本书特色
针对无监督和半监督学习,研究了使用随机非线性动力系统的粒子竞争技术,并提出了模型的解析方法,使研究人员能够快速利用该技术进行预测分析。
针对半监督学习中的数据噪声和可靠性问题,采用广泛使用的真实数据集和人工合成数据集,通过竞争机制消除训练数据集的缺陷,填补了这项重要的实践在理论研究方面的空白。
针对网络环境下的机器学习技术,提出了一种结合低阶和高阶学习的混合监督分类技术,低阶项可通过传统的分类技术实现,而高阶项可通过从输入数据构建的网络提取拓扑特征来实现,证明了高阶项能够根据数据语义实现分类。
作者简介
迪亚戈·克里斯蒂亚诺·席尔瓦(Thiago Christiano Silva) 巴西中央银行研究员,博士毕业于巴西圣保罗大学,目前的研究领域包括机器学习、复杂网络、金融稳定性、系统风险和银行业务等。
赵亮(Liang Zhao) 巴西圣保罗大学教授,计算机科学与数学系主任,博士毕业于巴西航空技术学院,目前的研究兴趣包括机器学习、复杂网络、人工神经网络和模式识别。
[巴西]迪亚戈·克里斯蒂亚诺·席尔瓦(Thiago Christiano Silva) 赵亮(Liang Zhao) 著:迪亚戈·克里斯蒂亚诺·席尔瓦(Thiago Christiano Silva) 巴西中央银行研究员,博士毕业于巴西圣保罗大学,目前的研究领域包括机器学习、复杂网络、金融稳定性、系统风险和银行业务等。
赵亮(Liang Zhao) 巴西圣保罗大学教授,计算机科学与数学系主任,博士毕业于巴西航空技术学院,目前的研究兴趣包括机器学习、复杂网络、人工神经网络和模式识别。
2017年年初,谷歌旗下DeepMind团队开发的AlphaGo升级版Master战胜了柯洁、陈耀烨、李世石、三村智保等中日韩顶尖围棋手,取得60胜0负的辉煌战绩。这又一次促使人工智能相关话题迅速升温,越来越多的公司开始开展人工智能技术研究,越来越多的从业人员开始进入该领域寻求机会。同时,人工智能技术确实也在影响着我们的生活,如帮助医生进行医疗诊断,帮助房产公司评估资产价值,帮助物流公司规划路径等。
机器学习是实现人工智能的一种方法,其概念来自早期的人工智能学者。机器学习分为监督学习、半监督学习和无监督学习,目前常用的算法有决策树、逻辑斯谛回归、朴素贝叶斯、k均值等。简单来说,机器学习就是使用算法分析数据,并根据学习到的模型做出推断或预测。
虽然已经有众多的机器学习方法被提出并且在各类实际系统中成功应用,但是仍然有很多挑战性的问题需要解决。近年来,随着社交网络的快速发展,数据规模暴增,特别是本身就呈现网络特征的数据样本急剧增加,促使基于复杂网络的机器学习方法被广泛关注。
本书的两位作者Thiago Christiano Silva和Liang Zhao长期从事复杂网络和机器学习的交叉研究。他们深知基于网络的机器学习技术的内在优点,并经多方面调研论证,将多年的研究成果汇聚成书,供各领域的研究人员参考学习。
这种学科交叉融合带来的良性互动,无疑促进了包括复杂网络、机器学习在内的诸多学科的繁荣。这也正是本书的目的和意义。
感谢本书的作者Liang Zhao教授给予大力支持,他提供的方便使得本书的翻译工作能够及时完成。
感谢机械工业出版社华章分社的编辑,是他们的远见使得本书能够快速与读者见面。
感谢第一译者的爱人乜超参与我们的校对工作。
由于译者水平有限,译文中难免出现词不达意的问题。文中的错误和不当之处,希望读者与我们联系,以便不断改进。意见请发往lzquancumtb@126.com或yangzhaocumtb@126.com,我们将不胜感激。
李泽荃
2018年6月1日于北京
译者序
前言
作者简介
符号列表
第1章概述
11背景
12本书主要内容
13本书结构
参考文献
第2章复杂网络
21图论简介
211图的定义
212图的连通性
213路径和环路
214子图
215树和森林
216图的矩阵表示
22网络演化模型
221随机网络
222小世界网络
223无标度网络
224随机聚类网络
225核心边缘网络
23复杂网络的统计描述
231度和度相关性
232距离和路径
233网络结构
234网络中心性
235复杂网络度量方法的分类
24复杂网络上的动力学过程
241随机游走
242惰性随机游走
243自避行走
244游客漫步
245流行病传播
25本章小结
参考文献
第3章机器学习
31引言
32监督学习
321数学表达式和基本假设
322主要算法
33无监督学习
331数学表达式和基本假设
332主要算法
34半监督学习
341研究目的
342数学表达式和基本假设
343主要算法
35基于网络的机器学习方法概述
36本章小结
参考文献
第4章网络构建技术
41引言
42相似性与相异性
421定义
422基于向量形式的相似性函数实例
43向量数据的网络转化
431k近邻和半径网络
432k近邻和半径组合的网络构建技术
433b匹配网络
434线性邻域网络
435松弛线性邻域网络
436聚类启发式网络
437重叠直方图网络
438其他网络构建技术
44时间序列数据的网络转化
441周期网络
442相关网络
443循环网络
444转移网络
45网络构建方法分类
46非结构化数据网络转化的难点
47本章小结
参考文献
第5章基于网络的监督学习
51引言
52典型的基于网络的监督学习技术
521基于k关联图的分类算法
522网络学习工具:NetKit
523易访问启发式的分类算法
53本章小结
参考文献
第6章基于网络的无监督学习
61引言
62社团检测算法
621相关概念
622数学表达式和基本假设
623前沿技术综述
624社团检测基准
63典型的基于网络的无监督学习技术
631介数
632模块度最大化
633谱平分法
634基于粒子竞争模型的社团检测
635变色龙算法
636基于空间变换和群体动力学的社团检测
637同步方法
638重叠社团挖掘
639网络嵌入与降维
64本章小结
参考文献
第7章基于网络的半监督学习
71引言
72数学假设
73典型的基于网络的半监督学习技术
731最大流和最小割
732高斯随机场和调和函数
733Tikhonov正则化框架
734局部和全局一致性算法
735附着法
736模块化方法
737相互作用力
738判别式游走
74本章小结
参考文献
第8章基于网络的监督学习专题研究:高级数据分类
81引言
82问题提出
83高级分类模型
831高级分类模型的总体思路
832混合分类框架的构建
84高级分类器的构建方法
841传统的基于网络度量方法的高级分类器构建
842基于随机游走的高级分类器构建
85高级分类器的数值分析
851高级分类器应用样本
852参数敏感性分析
86应用:手写数字识别
861相关研究
862手写数字数据集MNIST
863图像相似性计算算法
864混合分类框架中的低级分类技术
865混合分类器的性能
866手写数字识别样本87本章小结
参考文献
第9章基于网络的无监督学习专题研究:随机竞争学习
91引言
92随机竞争学习算法模型
921模型原理
922转移矩阵的推导
923随机非线性动力系统的定义
924计算社团数目的方法
925重叠结构的检测方法
926参数敏感性分析
927收敛分析
93模型的理论分析
931数学分析
932粒子竞争模型与传统的多粒子随机游走
933样本分析
94重叠节点及社团检测的数值分析
941扎卡里空手道俱乐部网络
942海豚社交网络
943《悲惨世界》人物关系网络
95应用:手写数字识别和字母聚类
951数据集情况
952最优粒子数和集簇数
953手写数字或字母聚类
96本章小结
参考文献
第10章基于网络的半监督学习专题研究:随机竞争合作学习
101引言
102随机竞争合作模型
1021半监督学习与无监督学习的差异
1022半监督学习环境
1023竞争转移矩阵的修正
1024系统初始条件的修正
103模型的理论分析
1031数学分析
1032样本分析
104模型的数值分析
1041人工合成数据集上的模拟
1042真实数据集上的模拟
105应用:错误标记数据集上的错误标签传播检测和预防
1051问题提出
1052错误标记训练集的检测
1053错误标签传播的预防
1054竞争合作模型学习系统的修正
1055参数敏感性分析
1056计算机模拟
106本章小结
参考文献