本书从数据挖掘的角度,介绍了社会媒体的基本特征,给出采用社会媒体进行计算的代表性任务,并展示出相关的挑战。
社会计算
社区发现和社会媒体挖掘
Community Detection and Mining in Social Media
Lei Tang Huan Liu 著 文益民 闭应洲 译
在刚过去的十年我们见证了共享Web和社会媒体的诞生,它们用各种富有创意的方式将人们联系在一起。目前,成千上万的用户忙着在线玩、加标签、工作以及开展社交活动,合作、通信和智能正采取着前所未有的新形式。社会媒体的出现促进了商业模式的改变,影响了人们观点和情感的沟通,为大规模地研究人际交互和集体行为提供了无数机会。
本书从数据挖掘角度介绍社会媒体的性质,评述社会媒体计算的代表性成果,并描述社会媒体带来的挑战。书中介绍了基本概念,使用浅显易懂的例子展示最新的和有效的评价方法。特别是讨论了基于图的社区发现技术并对处理社会媒体中动态的、混杂的网络进行了重要延伸。另外还展示了发现的社区模式怎样用于社会媒体挖掘。本书中的概念、算法和方法能够帮助人们更好地利用社会媒体,并为建立社会化智能系统提供支持。本书是研究社会媒体中社区发现与挖掘技术的入门级读物,适合以数据为中心的社会媒体学科的学生、研究者和实践者阅读。
本书网站http://dmml.asu.edu/cdm/提供了讲课幻灯片、书中所有的图、主要的参考文献、书中使用的一些小型数据集,以及一些代表性算法的源代码。
作者简介
Lei Tang(唐磊) 2010年于亚利桑那州立大学获博士学位,现为雅虎实验室研究员。他的研究方向包括:社会计算、数据挖掘和社会媒体挖掘,尤其是混杂网络的关系学习、群体进化、特征抽取和影响建模以及社会媒体中的集体行为建模与预测。他是ACM和IEEE会员。
Huan Liu(刘欢) 南加州大学获博士学位,现为亚利桑那州立大学计算机科学与工程教授。他的研究方向包括:数据/网络挖掘、机器学习、社会计算、人工智能等。他是社会计算、行为建模和预测(SBP)国际会议/专题研讨会(http://sbp.asu.edu/)的发起者,同时是AAAI、ACM、ASEE和IEEE的会员。
计算机科学及应用
在刚过去的十年我们见证了共享Web和社会媒体的诞生,它们用各种富有创意的方式将人们联系在一起。目前,成千上万的用户忙着在线玩、加标签、工作以及开展社交活动,合作、通信和智能正采取着前所未有的新形式。社会媒体的出现促进了商业模式的改变,影响了人们观点和情感的沟通,为大规模地研究人际交互和集体行为提供了无数机会。
本书从数据挖掘角度介绍社会媒体的性质,评述社会媒体计算的代表性成果,并描述社会媒体带来的挑战。书中介绍了基本概念、使用浅显易懂的例子展示最新的和有效的评价方法。特别是,讨论了基于图的社区发现技术并对处理社会媒体中动态的、混杂的网络进行了重要延伸。我们也展示了发现的社区模式怎样用于社会媒体挖掘。本书中的概念、算法和方法能够帮助人们更好地利用社会媒体,并为建立社会化智能系统提供支持。本书是研究社会媒体中的社区发现与挖掘技术的入门级读物,适合以数据为中心的社会媒体学科的学生、研究者和实践者阅读。
本书网站http://dmml.asu.edu/cdm/提供了讲课幻灯片、书中所有的图、主要的参考文献、书中使用的一些小型数据集,以及一些代表性算法的源代码。
(美)Lei Tang Huan Liu 著:Lei Tang(唐磊)2010年于亚利桑那州立大学获博士学位,现为雅虎实验室研究员。他的研究方向包括:社会计算、数据挖掘和社会媒体挖掘,尤其是混杂网络的关系学习、群体进化、特征抽取和影响建模以及社会媒体中的集体行为建模与预测。他是ACM和IEEE会员。 Huan Liu(刘欢)南加州大学获博士学位,现为亚利桑那州立大学计算机科学与工程教授。他的研究方向包括:数据/网络挖掘、机器学习、社会计算、人工智能等。他是社会计算、行为建模和预测(SBP)国际会议/专题研讨会(http://sbp.asu.edu/)的发起者,同时是AAAI、ACM、ASEE和IEEE的会员。
文益民 闭应洲 译:暂无简介
Web在过去十年当中得到了快速发展,涌现出许多用户参与的Web应用程序和社会信息网络,其中包括博客、论坛、共享媒体平台、微博、社会网络、社会新闻、社会书签和维基百科,学术界称其为社会媒体。与传统的Web应用和传统的媒体相比,上述社会媒体具有一个共同的特点:广大用户既是内容、信息和知识的消费者同时也是相应的生产者。由大量用户“贡献”的海量社会行为数据,为观测和研究社会创造了前所未有的条件。社会媒体的另一个显著特点在于它具有丰富的用户交互特性。通过互动,用户之间产生了相互关系。比如,微博中的关注关系、社会网络中的好友关系、在线商店中因共同购买或评论产品形成的共同兴趣关系等。这导致了各种用户关系网络的涌现。利用数百万甚至数以亿计的用户在线娱乐、在线工作和在线社交所产生的海量数据,可以进行前所未有的大规模社会网络分析,为研究人类的交互和集体行为提供了新的机会。
传统的社会学研究往往使用调查、问卷、面谈、参与者观察与统计的形式获取数据,所使用的数据规模较小,并且难以得到个人完整的信息行为记录。因此,传统研究的成果更多来源于直观认识,缺乏基于大规模真实数据的实验验证。社会媒体给人们提供了一个研究人类社会的新平台。计算社会学认为:网络上的大量信息,如博客、论坛、聊天、消费记录、电子邮件等,都是现实社会的人或组织的行为在网络空间的映射。这些网络数据可以用来分析个人或群体的行为模式,从而深化我们对社会的了解。就像大规模基因数据催生了生物信息学一样,海量的社会数据催生了社会计算,即以计算手段研究社会学中的定性问题并解决传统社会学中的实验问题。
本书作者在社会媒体挖掘和社会计算方面进行了深入的研究,不仅熟稔社会计算的理论研究,而且具有非常丰富的社会计算应用经验。本书介绍了社会计算的基础知识,描述了社区发现的典型方法,并讨论了社区发现评价的问题,阐述了混杂社会网络中的社区发现问题和社会媒体挖掘技术。本书英文版深受读者欢迎,在Morgan &Claypool出版的数据挖掘和知识发现综合类电子书中,该书的下载量最高(http://wwwmorganclaypoolcom/action/showMostReadArticles?journalCode=dmk)。全书笔调清新,简明易懂。无论对社会计算感兴趣的学生还是专业人士,都非常值得一读。
感谢本书作者Lei Tang(唐磊)博士和Huan Liu(刘欢)教授。他们多次仔细阅读本书译稿,提出了许多宝贵意见。他们还专门为本书的中文版撰写了序言。
感谢机械工业出版社华章分社的编辑们,是他们对学术的敏感和细致的工作使得本书中文版能够尽快与读者见面。
最后,由于译者水平有限,译文中难免存在问题,敬请专家和读者指正。
文益民 闭应洲
2012年9月于凤凰城
出版者的话
中文版序
译者序
译者简介
致谢
第1章社会媒体与社会计算
11社会媒体
12概念与定义
121网络与表示
122大规模网络的属性
13挑战
14社会计算的任务
141网络建模
142中心性分析与影响建模
143社区发现
144分类与推荐
145隐私、垃圾信息与安全
15总结
第2章结点、联系和影响
21结点的重要性
22联系的强度
221从网络拓扑中学习
222从用户特点和交互中学习
223从用户行为序列中学习
23影响建模
231线性阈值模型
232独立级联模型
233影响最大化
234影响和相关的区别
第3章社区发现与评价
31以结点为中心的社区发现
311完全的相互关系
312可达性
32以群组为中心的社区发现
33以网络为中心的社区发现
331顶点相似性
332隐含空间模型
333块模型近似
334谱聚类
335模块度最大化
336一个统一的过程
34以层次为中心的社区发现
341分裂式层次聚类
342聚合式层次聚类
35社区评价
第4章混杂网络中的社区发现
41混杂网络
42多维网络
421网络集成
422效用集成
423特征集成
424划分集成
43多模网络
431双模网络的联合聚类
432多模网络
第5章社会媒体挖掘
51社会媒体中的演化模式
511研究社区演化的朴素方法
512平滑演化网络中的社区演化
513处理网络演化的基于片段的聚类算法
52网络数据的分类
521集体分类
522基于社区的学习
523总结
附录A数据收集
附录B介数计算
附录Ck均值聚类
参考文献
索引