教学资源 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 318

开本 : 16

原书名 : Search Engines: Information Retrieval in Practice

原出版社: Pearson Education Asia

属性分类: 教材

包含CD : 无

绝版 : 无

图书简介

本书介绍了信息检索（IR）中的关键问题，以及这些问题如何影响搜索引擎的设计与实现，并且用数学模型强化了重要的概念。对于网络搜素引擎这一重要的话题，主要涵盖了在网络上使用的搜索技术。

图书特色

搜索引擎
信息检索实践
Search Engines
Information Retrieval in Practice
W. Bruce Croft　Donald Metzler　Trevor Strohman

本书介绍了信息检索（IR）中的关键问题，以及这些问题如何影响搜索引擎的设计与实现，并且用数学模型强化了重要的概念。对于网络搜索引擎这一重要的话题，书中主要涵盖了在网络上广泛使用的搜索技术。
本书适用于高等院校计算机科学或计算机工程专业的本科生、研究生，对于专业人士而言，本书也不失为一本理想的入门教材。

W. Bruce
马萨诸塞大学阿默斯特分校计算机科学特聘教授、ACM会士。他创建了智能信息检索研究中心，发表了200余篇论文，多次获奖，其中包括2003年由ACM SIGIR颁发的Gerard Salton奖。

Donald Metzler
马萨诸塞大学阿默斯特分校博士，是位于加州Santa Clara的雅虎研究中心搜索与计算机广告组的研究科学家。

Trevor Strohman
马萨诸塞大学阿默斯特分校博士。他开发了Galago搜索引擎，也是Indri搜索引擎的主要开发者。

图书前言

本书综述了信息检索中的重要问题，并介绍了这些问题如何对搜索引擎的设计与实现产生影响。本书并不是按照相同的详细程度描述每个主题，相反，我们侧重于那些对于实现搜索引擎组件以及组件背后的信息检索模型最重要的部分。网络搜索引擎显然是一个重要的话题，我们主要覆盖了在网络上使用的搜索技术，但搜索引擎在其他场合中也有应用，这就是为什么我们重点强调各种搜索引擎背后的信息检索理论与概念的原因。
　　本书的目标读者群主要是计算机科学或计算机工程的本科生，但研究生也会发现本书是有用的，此外，本书也适合多数情报科学专业的学生。最后，无论读者是什么背景，通过阅读本书都可以对他们动手开发搜索引擎有所帮助。本书中涉及数学知识，但并不深奥。书中也有代码和程序设计的练习，但对于那些已经完成了基本计算机科学与程序设计课程的人来说，完全可以掌握。
　　每章末尾的练习使用了被称为Galago的基于Java的开源搜索引擎。Galago既是为本书所设计的，也借鉴了Lemur和Indri项目的经验。换句话说，这是一个功能齐全的能够支持真正应用的搜索引擎。许多编程练习都是针对Galago组件的使用、修改和扩展。
内容
　　在第1章，我们对信息检索及它与搜索引擎的关系做了一个高层次的回顾。在第2章，我们描述了搜索引擎的架构，这一章全面介绍搜索引擎的各个组件，但没有涉及细节问题。在第3章，我们关注于爬取、文档信息源和其他用于获取被检索信息的技术。第4章描述了文本的统计特征，以及用来处理和识别重要特征的技术，并为建立索引做准备。第5章描述了怎样为有效的搜索建立索引，以及怎样利用索引处理查询。在第6章，我们描述了怎样处理查询，并把它们转换为更好的形式，以表达用户的信息需求。
　　第7章介绍排序算法及以这些算法为基础的检索模型。这一章也概述了机器学习技术以及机器学习与信息检索、搜索引擎的关系。第8章描述了用于比较和调整搜索引擎的评价指标和性能指标。第9章覆盖了分类、过滤、聚类和垃圾信息处理等重要技术。社会化搜索一词用于描述一种搜索引擎的应用，这种应用涉及对内容进行标注或者回答问题的社区人群。第10章描述了为这些应用服务的搜索技术以及P2P搜索。最后，在第11章，我们介绍了一些高级搜索技术，这些技术能够从文档中捕获更多内容，而不只是简单地基于词进行计算，其中包括使用语言学特征、文档结构和非文本媒体的内容，如图像和音乐。
　　信息检索理论以及搜索引擎的设计、实现、评价和使用覆盖了太多的话题，以至于无法在一本书中做全部深入的描述。我们试图集中于最重要的主题，同时，对于这些充满挑战也非常有价值的课题，我们也兼顾到各个主题的方方面面。
补充材料
　　本书提供了一定范围的补充材料，这些材料既可以供那些选修这门课的学生使用，也可以供讲授这门课的教师使用，其中包括：
　　课程胶片（PDF或PPT格式）
　　每章末尾问题的参考答案（仅供教师使用）
　　 Galago搜索引擎
致谢
　　首先，也是最重要的，如果没有我们夫人们（Pam Aselton、Anne-Marie Strohman和ShelleyWang）的支持和鼓励，本书是无法完成的。Massachusetts Amherst大学提供了本书准备工作中的素材支持，并给Croft颁发了ContiFaculty Fellowship奖，这显著地提高了本书的成书进程。智能信息检索中心的员工们（Jean Joyce、Kate Moruzzi、Glenn Stowell和Andre Gauthier）在很多方面对我们帮助很大，中心的同事和学生们提供了充满激情的环境，使我们在这个领域的工作很有价值。很多人审阅了本书的部分章节，我们感谢他们给出的建议。最后，不得不提及我们的孩子（Doug、Eric、Evan和Natalie），谢谢他们带来的快乐。

Bruce Croft
Don Metzler
Trevor Strohman

上架指导

计算机科学及应用

封底文字

本书介绍了信息检索（IR）中的关键问题，以及这些问题如何影响搜索引擎的设计与实现，并且用数学模型强化了重要的概念。对于网络搜素引擎这一重要的话题，书中主要涵盖了在网络上广泛使用的搜索技术。
本书适用于高等院校计算机科学或计算机工程专业的本科生、研究生，对于专业人士而言，本书也不失为一本理想的入门教材。

作者简介
W. Bruce Croft 马萨诸塞大学阿默斯特分校计算机科学特聘教授、ACM会士。他创建了智能信息检索研究中心，发表了200余篇论文，多次获奖，其中包括2003年由ACM SIGIR颁发的Gerard Salton奖。
Donald Metzler 马萨诸塞大学阿默斯特分校博士，是位于加州Santa Clara的雅虎研究中心搜索与计算广告组的研究科学家。
Trevor Strohman 马萨诸塞大学阿默斯特分校博士，是Google公司搜索质量部门的软件工程师。他开发了Galago搜索引擎，也是Indri搜索引擎的主要开发者。

加影印版信息（影印版书号ISBN978-7-111-28247-1)

译者简介

刘挺　秦兵　张宇　车万翔　译：暂无简介

译者序

记得1996年，我在北京图书馆的电子阅览室里付费上机检索，查到了一些我感兴趣的英文文献的题录。当时感觉很兴奋，用电脑检索比手工卡片检索方便了许多，但实在无法想象，短短几年后信息检索技术就冲破了科技情报领域的局限，成为普通民众每天都要使用的信息搜索工具。是互联网这项人类历史上伟大的发明，是网上浩如烟海的信息给人类带来的挑战，推动了信息检索技术向海量、高效、多媒体、个性化等方向突飞猛进地发展。
　　在21世纪第二个“十年”到来的今天，越来越多的学者、研发人员、研究生和大学生们投入到搜索引擎的研究与实践中来，他们希望掌握搜索引擎背后的理论和技术，希望了解在搜索引擎设计和开发中的原则和经验，从而为搜索引擎在各个行业的应用以及更具颠覆性的下一代搜索引擎的研发创造条件。
　　本书恰好可以满足这些读者的迫切需求。本书英文版原作者W. Bruce Croft于1979年在英国剑桥大学获得计算机科学博士学位，同年加入University of Massachusetts（Amherst分校）计算机科学系，曾任系主任多年，目前担任该系的特聘教授。1992年，他创建了智能信息检索研究中心，其研究兴趣覆盖信息检索中的多个领域，包括检索模型、Web搜索、查询处理、跨语言检索和搜索架构等。他在1997年被选为ACM Fellow，2000年获得美国信息科学与技术学会的研究奖，2003年获得ACM SIGIR（ACM关于信息检索的特殊兴趣组）的Gerard Salton奖，Salton奖是信息检索领域最受关注的奖励。
　　从作者的简历中可以看到这是一位国际信息检索领域顶尖的学者，他的这本新书一经出版，就以其深入浅出，理论与实践密切结合，覆盖了诸多最新的搜索引擎技术等鲜明特色而获得了业内的普遍好评。机械工业出版社迅速出版了该书的英文版，同时委托我研究中心将其译为中文，以飨读者。
　　在本书的翻译过程中，秦兵教授付出的心血最多，她除了要翻译自己负责的部分以外，还要负责组织、校对等工作，她高度的责任心是本书得以顺利出版的关键。除四位主要译者外，李正华、伍大勇、郎君、赵妍妍、宋巍等多位高年级博士生也参与了部分章节的翻译工作。本书也得到了译者们的恩师李生教授的支持，并得到了他主持的国家自然科学基金重点项目“下一代信息检索研究”（编号60736044）的资助。
译者水平有限，书中疏漏在所难免，敬请读者批评指正。

译　者
2010年3月1日
于哈尔滨工业大学

图书目录

出版者的话
译者序
前言

第1章　搜索引擎和信息检索 1
1.1　什么是信息检索 1
1.2　重要问题 2
1.3　搜索引擎 4
1.4　搜索工程师 5
参考文献和深入阅读 6
练习 6
第2章　搜索引擎的架构 8
2.1　什么是软件架构 8
2.2　基本的构件 8
2.3　组件及其功能 10
2.3.1　文本采集 10
2.3.2　文本转换 12
2.3.3　索引的创建 13
2.3.4　用户交互 14
2.3.5　排序 15
2.3.6　评价 16
2.4　搜索引擎是如何工作的 17
参考文献和深入阅读 17
练习 17
第3章　信息采集和信息源 18
3.1　确定搜索的内容 18
3.2　网络信息爬取 18
3.2.1　抓取网页 19
3.2.2　网络爬虫 20
3.2.3　时新性 22
3.2.4　面向主题的信息采集 24
3.2.5　深层网络 24
3.2.6　网站地图 25
3.2.7　分布式信息采集 26
3.3　文档和电子邮件的信息采集 27
3.4　文档信息源 28
3.5　转换问题 30
3.6　存储文档 31
3.6.1　使用数据库系统 32
3.6.2　随机存取 32
3.6.3　压缩和大规模文件 33
3.6.4　更新 34
3.6.5　 BigTable 35
3.7　重复检测 36
3.8　去除噪声 39
参考文献和深入阅读 42
练习 43
第4章　文本处理 45
4.1　从词到词项 45
4.2　文本统计 46
4.2.1　词表增长 49
4.2.2　估计数据集和结果集大小 51
4.3　文档解析 53
4.3.1　概述 53
4.3.2　词素切分 53
4.3.3　停用词去除 55
4.3.4　词干提取 55
4.3.5　短语和n元串 59
4.4　文档结构和标记 62
4.5　链接分析 63
4.5.1　锚文本 64
4.5.2　 PageRank 64
4.5.3　链接质量 68
4.6　信息抽取 69
4.7　国际化 72
参考文献和深入阅读 73
练习 74
第5章　基于索引的相关排序 76
5.1　概述 76
5.2　抽象的相关排序模型 76
5.3　倒排索引 78
5.3.1　文档 79
5.3.2　计数 81
5.3.3　位置 82
5.3.4　域与范围 83
5.3.5　分数 84
5.3.6　排列 85
5.4　压缩 85
5.4.1　熵与歧义 86
5.4.2　 Delta编码 87
5.4.3　位对齐码 88
5.4.4　字节对齐码 90
5.4.5　实际应用中的压缩 90
5.4.6　展望 91
5.4.7　跳转和跳转指针 92
5.5　辅助结构 93
5.6　索引构建 94
5.6.1　简单构建 94
5.6.2　融合 95
5.6.3　并行与分布式 96
5.6.4　更新 99
5.7　查询处理 99
5.7.1　 document-at-a-time评价 100
5.7.2　 term-at-a-time评价 101
5.7.3　优化技术 102
5.7.4　结构化查询 107
5.7.5　分布式的评价 108
5.7.6　缓存 109
参考文献和深入阅读 109
练习 110
第6章　查询与界面 113
6.1　信息需求与查询 113
6.2　查询转换与提炼 114
6.2.1　停用词去除和词干提取 114
6.2.2　拼写检查和建议 117
6.2.3　查询扩展 121
6.2.4　相关反馈 126
6.2.5　上下文和个性化 128
6.3　搜索结果显示 130
6.3.1　搜索结果页面与页面摘要 130
6.3.2　广告与搜索 132
6.3.3　结果聚类 134
6.4　跨语言搜索 137
参考文献和深入阅读 139
练习 140
第7章　检索模型 142
7.1　检索模型概述 142
7.1.1　布尔检索 143
7.1.2　向量空间模型 144
7.2　概率模型 148
7.2.1　将信息检索作为分类问题 148
7.2.2　 BM25排序算法 151
7.3　基于排序的语言模型 153
7.3.1　查询项似然排序 154
7.3.2　相关性模型和伪相关反馈 158
7.4　复杂查询和证据整合 162
7.4.1　推理网络模型 163
7.4.2　 Galago查询语言 165
7.5　网络搜索 169
7.6　机器学习和信息检索 171
7.6.1　排序学习 172
7.6.2　主题模型和词汇不匹配 174
7.7　基于应用的模型 175
参考文献和深入阅读 176
练习 178
第8章　搜索引擎评价 179
8.1　搜索引擎评价的意义 179
8.2　评价语料 180
8.3　日志 184
8.4　效果评价 186
8.4.1　召回率和准确率 186
8.4.2　平均化和插值 189
8.4.3　关注排序靠前的文档 192
8.4.4　使用用户偏好 194
8.5　效率评价 195
8.6　训练、测试和统计 196
8.6.1　显著性检验 196
8.6.2　设置参数值 200
8.6.3　在线测试 201
8.7　基本要点 201
参考文献和深入阅读 203
练习 203
第9章　分类和聚类 205
9.1　分类 206
9.1.1　朴素贝叶斯 207
9.1.2　支持向量机 212
9.1.3　评价 216
9.1.4　分类器和特征选择 216
9.1.5　垃圾、情感及在线广告 219
9.2　聚类 224
9.2.1　层次聚类和K均值聚类 225
9.2.2　 K近邻聚类 231
9.2.3　评价 232
9.2.4　如何选择K 233
9.2.5　聚类和搜索 234
参考文献和深入阅读 236
练习 236
第10章　社会化搜索 238
10.1　什么是社会化搜索 238
10.2　用户标签和人工索引 239
10.2.1　搜索标签 241
10.2.2　推测缺失的标签 242
10.2.3　浏览和标签云 243
10.3　社区内搜索 244
10.3.1　什么是社区 244
10.3.2　社区发现 245
10.3.3　基于社区的问答 248
10.3.4　协同搜索 251
10.4　过滤和推荐 253
10.4.1　文档过滤 253
10.4.2　协同过滤 258
10.5　 P2P搜索和元搜索 262
10.5.1　分布式搜索 262
10.5.2　 P2P网络 264
参考文献和深入阅读 267
练习 268
第11章　超越词袋 270
11.1　概述 270
11.2　基于特征的检索模型 270
11.3　词项依赖模型 271
11.4　再谈结构化 275
11.4.1　 XML检索 276
11.4.2　实体搜索 277
11.5　问题越长，答案越好 278
11.6　词语、图片和音乐 281
11.7　搜索能否适用于所有情况 286
参考文献和深入阅读 287
练习 289
参考文献 290