大规模元搜索引擎技术
作者 : [美]孟卫一(Weiyi Meng)纽约州立大学宾汉姆顿分校 於德(Clement T. Yu) 伊利诺伊大学芝加哥分校  著
译者 : 朱亮 译
丛书名 : 大数据管理丛书
出版日期 : 2017-05-17
ISBN : 978-7-111-55617-6
定价 : 69.00元
教辅资源下载
扩展信息
语种 : 简体中文
页数 : 159
开本 : 16
原书名 : Advanced Metasearch Engine Technology
原出版社: Morgan & Claypool Publishers, Inc.
属性分类: 教材
包含CD :
绝版 :
图书简介

本书介绍大型的元搜索引擎技术及其主要组成部分:索引擎选择,搜索引擎集成和结果合并,强调这些组件的高度可扩展性和自动化的解决方案,并提供了非常实用的案例。

图书前言

近年来,万维网(World Wide Web,简称Web)已经成为最大的信息源, 开发先进的搜索工具一直是因特网(Internet)技术的一项关键研究和开发工作。由于Google和Yahoo!等主流搜索引擎的普及,目前在Web上的搜索工具中,搜索引擎是人们最为熟知的。虽然这些主流搜索引擎非常成功,但也存在许多严重的局限性。例如,每个搜索引擎仅能覆盖Web上全部可用内容的一小部分;其基于爬虫的技术很难完全达到所谓的深层网(deep Web,也称为深网),虽然这方面最近取得了很大的进展并且紧跟Web内容的变化和扩展而发展。
本书所介绍的大规模元搜索引擎技术具有克服这些主流搜索引擎局限性的潜力。元搜索引擎是一个支持统一访问一些现有搜索引擎的搜索系统。本质上,元搜索引擎将接收到的查询发送给其他的搜索引擎,当这些被调用的搜索引擎返回结果之后,元搜索引擎将这些结果聚集为一个排序列表并展现给用户。虽然开发元搜索引擎的最初动力是其结合多个搜索引擎的搜索范围的能力,但它还有更多的益处,如可以获得更好、更新的结果,能够访问深层网。
本书重点关注大规模元搜索引擎(large-scale metasearch engine)的概念。这种元搜索引擎连接成千上万个搜索引擎。构建和维护大规模元搜索引擎需要先进的元搜索引擎技术,使其一些关键部件具有高度可扩展性和自动化解决方案。本书的目的就是广泛而深入地介绍大规模元搜索引擎技术,对作为Web搜索的竞争技术的大规模元搜索引擎技术的可行性进行了强有力的论证。本书将详细讨论大规模元搜索引擎的主要部件:搜索引擎选择,这一部件用于识别最有可能为任何给定查询提供有用结果的各个搜索引擎;搜索引擎加入,这一部件与各个搜索引擎进行交互,包括从元搜索引擎发送查询给本地搜索引擎以及从不同的搜索引擎返回的响应页面中提取搜索结果;结果合并,这一部件将不同搜索引擎返回的结果合并为一个排序列表。大规模元搜索引擎技术包括高度准确和可扩展的搜索引擎选择算法、高度自动化的搜索引擎加入技术和高效的结果合并方法。
本书可作为Web数据管理和信息检索等Web技术相关课程的部分内容,也可作为Web搜索领域的研究人员和开发人员的参考书。
致谢
对数据管理系列丛书编辑M. Tamer zsu博士表示衷心的感谢,他仔细阅读了全部书稿,并提出了非常有价值及建设性的建议,这些建议对改进本书有很大的帮助。感谢Hongkun Zhao和Can Lin,他们阅读了部分书稿并提出宝贵意见。还要感谢本书的编辑Diane Cerra在写作过程中给予的帮助。

Meng Weiyi和Clement T.Yu
2010年11月

上架指导

计算机\数据库

作者简介

[美]孟卫一(Weiyi Meng)纽约州立大学宾汉姆顿分校 於德(Clement T. Yu) 伊利诺伊大学芝加哥分校  著:
孟卫一(Weiyi Meng) 美国纽约州立大学宾汉姆顿分校计算机科学系的教授。他于1992年获得美国伊利诺伊大学芝加哥分校计算机科学专业的博士学位。他已经发表了100多篇论文。他担任过多个国际会议的主席或程序委员会主席。他是《World Wide Web Journal》杂志的编委,并且是WAIM 国际学术会议系列的指导委员会成员。他的研究方向为元搜索引擎、Web数据集成、基于因特网的信息检索、信息提取和情感分析。在大规模元搜索引擎方面,他做出了开创性的工作。
於德(Clement T. Yu) 美国伊利诺伊大学芝加哥分校计算机科学系教授。他的研究方向为多媒体信息检索、元搜索引擎、 数据库管理以及医疗保健应用。他在这些领域已经发表了200多篇论文。他是分布式和异构环境及文档检索查询处理领域的专家。他曾任ACM SIGIR的主席、国家自然科学基金咨询委员会成员、《IEEE Transactions on Knowledge and Data Engineering》等杂志的编委,以及ACM SIGMOD国际会议的主席和 ACM SIGIR国际会议的程序委员会主席。

译者简介

朱亮 译:暂无简介

译者序

搜索引擎(search engine)已为人们所熟知。“Meta-”意为
“……而上者,……之上者,……之后的,……超越的”;元搜索引擎(metasearch engine)即为“搜索引擎之上的搜索引擎”,最初起源于其结合多个搜索引擎的搜索范围的能力。大规模元搜索引擎有成千上万个成员搜索引擎,它具有克服主流搜索引擎局限性的潜力,可以获得更好、更新的搜索结果,并且能够访问深层网。创建和维护大规模元搜索引擎需要解决许多挑战性的问题。
Weiyi Meng和Clement T.Yu是搜索引擎、信息检索及数据库相关领域的两位著名学者,尤其在大规模元搜索引擎方面做出了开创性的工作。本书广泛而深入地介绍了创建和维护大规模元搜索引擎的先进技术,注重其构造部件的高度可扩展性和自动化解决方案,其中包括他们及其团队开创性的工作。
本书分为6章:第1章介绍相关的概念、术语和知识;第2章概述典型大规模元搜索引擎的体系结构和主要部件;第3章集中讨论搜索引擎选择器;第4章讨论将搜索引擎加入元搜索引擎所需的技术,主要有两个问题,一是关于元搜索引擎与其每个成员搜索引擎之间建立通信的问题,二是关于从响应页面提取搜索结果记录的问题;第5章介绍各种搜索结果合并算法,从几个维度所涵盖的广泛场景讨论这些算法;第6章总结本书论述的主要内容,讨论元搜索引擎技术未来的发展方向,列出具有挑战性的、有待进一步研究的具体问题。
在本书的翻译过程中,得到了各位同仁的帮助和支持,在此深表谢意。刘大中教授、魏勇刚讲师、宋鑫讲师和王煜教授分别对第1章、第2章、第3章和第4章的翻译和相关问题的讨论做出了很大的贡献,并且提出了宝贵意见;马琴教授对译稿进行了校阅并提出了改进建议。本书的著者之一Weiyi Meng教授的鼎力支持和指导性建议,对完成本书的翻译工作起到了至关重要的作用。本套丛书的主编孟小峰教授和姚蕾编辑在翻译过程中给予了很大的帮助。
由于译者水平所限,译文中难免存在错误和不当之处,敬请读者批评指正。

朱亮
2016年9月

图书目录

丛书前言
译者序
前 言
作者简介
第1章 绪言
  1.1 Web上查找信息
    1.1.1 浏览
    1.1.2 搜索
  1.2 文本检索概述
    1.2.1 系统体系结构
    1.2.2 文档表示
    1.2.3 文档-查询匹配
    1.2.4 查询处理
    1.2.5 检索有效性度量
  1.3 搜索引擎技术概述
    1.3.1 Web的专门特性
    1.3.2 Web爬虫
    1.3.3 利用标签信息
    1.3.4 利用链接信息
    1.3.5 结果组织
  1.4 本书概述
第2章 元搜索引擎体系结构
  2.1 系统体系结构
  2.2 为什么使用元搜索引擎技术
  2.3 挑战环境
    2.3.1 异构及其影响
    2.3.2 规范化研究
第3章 搜索引擎选择
  3.1 粗糙表记方法
  3.2 基于学习的方法
  3.3 基于样本文档的方法
  3.4 统计表记方法
    3.4.1 D-WISE
    3.4.2 CORI Net
    3.4.3 gGlOSS
    3.4.4 潜在有用文档数目
    3.4.5 最相似文档的相似度
    3.4.6 搜索引擎表记生成
第4章 搜索引擎加入
  4.1 搜索引擎连接
    4.1.1 搜索引擎的HTML表单标签
    4.1.2 搜索引擎自动连接
  4.2 搜索结果抽取
    4.2.1 半自动包装器生成
    4.2.2 自动包装器生成
第5章 结果合并
  5.1 基于完全文档内容的合并
  5.2 基于搜索结果记录的合并
  5.3 基于结果本地排序的合并
    5.3.1 基于轮转的方法
    5.3.2 基于相似度转换的方法
    5.3.3 基于投票的方法
    5.3.4 基于机器学习的方法
第6章 总结与后续研究
参考文献

教学资源推荐
作者: [美]迪卫艾肯特?阿格拉沃尔(Divyakant Agrawal) 苏迪皮托?达斯(Sudipto Das) 阿姆鲁?埃尔?阿巴迪(Amr El Abbadi) 著
作者: Philip M. Lewis, Arthur Bernstein, Michael Kifer
作者: (美)Hector Garcia-Molina,Jeffrey D.Ullman,Jennifer Widom
参考读物推荐
作者: [澳]盖伊·哈里森(Guy Harrison),[澳]迈克尔·哈里森(Michael Harrison) 著
作者: Steve Bobrowski