关注微信

推荐商品

    加载中... 正在为您读取数据...
分享到:
  • 信息检索导论[平装]
  • 共3个商家     51.10元~55.20
  • 作者:曼宁(ChristopherD.Manning)(作者),拉哈万(PrabhakarRaghavan)(作者),舒策(HinrichSchutze)(作者),王斌(译
  • 出版社:人民邮电出版社;第1版(2010年9月1日)
  • 出版时间:
  • 版次 :
  • 印刷时间:
  • 包装:
  • ISBN:9787115234247

  • 商家报价
  • 简介
  • 评价
  • 加载中... 正在为您读取数据...
  • 商品描述

    编辑推荐

    《信息检索导论》从计算机科学领域的角度出发,介绍了信息检索的基础知识,并对当前信息检索的发展做了回顾,重点介绍了搜索引擎的核心技术,如文档分类和文档聚类问题,以及机器学习和数值计算方法。书中所有重要的思想都用示例进行了解释,生动形象,引人入胜,实现了理论与实战的完美结合
    《信息检索导论》的三位作者均是信息检索领域的顶级专家,两位来自学术教育界,一位来自硅谷业界,使《信息检索导论》既具备深厚的理论基础,又代表了尖端科技水准。因此,该书甫一出版,即被奉为该领域的权威著作,备受瞩目。目前已被众多世界名校采用为信息检索课程的教材。

    媒体推荐

    什么是排序SVM、XML、DNS和LSI?什么是信息检索中的垃圾信息、隐藏页和门页?MapReduce和其他一些并行运算方法是如何实现由兆字节(MB)到百万兆字节(PB)的飞跃的?这些问题你都能从本书中找到答案。本书首次将构建Web搜索引擎的复杂过程以一种清晰的全景方式展现给读者。
      ——Peter Norvig
    Google公司研究主管
    本书对信息检索这个举足轻重而又发展迅猛的领域进行了全面、新颖、准确的介绍,我们非常需要这样一本教科书。
      ——Raymond J. Mooney
    得克萨斯大学奥斯汀分校教授
    此书内容新颖,选材独特,对信息检索的基础知识和发展方向进行了生动的描述。
      ——Jon Kleinberg
    康奈尔大学教授
    我是信息检索领域的新手,我非常喜欢这本书。丰富的细节以及实践与理论的完美结合使得阅读本书充满了乐趣。
      ——亚马逊读者评论
    这是我读过的关于信息检索的第一本书,我认为它非常完美!它涵盖了信息检索领域所有的前瞻思想,并且内容明了,简单易懂。
      ——亚马逊读者评论
    这本书形象地将读者带入了信息检索领域的核心,并分类介绍了搜索引擎的核心技术,具有十分高的实用性。
      ——亚马逊读者评论

    作者简介

    作者:(美国)曼宁(Christopher D .Manning) (美国)拉哈万(Prabhakar Raghavan) (德国)舒策(Hinrich Schutze) 译者:王斌

    Christopher D .Manning,1989年毕业于澳大利亚国立大学,1995年获斯坦福大学语言学博士学位。曾先后在卡内基-梅隆大学、悉尼大学教授语言学。1999年起任斯坦福大学计算机科学和语言学副教授,其主要研究方向是统计自然语言处理、信息提取与表示,以及文本理解和文本挖掘等。
    Prabhakar Raghavan,毕业于印度理工学院,后获加州大学伯克利分校计算机科学博士学位,自2005年起担任Yahoo!研究中心负责人,同时也是斯坦福大学计算机科学系顾问教授其主要研究方向是文本及Web数据挖掘、组合优化、随机算法等,此前曾任Vetity公司CTO,在IBM研究院担任过管理工作。
    Hinrich Schuze,斯坦福大学博士,现任斯图加特大学自然语言处理研究所理论计算语言学主任他在美国硅谷工作过多年。曾担任过Enkata公司首席科学家。
    王斌,博士,中国科学院计算技术研究所前瞻研究实验室信息检索课题组组长,副研究员,博士生导师。主持国家973、863、国家自然科学基金、国际合作基金、部委及企业合作等课题20余项,在包括SIGIR、CIKM、EMNLP等在内的会议和刊物上发表学术论文100余篇。担任CIKM、AIRS、CCIR、SEWM等国际国内会议的程序委员会委员,同时是ACM和IEEE会员、中国计算机学会高级会员、中国中文信息学会会员、中文信息学会信息检索专业委员会委员及《中文信息学报》编委。自2006年起在中国科学院研究生院讲授《现代信息检索》研究生课程,迄今培养博士、硕士研究生近30名。

    目录

    第1章 布尔检索
    1.1 一个信息检索的例子
    1.2 构建倒排索引的初体验
    1.3 布尔查询的处理
    1.4 对基本布尔操作的扩展及有序检索
    1.5 参考文献及补充读物

    第2章 词项词典及倒排记录表
    2.1 文档分析及编码转换
    2.1.1 字符序列的生成
    2.1.2 文档单位的选择
    2.2 词项集合的确定
    2.2.1 词条化
    2.2.2 去除停用词
    2.2.3 词项归一化
    2.2.4 词干还原和词形归并
    2.3 基于跳表的倒排记录表快速合并算法
    2.4 含位置信息的倒排记录表及短语查询
    2.4.1 二元词索引
    2.4.2 位置信息索引
    2.4.3 混合索引机制
    2.5 参考文献及补充读物

    第3章 词典及容错式检索
    3.1 词典搜索的数据结构
    3.2 通配符查询
    3.2.1 一般的通配符查询
    3.2.2 支持通配符查询的K-gram索引
    3.3 拼写校正
    3.3.1 拼写校正的实现
    3.3.2 拼写校正的方法
    3.3.3 编辑距离
    3.3.4 拼写校正中的K-gram索引
    3.3.5 上下文敏感的拼写校正
    3.4 基于发音的校正技术
    3.5 参考文献及补充读物

    第4章 索引构建
    4.1 硬件基础
    4.2 基于块的排序索引方法
    4.3 内存式单遍扫描索引构建方法
    4.4 分布式索引构建方法
    4.5 动态索引构建方法
    4.6 其他索引类型
    4.7 参考文献及补充读物

    第5章 索引压缩
    5.1 信息检索中词项的统计特性
    5.1.1 Heaps定律:词项数目的估计
    5.1.2 zipfd定律:对词项的分布建模
    5.2 词典压缩
    5.2.1 将词典看成单一字符串的压缩方法
    5.2.2 按块存储
    5.3 倒排记录表的压缩
    5.3.1 可变字节码
    5.3.2 y编码
    5.4 参考文献及补充读物

    第6章 文档评分、词项权重计算及向量空间模型
    6.1 参数化索引及域索引
    6.1.1 域加权评分
    6.1.2 权重学习
    6.1.3 最优权重g的计算
    6.2 词项频率及权重计算
    6.2.1 逆文档频率
    6.2.2 tf-idf权重计算
    6.3 向量空间模型
    6.3.1 内积
    6.3.2 查询向量
    6.3.3 向量相似度计算
    6.4 其他tf-idf权重计算方法
    6.4.1 tf的亚线性尺度变换方法
    6.4.2 基于最大值的tf归一化
    6.4.3 文档权重和查询权重机制
    6.4.4 文档长度的回转归一化
    6.5 参考文献及补充读物

    第7章 一个完整搜索系统中的评分计算
    7.1 快速评分及排序
    7.1.1 非精确返回前脯文档的方法
    7.1.2 索引去除技术
    7.1.3 胜者表
    7.1.4 静态得分和排序
    7.1.5 影响度排序
    7.1.6 簇剪枝方法
    7.2 信息检索系统的组成
    7.2.1 层次型索引
    7.2.2 查询词项的邻近性
    7.2.3 查询分析及文档评分函数的设计
    7.2.4 搜索系统的组成
    7.3 向量空间模型对各种查询操作的支持
    7.3.1 布尔查询
    7.3.2 通配符查询
    7.3.3 短语查询
    7.4 参考文献及补充读物

    第8章 信息检索的评价
    8.1 信息检索系统的评价
    8.2 标准测试集
    8.3 无序检索结果集合的评价
    8.4 有序检索结果的评价方法
    8.5 相关性判定
    8.6 更广的视角看评价:系统质量及用户效用
    8.6.1 系统相关问题
    8.6.2 用户效用
    8.6.3 对已有系统的改进
    8.7 结果片段
    8.8 参考文献及补充读物

    第9章 相关反馈及查询扩展
    9.1 相关反馈及伪相关反馈
    9.1.1 Rocchio相关反馈算法
    9.1.2 基于概率的相关反馈方法
    9.1.3 相关反馈的作用时机
    9.1.4 Web上的相关反馈
    9.1.5 相关反馈策略的评价
    9.1.6 伪相关反馈
    9.1.7 间接相关反馈
    9.1.8 小结
    9.2 查询重构的全局方法
    9.2.1 查询重构的词汇表工具
    9.2.2 查询扩展
    9.2.3 同义词词典的自动构建
    9.3 参考文献及补充读物

    第10章 XML检索
    10.1 XML的基本概念
    10.2 XML检索中的挑战性问题
    10-3基于向量空间模型的XML检索
    10.4 XML检索的评价
    10.5 XML检索:以文本为中心与以数据为中心的对比
    10.6 参考文献及补充读物

    第11章 概率检索模型
    11.1 概率论基础知识
    11.2 概率排序原理
    11.2.1 I/O风险的情况
    11.2.2 基于检索代价的概率排序原理
    11.3 二值独立模型
    11.3.1 排序函数的推导
    11.3.2 理论上的概率估计方法
    11.3.3 实际中的概率估计方法
    11.3.4 基于概率的相关反馈方法
    11.4 概率模型的相关评论及扩展
    11.4.1 概率模型的评论
    11.4.2 词项之间的树型依赖
    11.4.3 OkapiBM25:一个非二值的模型
    11.4.4 IR中的贝叶斯网络方法
    11.5 参考文献及补充读物

    第12章 基于语言建模的信息检索模型
    12.1 语言模型
    12.1.1 有穷自动机和语言模型
    12.1.2 语言模型的种类
    12.1.3 词的多项式分布
    12.2 查询似然模型
    12.2.1 IR中的查询似然模型
    12.2.2 查询生成概率的估计
    12.2.3 Ponte和Croft进行的实验
    12.3 语言建模的方法与其他检索方法的比较
    12.4 扩展的LM方法
    12.5 参考文献及补充读物

    第13章 文本分类及朴素贝叶斯方法
    13.1 文本分类问题
    13.2 朴素贝叶斯文本分类
    13.3 贝努利模型
    13.4 NB的性质
    13.5 特征选择
    13.5.1 互信息
    13.5.2 X2统计量
    13.5.3 基于频率的特征选择方法
    13.5.4 多类问题的特征选择方法
    13.5.5 不同特征选择方法的比较
    13.6 文本分类的评价
    13.7 参考文献及补充读物

    第14章 基于向量空间模型的文本分类
    14.1 文档表示及向量空间中的关联度计算
    14.2 Rocchio分类方法
    14.3 K近邻分类器-
    14.4 线性及非线性分类器
    14.5 多类问题的分类
    14.6 偏差一方差折中准则
    14.7 参考文献及补充读物

    第15章 支持向量机及文档机器学习方法
    15.1 二类线性可分条件下的支持向量机
    15.2 支持向量机的扩展
    15.2.1 软间隔分类
    15.2.2 多类情况下的支持向量机
    15.2.3 非线性支持向量机
    15.2.4 实验结果
    15.3 有关文本文档分类的考虑
    15.3.1 分类器类型的选择
    15.3.2 分类器效果的提高
    15.4 adhoc检索中的机器学习方法
    15.4.1 基于机器学习评分的简单例子
    15.4.2 基于机器学习的检索结果排序
    15.5 参考文献及补充读物

    第16章 扁平聚类
    16.1 信息检索中的聚类应用
    16.2 问题描述
    16.3 聚类算法的评价
    16.4 K-均值算法
    16.5 基于模型的聚类
    16.6 参考文献及补充读物

    第17章 层次聚类
    17.1 凝聚式层次聚类
    17.2 单连接及全连接聚类算法
    17.3 组平均凝聚式聚类
    17.4 质心聚类
    17.5 层次凝聚式聚类的最优性
    17.6 分裂式聚类
    17.7 簇标签生成
    17.8 实施中的注意事项
    17.9 参考文献及补充读物

    第18章 矩阵分解及隐性语义索引
    18.1 线性代数基础
    18.2 词项一文档矩阵及SVD
    18.3 低秩逼近
    18.4 LSI
    18.5 参考文献及补充读物

    第19章 Web搜索基础
    19.1 背景和历史
    19.2 Web的特性
    19.2.1 Web图
    19.2.2 作弊网页
    19.3 广告经济模型
    19.4 搜索用户体验
    19.5 索引规模及其估计
    19.6 近似重复及shingling
    19.7 参考文献及补充读物

    第20章 Web采集及索引
    20.1 概述
    20.1.1 采集器必须提供的功能特点
    20.1.2 采集器应该提供的功能特点
    20.2 采集
    20.2.1 采集器架构
    20.2.2 DNS解析
    20.2.3 待采集URL池
    20.3 分布式索引
    20.4 连接服务器
    20.5 参考文献及补充读物

    第21章 链接分析
    21.1 Web图
    21.2 PageRank
    21.2.1 马尔科夫链
    21.2.2 PageRank的计算
    21.2.3 面向主题的PageRank
    21.3Hub网页及Authority网页
    21.4 参考文献及补充读物
    参考文献
    索引

    序言

    第一次见到这本书的电子版是在2007年的年底,当时北京大学的闫宏飞博士向我推荐了这本书。从网上下载书稿的电子版之后,我便迫不及待地在一周时间内通读了这本书。读完之后便萌发了翻译这本书的冲动,随后我就联系作者、联系剑桥大学出版社并通过朋友寻找获得授权的国内出版社。辗转数月之后,我被告知该书已经交由其他学者翻译,很快便可出版。听到这个消息,虽然我有些遗憾,但也算是心里的一块石头得以落地。所以,当去年8月人民邮电出版社突然联系并询问我是否有意翻译这本著作时,我心里的惊讶可想而知。当然,惊讶之余我毫不犹豫地接受了这份邀请,并从此开始了长达数月的翻译历程。
    之所以愿意翻译这本书不仅仅是由于该书的作者都是学术界甚至业界鼎鼎大名的人物,更主要的是因为本书在内容和组织上都有独到之处。之前也有很多信息检索方面的教材,但是其中很多内容已经过时。信息检索是一门不断发展并和其他领域、技术不断融合的学科。这本书补充了一些近年来受到广泛关注的新内容。比如:基于语言建模的信息检索模型、基于机器学习的排序方法、检索结果的Snippet生成、聚类标签生成、XML检索、搜索广告、网页作弊,等等。除此之外,本书每章末尾的“参考文献及补充读物”一节也给出了相关技术的最新进展。本书在内容上与传统教材的另一个显著不同之处是加大了文本分类/聚类技术的介绍篇幅,实际上这些技术已经成为当代信息检索不可分割的一部分。另一方面,本书在深度上超过了大部分传统教材。在介绍信息检索技术的同时,本书深入介绍了其背后所依赖的原理。因此,本书不仅可以用作信息检索领域的入门教材,还能满足对该领域进行深入研究的需要。另外,本书给出了很多实际当中的运行算法和实施细节,这些内容对于信息检索技术的实际应用有很好的参考价值。最后值得一提的是,本书在结构上也进行了巧妙构思。首先通过一个例子引出基本技术,然后通过基本技术的不断增强来介绍信息检索的其他技术。全书浑然一体,读起来也有一气呵成的感觉。

    文摘

    插图:



    本章我们主要关注如何建立倒排索引,我们将这个过程称为索引构建(index construction或indexing),而将构建索引的程序或计算机称为索引器(indexer)。索引构建算法的设计受硬件的配置所制约,因此本章首先将介绍与索引构建相关的计算机硬件的基本知识。然后,4.2节将介绍一种面向静态文档集的高效单机索引算法——基于块的排序索引构建算法,它可以看作是第1章基于排序的基本索引算法的一个更具扩展性的版本。4-3节将介绍内存式单遍扫描索引构建算法,和4.2节的算法相比,由于它并不将词汇表都加载到内存中,因此更具扩展性。对于像Web一样的大规模的文档集合,就要考虑如何在成百上千台计算机构成的计算机集群上进行分布式索引构建。因此,4.4节我们将介绍分布式索引构建。另外,很多文档集会动态变化,这种情况下我们要考虑动态索引的构建,以便将文档集的变化即时反映到索引中。4.5节将介绍动态索引构建。最后,在4.6节,我们讨论在索引构建中可能会遇到的一些复杂情况,如安全性和排序式检索中的索引问题。