信息检索txt,chm,pdf,epub,mobi下载 作者: (美)Stefan Büttcher / (加)Charles L.A.Clarke / (加)Gordon V. Cormack 出版社: 机械工业出版社 副标题: 实现和评价搜索引擎 原作名: Information Retrieval: Implementing and Evaluating Search Engines 译者: 陈健 / 黄晋 出版年: 2012-1 页数: 412 定价: 65.00元 装帧: 平装 丛书: 计算机科学丛书 ISBN: 9787111359906 内容简介 · · · · · ·“这本书是越来越多的信息检索文献里的一本好书” ——Donald H. Kraft,计算机评论 “学术巨匠齐聚一堂编撰了一部信息检索的优秀教材。Stefan Bu ̈ttcher、Charles Clarke和Gordon Cormack以合计超过五十年的研究经验,组成了横跨三代的信息检索研究泰斗组合……这本书是所有信息检索研究者和从业人员的必读教材!” ——来自由Amit Singhal撰写的序言 信息检索奠定了现代搜索引擎的基石。本书介绍了现代搜索技术的核心主题,包括了算法、数据结构、索引、检索和评价。重点在于实现和实验;每一章都有练习和对学生项目的建议。Wumpus——本书其中一位作者开发的一个多用户开源信息检索系统,可以在网上下载——提供了模型实现,可作为学生练习的一个基础。本书采用的模块化结构使教师可以将此书用于不同水平的研究生课程中,包括... 作者简介 · · · · · ·Stefan B ttcher是一名在Google工作的网站可靠性工程师。Charles L. A. Clarke 和Gordon V. Cormack是滑铁卢大学David R.Cheriton计算机科学学院的计算机科学教授。 目录 · · · · · ·出版者的话译者序 序 前言 符号 第一部分基 础 知 识 · · · · · · () 出版者的话 译者序 序 前言 符号 第一部分基 础 知 识 第1章绪论 1.1什么是信息检索 1.1.1Web搜索 1.1.2其他搜索应用 1.1.3其他信息检索应用 1.2信息检索系统 1.2.1信息检索系统基础架构 1.2.2文档及其更新 1.2.3性能评价 1.3使用电子文本 1.3.1文本格式 1.3.2英文文本中的分词 1.3.3词项分布 1.3.4语言模型 1.4测试集 1.5开源信息检索系统 1.5.1Lucene 1.5.2Indri 1.5.3Wumpus 1.6延伸阅读 1.7练习 1.8参考文献 第2章基础技术 2.1倒排索引 2.1.1延伸例子:词组查找 2.1.2实现倒排索引 2.1.3文档和其他元素 2.2检索与排名 2.2.1向量空间模型 2.2.2邻近度排名 2.2.3布尔检索 2.3评价 2.3.1查全率和查准率 2.3.2排名检索的有效性指标 2.3.3创建测试集 2.3.4效率指标 2.4总结 2.5延伸阅读 2.6练习 2.7参考文献 第3章词条与词项 3.1英语 3.1.1标点与大写 3.1.2词干提取 3.1.3停词 3.2字符 3.3字符ngram 3.4欧洲语言 3.5CJK语言 3.6延伸阅读 3.7练习 3.8参考文献 第二部分索引 第4章静态倒排索引 4.1索引的组成部分和索引的生命周期 4.2词典 4.3位置信息列表 4.4交错词典和位置信息列表 4.5索引的构建 4.5.1基于内存的索引构建法 4.5.2基于排序的索引构建法 4.5.3基于合并的索引构建法 4.6其他索引 4.7总结 4.8延伸阅读 4.9练习 4.10参考文献 第5章查询处理 5.1排名检索的查询处理 5.1.1documentatatime查询处理 5.1.2termatatime查询处理 5.1.3预计算得分贡献 5.1.4影响力排序 5.1.5静态索引裁剪 5.2轻量级结构 5.2.1广义索引表 5.2.2操作符 5.2.3例子 5.2.4实现 5.3延伸阅读 5.4练习 5.5参考文献 第6章索引压缩 6.1通用数据压缩 6.2符号数据压缩 6.2.1建模和编码 6.2.2哈夫曼编码 6.2.3算术编码 6.2.4基于符号的文本压缩 6.3压缩位置信息列表 6.3.1无参数间距压缩 6.3.2参数间距压缩 6.3.3上下文感知的压缩方法 6.3.4高查询性能的索引压缩 6.3.5压缩效果 6.3.6解码性能 6.3.7文档重排 6.4压缩词典 6.5总结 6.6延伸阅读 6.7练习 6.8参考文献 第7章动态倒排索引 7.1批量更新 7.2增量式索引更新 7.2.1连续倒排列表 7.2.2非连续倒排列表 7.3文档删除 7.3.1无效列表 7.3.2垃圾回收 7.4文档修改 7.5讨论及延伸阅读 7.6练习 7.7参考文献 第三部分检索和排名 第8章概率检索 8.1相关性建模 8.2二元独立模型 8.3Robertson/Sprck Jones权重公式 8.4词频 8.4.1Bookstein的双泊松模型 8.4.2双泊松模型的近似 8.4.3查询词频 8.5文档长度:BM25 8.6相关反馈 8.6.1词项选择 8.6.2伪相关反馈 8.7区域权重:BM25F 8.8实验对比 8.9延伸阅读 8.10练习 8.11参考文献 第9章语言模型及其相关方法 9.1从文档中产生查询 9.2语言模型和平滑 9.3使用语言模型排名 9.4KullbackLeibler距离 9.5随机差异性 9.5.1一个随机模型 9.5.2精华性 9.5.3文档长度规范化 9.6段落检索及排名 9.6.1段落评分 9.6.2实现 9.7实验对比 9.8延伸阅读 9.9练习 9.10参考文献 第10章分类和过滤 10.1详细示例 10.1.1面向主题的批过滤 10.1.2在线过滤 10.1.3从历史样本中学习 10.1.4语言分类 10.1.5在线自适应垃圾邮件过滤系统 10.1.6二元分类的阈值选择 10.2分类 10.2.1比值和比值比 10.2.2构造分类器 10.2.3学习模型 10.2.4特征工程 10.3概率分类器 10.3.1概率估计 10.3.2联合概率估计 10.3.3实际考虑 10.4线性分类器 10.4.1感知器算法 10.4.2支持向量机 10.5基于相似度的分类器 10.5.1Rocchio法 10.5.2基于记忆的方法 10.6广义线性模型 10.7信息理论模型 10.7.1模型比较 10.7.2序列压缩模型 10.7.3决策树与树桩 10.8实验对比 10.8.1面向主题的在线过滤器 10.8.2在线自适应垃圾信息过滤 10.9延伸阅读 10.10练习 10.11参考文献 第11章融合和元学习 11.1搜索结果融合 11.1.1固定临界值合成 11.1.2排名和得分合成 11.2叠加自适应过滤器 11.3叠加批分类器 11.3.1holdout验证 11.3.2交叉验证 11.4bagging 11.5boosting 11.6多类排名和分类 11.6.1文档得分与类别得分 11.6.2文档排名融合与类别排名融合 11.6.3多类方法 11.7学习排名 11.7.1什么是学习排名 11.7.2学习排名的方法 11.7.3优化什么 11.7.4分类的学习排名 11.7.5排名检索的学习 11.7.6LETOR数据集 11.8延伸阅读 11.9练习 11.10参考文献 第四部分评价 第12章度量有效性 12.1传统的有效性指标 12.1.1查全率和查准率 12.1.2前k个文档的查准率(P@k) 12.1.3平均查准率 12.1.4排名倒数 12.1.5算术平均与几何平均 12.1.6用户满意度 12.2TREC 12.3在评价中使用统计 12.3.1基础和术语 12.3.2置信区间 12.3.3比较评价 12.3.4被认为有害的假设检验 12.3.5配对和未配对差值 12.3.6显著性检验 12.3.7统计检验的效度和检验力 12.3.8报告指标的查准率 12.3.9元分析 12.4最小化判定工作 12.4.1为判定选择合适的文档 12.4.2对池进行抽样 12.5非传统的有效性指标 12.5.1分级相关性 12.5.2不完整判定和偏差判定 12.5.3新颖性和多样性 12.6延伸阅读 12.7练习 12.8参考文献 第13章度量效率 13.1效率标准 13.1.1吞吐量和延迟 13.1.2汇总统计和用户满意度 13.2排队论 13.2.1肯德尔符号 13.2.2M/M/1排队模型 13.2.3延迟量和平均利用率 13.3查询调度 13.4缓存 13.4.1三级缓存 13.4.2缓存策略 13.4.3预取搜索结果 13.5延伸阅读 13.6练习 13.7参考文献 第五部分应用和扩展 第14章并行信息检索 14.1并行查询处理 14.1.1文档划分 14.1.2词项划分 14.1.3混合方案 14.1.4冗余和容错 14.2MapReduce 14.2.1基本框架 14.2.2合并 14.2.3辅助关键字 14.2.4机器失效 14.3延伸阅读 14.4练习 14.5参考文献 第15章Web搜索 15.1Web的结构 15.1.1Web图 15.1.2静态与动态网页 15.1.3暗网 15.1.4Web的规模 15.2查询与用户 15.2.1用户意图 15.2.2点击曲线 15.3静态排名 15.3.1基本PageRank 15.3.2扩展的PageRank 15.3.3PageRank的性质 15.3.4其他链接分析方法:HITS和SALSA 15.3.5其他静态排名方法 15.4动态排名 15.4.1锚文本 15.4.2新颖性 15.5评价Web搜索 15.5.1指定页面发现 15.5.2用户隐式反馈 15.6Web爬虫 15.6.1爬虫的组成 15.6.2抓取顺序 15.6.3重复与近似重复 15.7总结 15.8延伸阅读 15.8.1链接分析 15.8.2锚文本 15.8.3隐式反馈 15.8.4Web爬虫 15.9练习 15.10参考文献 第16章XML检索 16.1XML的本质 16.1.1文档类型定义 16.1.2XML模式 16.2路径、树和FLWOR 16.2.1XPath 16.2.2NEXI 16.2.3XQuery 16.3索引和查询处理 16.4排名检索 16.4.1排名元素 16.4.2重叠元素 16.4.3可检索元素 16.5评价 16.5.1测试集 16.5.2有效性指标 16.6延伸阅读 16.7练习 16.8参考文献 第六部分附录 附录A计算机性能 · · · · · · () |
很不错啊啊
脑洞之大,角度只独特让我震撼
能尽量客观的阐述
希望不会让我失望。