毕业论文
您现在的位置: 版本控制 >> 版本控制发展 >> 正文 >> 正文

这就是搜索引擎电子书,建议保存下来

来源:版本控制 时间:2022/12/4
长沙哪儿有治疗白癜风的医院 https://mjbk.familydoctor.com.cn/hospital/1027/detail/

书籍简介

这就是搜索引擎

作者:张俊林出版社:电子工业出版社出品方:博文视点副标题:核心技术详解出版年:-1-1页数:装帧:平装

获取方法

转发本文,私信发送:

搜索引擎优化京东¥33.97购买已下架

目录

目录第1章搜索引擎及其技术架构11.1搜索引擎为何重要11.1.1 互联网的发展11.1.2商业搜索引擎公司的发展31.1.3搜索引擎的重要地位31.2搜索引擎技术发展史41.2.1史前时代:分类目录的一代41.2.2第一代:文本检索的一代51.2.3第二代:链接分析的一代51.2.4第三代:用户中心的一代51.3搜索引擎的3个目标61.4搜索引擎的3个核心问题71.4.13个核心问题71.4.2与技术发展的关系81.5搜索引擎的技术架构9第2章网络爬虫.1通用爬虫框架.2优秀爬虫的特性.3爬虫质量的评价标准.4抓取策略.4.1宽度优先遍历策略(BreathFirst).4.2非完全PageRank策略(PartialPageRank).4.3OCIP策略(OnlinePageImportanceComputation).4.4大站优先策略(LargerSitesFirst).5网页更新策略.5.1历史参考策略.5.2用户体验策略.5.3聚类抽样策略.6暗网抓取(DeepWebCrawling).6.1查询组合问题.6.2文本框填写问题.7分布式爬虫.7.1主从式分布爬虫(Master-Slave).7.2对等式分布爬虫(PeertoPeer)31本章提要34本章参考文献34第3章搜索引擎索引.1索引基础.1.1单词—文档矩阵.1.2倒排索引基本概念.1.3倒排索引简单实例.2单词词典.2.1哈希加链表.2.2树形结构.3倒排列表(PostingList).4建立索引.4.1两遍文档遍历法(2-PassIn-MemoryInversion).4.2排序法(Sort-basedInversion).4.3归并法(Merge-basedInversion).5动态索引.6索引更新策略.6.1完全重建策略(CompleteRe-Build).6.2再合并策略(Re-Merge).6.3原地更新策略(In-Place).6.4混合策略(Hybrid).7查询处理.7.1一次一文档(DocataTime).7.2一次一单词(TermataTime).7.3跳跃指针(SkipPointers).8多字段索引.8.1多索引方式.8.2倒排列表方式.8.3扩展列表方式(ExtentList).9短语查询.9.1位置信息索引(PositionIndex).9.2双词索引(NextwordIndex).9.3短语索引(PhraseIndex).9.4混合方法.10分布式索引(ParallelIndexing).10.1按文档划分(DocumentPartitioning).10.2按单词划分(TermPartitioning).10.3两种方案的比较72本章提要73本章参考文献73第4章索引压缩.1词典压缩.2倒排列表压缩算法.2.1评价索引压缩算法的指标.2.2一元编码与二进制编码.2.3EliasGamma算法与EliasDelta算法.2.4Golomb算法与Rice算法.2.5变长字节算法(VariableByte).2.6SimpleX系列算法.2.7PForDelta算法.3文档编号重排序(DocIDReordering).4静态索引裁剪(StaticIndexPruning).4.1以单词为中心的索引裁剪.4.2以文档为中心的索引裁剪96本章提要97本章参考文献97第5章检索模型与搜索排序.1布尔模型(BooleanModel).2向量空间模型(VectorSpaceModel).2.1文档表示.2.2相似性计算.2.3特征权重计算.3概率检索模型.3.1概率排序原理.3.2二元独立模型(BinaryIndependentModel).3.3BM25模型.3.4BM25F模型.4语言模型方法.5机器学习排序(LearningtoRank).5.1机器学习排序的基本思路.5.2单文档方法(PointWiseApproach).5.3文档对方法(PairWiseApproach)5.5.4文档列表方法(ListWiseApproach).6检索质量评价标准.6.1精确率与召回率.6.2P

10指标.6.3MAP指标(MeanAveragePrecision)本章提要本章参考文献第6章链接分析.1Web图.2两个概念模型及算法之间的关系.2.1随机游走模型(RandomSurferModel).2.2子集传播模型.2.3链接分析算法之间的关系.3PageRank算法.3.1从入链数量到PageRank.3.2PageRank计算.3.3链接陷阱(LinkSink)与远程跳转(Teleporting).4HITS算法(HypertextInducedTopicSelection).4.1Hub页面与Authority页面.4.2相互增强关系.4.3HITS算法.4.4HITS算法存在的问题.4.5HITS算法与PageRank算法比较.5SALSA算法.5.1确定计算对象集合.5.2链接关系传播.5.3Authority权值计算.6主题敏感PageRank(TopicSensitivePageRank)6.6.1主题敏感PageRank与PageRank的差异6.6.2主题敏感PageRank计算流程.6.3利用主题敏感PageRank构造个性化搜索.7Hilltop算法.7.1Hilltop算法的一些基本定义.7.2Hilltop算法.8其他改进算法.8.1智能游走模型(IntelligentSurferModel).8.2偏置游走模型(BiasedSurferModel).8.3PHITS算法(ProbabilityAnalogyofHITS).8.4BFS算法(BackwardForwardStep)本章提要本章参考文献第7章云存储与云计算.1云存储与云计算概述.1.1基本假设.1.2理论基础.1.3数据模型.1.4基本问题.1.5Google的云存储与云计算架构.2Google文件系统(GFS).2.1GFS设计原则.2.2GFS整体架构.2.3GFS主控服务器.2.4系统交互行为.3Chubby锁服务.4BigTable.4.1BigTable的数据模型.4.2BigTable整体结构.4.3BigTable的管理数据.4.4主控服务器(MasterServer).4.5子表服务器(TabletServer).5Megastore系统.5.1实体群组切分7.5.2数据模型.5.3数据读写与备份.6Map/Reduce云计算模型.6.1计算模型.6.2整体逻辑流程.6.3应用示例.7咖啡因系统——Percolator.7.1事务支持.7.2观察/通知体系结构7.8Pregel图计算模型.9Dynomo云存储系统.9.1数据划分算法(PartitioningAlgorithm).9.2数据备份(Replication).9.3数据读写.9.4数据版本控制.10PNUTS云存储系统.10.1PNUTS整体架构.10.2存储单元.10.3子表控制器与数据路由器.10.4雅虎消息代理.10.5数据一致性.11HayStack存储系统.11.1HayStack整体架构.11.2目录服务.11.3HayStack缓存.11.4HayStack存储系统本章提要本章参考文献第8章网页反作弊.1内容作弊.1.1常见内容作弊手段.1.2内容农场(ContentFarm).2链接作弊.3页面隐藏作弊.4Web2.0作弊方法.5反作弊技术的整体思路8.5.1信任传播模型.5.2不信任传播模型.5.3异常发现模型.6通用链接反作弊方法.6.1TrustRank算法.6.2BadRank算法.6.3SpamRank.7专用链接反作弊技术.7.1识别链接农场.7.2识别Google轰炸.8识别内容作弊.9反隐藏作弊.9.1识别页面隐藏.9.2识别网页重定向8.10搜索引擎反作弊综合框架本章提要本章参考文献第9章用户查询意图分析.1搜索行为及其意图.1.1用户搜索行为.1.2用户搜索意图分类.2搜索日志挖掘.2.1查询会话(QuerySession).2.2点击图(ClickGraph).2.3查询图(QueryGraph).3相关搜索.3.1基于查询会话的方法.3.2基于点击图的方法.4查询纠错.4.1编辑距离(EditDistance).4.2噪声信道模型(NoiseChannelModel)本章提要本章参考文献第10章网页去重.1通用去重算法框架.2Shingling算法10.3I-Match算法.4SimHash算法.4.1文档指纹计算.4.2相似文档查找.5SpotSig算法10.5.1特征抽取10.5.2相似文档查找本章提要本章参考文献第11章搜索引擎缓存机制.1搜索引擎缓存系统架构.2缓存对象.3缓存结构.4缓存淘汰策略(EvictPolicy).4.1动态策略.4.2混合策略.5缓存更新策略(RefreshPolicy)本章提要本章参考文献第12章搜索引擎发展趋势.1个性化搜索.2社会化搜索.3实时搜索.4移动搜索29.5地理位置感知搜索.6跨语言搜索.7多媒体搜索.8情境搜索

转载请注明:http://www.0431gb208.com/sjszyzl/2672.html

  • 上一篇文章:
  • 下一篇文章: 没有了