第四十六章搜索引擎的研发_传奇1997最新章节手机阅读

海棠书屋 > 传奇1997

第四十六章搜索引擎的研发(3/6)

无论是国外的lycos、altavista、infoseek（搜信），雅虎搜索引擎；还是国内搜狐推出的所谓全中文搜索引擎，都还是以人工分类目录为主的网站检索服务。

    说是搜索引擎，其实更像是目录导航网站……

    尽管其中一些搜索引擎已经有了网页关键词检索、用户点击量排序等一些创新，但本质上，还是需要大量的人工编辑的目录式搜索引擎（directory seargine）。

    而隋波希望王川团队开发的，则是全新的，通过技术程序，自动在互联网上通过超链接网页进行全文检索的机器人搜索引擎（robot seargine）。

    这样的话，就需要从头做起，开发一整套完整的技术体系。

    其中包括网络爬虫（web crawler）服务、索引服务、缓存服务、日志服务等几大模块，各模块之间互相影响，构成了整个搜索引擎体系。

    从开发量上，技术难度是远远大于目录式检索技术的。

    首先说网络爬虫，也称网络蜘蛛（web spider），这项技术是基于web的自动化浏览程序，通过网页链接（url），爬虫不断的通过互联网中获得新的网页数据，下载页面数据形成后台数据库。

    可以说，网络爬虫抓取数据是搜索引擎工作流程的第一步。

    爬虫的体系架构直接关系到搜索引擎每天数据的采集量，而抓取策略则关系到搜索结果的数据质

本章还未完，请点击下一页继续阅读>>>

阅读页设置

背景颜色

默认

淡灰

深绿

橙黄

夜间

字体大小

小

中

大

品书阁海棠书屋