海棠书屋 > 传奇1997

第四十六章 搜索引擎的研发(3/6)
上一页 首页 目录 书架 下一页
无论是国外的lycos、altavista、infoseek(搜信),雅虎搜索引擎;还是国内搜狐推出的所谓全中文搜索引擎,都还是以人工分类目录为主的网站检索服务。

    说是搜索引擎,其实更像是目录导航网站……

    尽管其中一些搜索引擎已经有了网页关键词检索、用户点击量排序等一些创新,但本质上,还是需要大量的人工编辑的目录式搜索引擎(directory seargine)。

    而隋波希望王川团队开发的,则是全新的,通过技术程序,自动在互联网上通过超链接网页进行全文检索的机器人搜索引擎(robot seargine)。

    这样的话,就需要从头做起,开发一整套完整的技术体系。

    其中包括网络爬虫(web crawler)服务、索引服务、缓存服务、日志服务等几大模块,各模块之间互相影响,构成了整个搜索引擎体系。

    从开发量上,技术难度是远远大于目录式检索技术的。

    首先说网络爬虫,也称网络蜘蛛(web spider),这项技术是基于web的自动化浏览程序,通过网页链接(url),爬虫不断的通过互联网中获得新的网页数据,下载页面数据形成后台数据库。

    可以说,网络爬虫抓取数据是搜索引擎工作流程的第一步。

    爬虫的体系架构直接关系到搜索引擎每天数据的采集量,而抓取策略则关系到搜索结果的数据质

本章还未完,请点击下一页继续阅读>>>
上一页 首页 目录 加书签 下一页
作者推荐:鬼祭之红瞳美人归道门野史逍遥保安一胎六宝:总裁爹地哪里跑都市绝武医神顾晨吴晓玲脚踏两条船I命运的交集小娇娇我的嫌疑犯娇妻难驯之拒嫁冷总108次

阅读页设置
背景颜色

默认

淡灰

深绿

橙黄

夜间

字体大小

品书阁 海棠书屋