海棠书屋 > 传奇1997

第四十六章 搜索引擎的研发(4/6)
上一页 首页 目录 书架 下一页
量,数据的更新策略则关系到系统资源的利用率。

    这只是第一步,采集了大量数据信息之后,还需要通过自然语言处理(nlp),将文本信息分解为结构化数据和价值性数据。

    这里面就又存在一个问题,目前国外的搜索引擎都是英文分词,而中文比较特殊,最小单位是字,但具有语义的最小单位是词。

    所以,在中文分词这一部分,就需要技术团队单独进行开发。

    通过建立词库、采用条件随机概率分布模型、词性标注、语义相似度、已存句法分析、情感倾向分析等,通过各种模型判断,让程序理解抓取到的关键词中文的语义,才能提高搜索的准确性和查全率。

    这还只是其中比较小的开发困难。

    比如,搜索引擎的核心就是通过海量数据抓取后的快速检索,而抓取的数据越多,当庞大的数据存储在数据库里,就需要构建快速存取数据的分布式存储架构。

    再比如,为了让用户在最短的时间内获得想要的搜索结果,就需要后台系统不断的执行数据抓取和建立索引等操作。

    这就需要建立分布式实时计算系统,以及对索引结构的构建……

    王川估计也是最近开发中有些郁闷了,一说起来就滔滔不绝。

    隋波虽然不太懂他说的一些技术术语,但毕竟前世作为用户也使用了20多年的搜索引擎,接触的多了,也了解一些基本的知识。

    他安静的听着王川不断的讲述团队

本章还未完,请点击下一页继续阅读>>>
上一页 首页 目录 加书签 下一页
作者推荐:反派他茶香四溢总有奸臣肖想本宫穿越之民国影后[主HP]如何淡定的面对过去渡你《识薇知味九阳丹帝恶魔的异界征途惊!暴君的小哭包重生后杀疯了哈利波特与军情六处

阅读页设置
背景颜色

默认

淡灰

深绿

橙黄

夜间

字体大小

品书阁 海棠书屋