第四十六章搜索引擎的研发_传奇1997最新章节手机阅读

海棠书屋 > 传奇1997

第四十六章搜索引擎的研发(4/6)

量，数据的更新策略则关系到系统资源的利用率。

    这只是第一步，采集了大量数据信息之后，还需要通过自然语言处理（nlp），将文本信息分解为结构化数据和价值性数据。

    这里面就又存在一个问题，目前国外的搜索引擎都是英文分词，而中文比较特殊，最小单位是字，但具有语义的最小单位是词。

    所以，在中文分词这一部分，就需要技术团队单独进行开发。

    通过建立词库、采用条件随机概率分布模型、词性标注、语义相似度、已存句法分析、情感倾向分析等，通过各种模型判断，让程序理解抓取到的关键词中文的语义，才能提高搜索的准确性和查全率。

    这还只是其中比较小的开发困难。

    比如，搜索引擎的核心就是通过海量数据抓取后的快速检索，而抓取的数据越多，当庞大的数据存储在数据库里，就需要构建快速存取数据的分布式存储架构。

    再比如，为了让用户在最短的时间内获得想要的搜索结果，就需要后台系统不断的执行数据抓取和建立索引等操作。

    这就需要建立分布式实时计算系统，以及对索引结构的构建……

    王川估计也是最近开发中有些郁闷了，一说起来就滔滔不绝。

    隋波虽然不太懂他说的一些技术术语，但毕竟前世作为用户也使用了20多年的搜索引擎，接触的多了，也了解一些基本的知识。

    他安静的听着王川不断的讲述团队

本章还未完，请点击下一页继续阅读>>>

阅读页设置

背景颜色

默认

淡灰

深绿

橙黄

夜间

字体大小

小

中

大

品书阁海棠书屋