返回

重生之电子风云

首页
关灯
护眼
字体:
第402章 写个搜索引擎玩玩
   存书签 书架管理 返回目录
    第403章写个搜索引擎玩玩

    这年头搜索引擎对于很多人来说还比较神 秘,但在二十年后已经是公开的技术了,整个流程和各种page rank算法都是在网上就能下载到的,关于搜索引擎核心技术的详解,国内外各种书籍出了一本又一本,胡一亭自己就曾经在百无聊赖时分析过多个算法,还曾经想过拉点投资搞个搜索引擎,从ic设计全栈工程师的繁重研发业务下脱身,自己当个小老板,因此对此毫不陌生,完全可以闭着眼睛抄一个出来,在此基础上由技术人员不断更新加强,要抄的话,无论如何,那些都是领先这个时代十几年的算法,拿出手就能立刻秒杀雅虎,把谷歌掐死在襁褓里。

    胡一亭见大家都钦佩地看着自己,还以为他们不信却又不好意思 说出口,只得笑道:“这真不是什么难事,搜索引擎说白了就三步,第一步下载,把要分析的网页抓下来。第二部是索引,这里面主要是先要写个全文检索引擎,对第一部里面下载下来的文本内容进行预处理,进行智能的分词,然后进行数据清洗,把非关键词和无效内容刨掉,只保留重要部分,搜索的时候其实就是搜索索引,根据用户查询的关键词,在索引里寻找匹配内容,然后展示出来。雅虎就是手工索引,其实本质上就暴露出他们的算法有大问题,图样图森破,幼稚的很。

    第三点是真正有点难度的,就是说在匹配内容过多时,怎么排序,怎么把最符合用户搜索目的的内容排在前面,这就有一个排序的算法问题,这里面牵涉到一个打分制度,排序算法要把把高分项目排在前面,这里面牵涉到网站的重要程度和网页的时效性。

    但总的来说,

第402章 写个搜索引擎玩玩(1/5)
上一章 目录 下一页