发新话题
打印

你知道搜索引擎是怎么运行的吗?

你知道搜索引擎是怎么运行的吗?

  要说到搜索引擎,相信大家都会用,也许天天都在用,但你知道为什么搜索引擎可以提供你想要的信息?可以为你找寻你想要的资料?为什么有些网站排在前面,有些网站排在后面?本文小冰就来和大家探讨下这个用户群体最大的搜索引擎——百度九黄机场接机
  搜索引擎有4大系统:
  一、下载系统
  1、http协议:客户端与服务器建立一条tcp链接进程,然后发出请求并读取服务器进程的应答,然后关闭链接结束一次响应,返回的内容包括了一个头部信息和主题部分。
  2、记录未访问和已访问url:未访问表和已访问表,避免重复收集,百度蜘蛛访问过一个网页后,会记录下来,另外一个蜘蛛来访问如果看记录是已访问过的就不再访问了。
  3、域名和ip的问题,一对一,一对多,多对多。不能单方面的用ip来判定是否是同一站点,内容重复的站点搜索引擎会抓取一个。
  4、网页的重要度,优先抓取:1,网页的入度大,被引用的多 2,网页的上层页面入度大 3,网页的镜像度高 4,网页的目录深度小 这四个方面也决定了网页的权重的高低。
  5、稳定和高效的下载系统是一个搜索引擎提供服务的根基。搜索引擎是否做到高时效性,就要看他的下载系统的策略和性能了,对于商业搜索引擎非常重要。
  二、网页分析
  1、提取文字
  我们都知道网页中包含了各种代码,这些东西无法用于排名计算,所以数据分析系统首先要做的就是删除掉这些代码,提取出文字内容。
  2、内容消噪
  我们的网站中很多页面都有对主体内容毫无影响的内容,对搜索引擎的排名计算毫无用处,比如导航文字、底部版权信息等,这些内容被比喻为网页的噪声,搜索引擎便会把他们删除,整个过程称为“消噪”。那么搜索引擎是怎样来判断哪些内容是噪声呢?很简单,采用对比即可。比如每个内容页除了真正的内容不一样以外,一般其他的“噪声”内容都是一样的,如导航文字,每个页面都一样吧,底部版权也是每个页面都一样中国教育报
  3、分词处理
  分词简单来说就是把一句话或一句短语分成N个词语。至于分词怎么分,搜索引擎会根据自己所拥有的词库字典和分词算法来进行分词,每个搜索引擎都是不一样的。分词又分为中文分词和英文分词。对于分词技术,都是搜索引擎内部的事情,我们seoer能做的很少,主要就是在为网站写标题以及计算关键词密度时会考虑到。
  4、去无用词
  无论中文还是英文的文章中,都会有很多对内容影响不大,出现频率却很高的字词,中文的如:的、地、啊、呀等等,英文的如:the、to、of、a、an等等
  5、页面去重
  这个就很好理解了,意思就是搜索引擎会把你这个页面与它以前抓取的页面作针对性的对比,如果有重复的,便会删除,以减少无意义的重复信息。这便是我们站长们到处找原创、伪原创文章的原因。搜索引擎的去重算法比较强大,像一般简单的增加“的”“地”“得”或者简单调换段落顺序所谓的伪原创并不能逃过它的法眼。
  6、对页面的链接进行分析
  这是搜索引擎数据分析系统的最后一个步骤,主要通过对该页面的内链和外链进行分析,计算其权重值,然后根据权重影响该页面关键词的排名情况猎头公司
  三、建立索引
  四、查询服务
  最后两个比较容易理解就不详细分析了。通过本文,相信大家对搜索引擎就有了更深的了解,而且知道搜索引擎运行的原理,也非常利于我们做seo优化。

TOP

发新话题