通过前面的介绍相信大家对搜索引擎的抓取原理及流程有了一个大致的了解。然而,在互联网这片浩瀚的信息汪洋中,搜索引擎又怎样保证快速、有效地抓取更多的相对重要的页面呢?这就需要我们接着来了解搜索引擎的抓取方式。
了解搜索引擎的抓取方式有利于我们建立对搜索引擎友好的网站结构,使搜索引擎蜘蛛能够在我们网站上停留的时间更久,抓取更多的网站页面(即收录数量),为网站关键词排名提供有力支撑。常见的搜索引擎抓取页面的方式有广度优先抓取、深度优先抓取、质量优先抓取、暗网抓取。
广度优先抓取
广度优先抓取是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后选择其中的一个链接?网页,继续抓取在此网页中链接的所有网页。这是最常用的蜘蛛抓取方式,该方法的优点是可以让网络蜘蛛并行处理,提高其抓取速度。
广度优先抓取是一种按层次横向抓取页面的方式,如图所示,它会从首页开始抓取页面,直至该层页面被抓取完才会进入下一层。所以,当我们在做网站优化的时候,不妨将一些相对重要的信息或栏目在首页优先展示出来(如热门产品、资讯内容等),让搜索引擎优先抓取到网站较为重要的信息。
深度优先抓取
深度优先抓取是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路。
质量优先抓取
质量优先抓取般是针对大型网站, 比如新浪、网易、阿里巴巴等类型的网站, 由于它们的信息量庞大,而且本身权重比较高,相对来说更容易为用户提供更有价值的信息。正因如此,搜索引擎会更愿意优先抓取大型网站中的网页,以保障其可以在最短的时间内为用户提供更有价值的信息。
-
前期的人工整理大量种子网站,进而由种子资源出发去发现更多大型网站资源;
-
对已经索引的网站进行系统分析,从而识别那些内容丰富、规模较大、信息更新频繁的网站。
暗网抓取
所谓暗网(又称深网、不可见网或隐藏网),是指目前搜索引擎爬虫按照常规方式很难抓取到的互联网页面。搜索引擎爬虫必须依赖页面中的链接关系发现新的页面,但是很多网站的内容是以数据库方式存储的,典型的例子是一些垂直领域网站,如携程旅行网的机票数据,很难使用显式链接指向数据库内的所有机票记录,往往是服务网站提供组合查询界面,只有用户按照需求输入查询之后,才能够获得相关数据。所以,常规的爬虫无法索引这些数据内容,这是暗网的命名由来。
为了能够对暗网数据进行索引,需要研发与常规爬虫机制不同的系统,这类爬虫被称作暗网爬虫。暗网爬虫的目的是将暗网数据从数据库中挖掘出来,并将其加入搜索引擎的索引,这样用户在搜索时更可利用这些数据增加信息覆盖程度。
页面的处理
在页面收录过程中,搜索引擎已经抓取并存储了网站上的URL,接下来,搜索引擎会对所抓取的页面内容进行分析。
在这个过程中,我们看到了两个“网页”。第一个“网页”指的是刚才搜索引擎已经收录的URL资源(即搜索蜘蛛抓取的原始页面),第二个“网页"指的是搜索引擎对关键词进行重组之后所对应的网页。搜索引擎对页面的分析由该原始页面正式开始。
这里所提取的正文信息除了包含页面内容外,还包含页面的头部标签信息(Tile Keywords、Description) 等。
提取完信息后,搜索引擎按照机械分词法和统计分词法将正文信息切分为若干关键词,这些关键词组成了关键词列表。我们大家在搜索引擎里查找内容时往往会输入关键词查找,这里搜索引擎的工作就是按照定的规则将内容划分为词,以便以后大家搜索。
上一步搜索引擎已经将正文内容切分为了若干关键词,这些关键词出现的位置、频率等是不同的,在这一步, 搜索引擎会将关键词逐一记录、 归类、建立索引,比如关键词出现的频率(建议2%-8%是比较合理的)。
搜索引擎为页面关键词建立索引后,再将这些关键词重新组合,以关键词的形式重新组建一个新的网页,这个网页上的关键词是唯一的, 全部不重复,比如,我们刚才在第三步时,A关键词出现了三次,在第四步,我们只记录A关键词1次,在重组网页后,A关键词再无重复。
至此,搜索引擎对页面的分析完成,在这一环节, 搜索引擎完成了对页面正文信息的提取、关键词的切分、关键词的索引以及搜索引擎角度上的网页重组。
页面排序
当搜索引擎完成了对页面的分析,将页面以唯一关键词的形式进行了重新组合, 接下来进入页面排序的环节。页面排序的环节实际上是由用户配合来完成的。当用户在搜索引擎中输入关键词进行在搜索时,搜索引擎便开始了页面排序的工作,我们知道,任意输入一个关键词就可以在搜索引擎中找到很多网页,这些网页的先后顺序是怎样产生的呢?影响页面排序的因素有哪些?
实际上,决定页面排序的因素很多,如页面相关性、链接权重及用户行为。
1.关键词匹配度
在搜索引擎中,一般情况下搜索引擎列表中都会包含我们所输入的关键词。当我们输入关键词进行查询时,搜索引擎会首先检查网页中是否有该关键词,这是基础条件。
2.关键词词频(密度计算)
搜索引擎为了能够有效地防止网站所有者恶意操控搜索结果,会去比对页面中关键词出现的频率与该网页词汇量的比例,以此来衡量页面中的关键字词频是否合理。过高或者过低都不好,最恰当的频率一般认为是2%~8%(业界公认最优关键词密度区间值)。
关键词密度是指该关键字出现的次数所占字符数与该网页总词汇量所占字符数的比例。
3.关键词分布
关键词在页面中出现的位置会影响页面的排序,一般认为页面权重的递减顺序是左上>右上>左>右>左下>右下;
4.关键词的权重标签
权重可以理解为重要性。权重标签如<b>、<i>、< em>、<h1>至<h6>等,标签内的文字不同于其他文字,搜索引擎会给予相应权重提升。
链接主要分为内部链接和外部链接两种形式,是在制作网站页面时用来关联信息的,用来告知用户所链接页面的重要程度,对于搜索引擎而言,则是用来证明页面与页面之间的关联性、重要性,比如一个页面的关联链接越多,搜索引擎会给予的重视度就越高。
网站内部页面与页面之间的相互链接关系,一般首页的权重最高,在同等情况下,如果两个网站的首页和内页进行比较,一般首页会排在内页前面。
1.外部链接
网站与站外页面之间的链接关系,通俗的说法叫作“外链”外链的质量、数量、相关性都会影响页面排序。
2.默认权重分配
搜索引擎将页面被抓取的日期作为一个参考因素,页面在单位时间内获得链接的数量越多、质量越高,则该页面的质量相对越高。
3.用户行为
用户对搜索结果的点击行为是衡量页面相关性的因素之一,是完善排序结果、提高排序结果质量的重要补充。
用户行为主要包括搜索、点击两项行为:搜索是用户获得信息的过程,搜索引擎通过这个用户行为学习新词汇、丰富辞典;点击是指用户对搜索结果的反应,被点击的次数越多,说明越重要,权重越高(重点!!!!)。
注意:搜索引擎为避免马太效应,会对排在后面的链接进行点击权重补偿。