网站建站,网站优化,小程序开发,APP软件开发,网络营销推广

高手级SEO告诉你搜索原理

网站优化 韩非 568℃ 0评论

郑州网站优化,谁是高手.-科技

1、总链接库
        总链接库存放着爬虫曾经爬取过的URL及时刻新增的URL,由调度系统控制提取出新URL或需要重访的URL交由爬虫爬取。总链接库中存放的URL都是唯一不重复的,这样保证了爬虫的不重复抓取、避免陷入循环陷阱。

2、抓取策略
        相对于整个互联网新增内容,SE资源是有限的。全部抓取是不可能的事,需要SE以Z小成本抓取Z大量重要内容,这便需要抓取优先级调配策略。在调度系统中,待抓取URL成队列结构,抓取策略便起到了对这些队列进行排序的作用。
        爬虫的抓取策略很多,不过其目标都是优先爬取重要网页。常见如:宽度优先遍历策略、深度优先遍历策略、PR优先策略、反链优先策略、OPIC策略、大站优先策略等。
宽度优先遍历策略指抓取某一起始页面后,将该页面内所有链接放入待抓取队列末尾,不对网页重要性进行评级,按顺序依次抓取,遍历路径:A B-C-D-E H F G;
        深度优先遍历策略指抓取某一起始页面后,选取其中某一链接进行跟踪抓取直至抓取完毕,进入下一起始页,继续跟踪抓取,遍历路径:A B C-F-G D E-H;

        PR优先策略在此指非完全PR策略,因为PR是个针对全体网页的算法,而爬虫抓取过程中只能针对某个网页集合进行PR计算,故称非完全PR优先策略。在这种策略中,根据待抓取队列中URL的非完全PR值来确定抓取顺序。
        当然,这种PR值并非每抓取一个页面计算一次,而是在抓取一定量如X个页面后,将所有下载页面重新计算一遍新的非完全PR值。
        根据这些PR值,确定待下载队列中URL的下载顺序。在未抓取到X个页面前,新抓取页面中提取出的URL可能重要性要高于之前的URL,将这些URL以PR为0放在待下载队列的末尾是不合适的。此时,就要根据这个页面所有反链计算一个临时PR,以次插入到待下载队列;
        反链优先策略指根据网页被其他网页链接的数量来确定待抓取队列中URL的抓取顺序;
        OPIC策略,Online Page Importance Computation,在线页面重要性计算。这种策略类似于PR优先,本质上也是给页面赋予了“质量分”。在算法开始前,给所有页面赋予相同的初始“现金”(cash),当某个页面被下载后,该页面将自己的“现金”平均分配给页面中所有链接,并清空自身现金。对于待抓取URL,根据现金量进行重要性排序抓取。
        大站优先策略指对于待抓取URL,根据其归属域名进行分类整理,优先下载待下载URL数量多的链接。
其他策略如根据URL中目标层级,URL后缀及URL中字符串等确定抓取排序。
        在实际抓取中,往往是多种策略组合使用的。以上策略对于SEO提高收录有很多指导意义,如:控制入链数、控制出链数、控制网站结构及外链权重(数量、质量、Nofollow等)、增加新内容更新频率等。     

1 2 下一页

转载请注明:北京SEO优化整站网站建设-地区专业外包服务韩非博客 » 高手级SEO告诉你搜索原理

喜欢 (0)or分享 (0)
发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址