欢迎来到扬州万相网络科技有限公司官网!
全国咨询热线: 18052587333
seobg
当前位置:主页 > 新闻资讯 > 常见问题 >
不标榜自己,我们的价值取决于您

我们致力企业提供一站式全网营销方案

网站抓取频次的原理及优化手法

文章出处: 万相科技    人气:189    发表时间:2022-02-10
1、百度爬虫工作原理
抓取系统是站长服务器与百度搜索的一个桥梁,我们通常把抓取系统称之为抓取环。
举例:以首页为例,“抓取器”与“网站服务器”交互抓取首页,进行对页面进行理解,包含类型、价值的计算,此外还会把页面所有超链接提取出来,提取出来的链接叫“后链”,后链是下一轮抓取的链接集合。下一轮抓取会从上一轮的后链选择需要抓取的数据去抓取,继续和网站交互获取页面提取链接,反复不断一层一层循环构成抓取环路。
2、抓取友好性优化
URL规范
url尽可能不要复杂,新站刚开始抓,蜘蛛并不知道URL里面的内容什么样,url长短?是否规范?是不是被选出来(指抓取)非常关键的。
URL核心有两点:主流和简单。不要使用中文/中文编码虽然百度能识别,蜘蛛支持256个字符,建议小于<100字符。偏长URL不占有优势。
参数以及无效参数的问题?
url尽可能不要使用无效的参数“?”“&”会让一条资源,在蜘蛛没有抓取的情况下抓取多个相同内容,不同url导致重复抓取,浪费站点的权益。
希望站长尽可能不适用参数,或者精简参数,仅保留必要参数,不要使用- #等连接符
3、合理发现链路
蜘蛛要尽可能的抓取完整网站资源,就需要首页到每一个资源(页面)超链接关系都做好,这样蜘蛛也会省力。
从首页到内容来的路径是从首页到栏目一再到这个内容,这个链路关系我就把它称为一个发现链路。
举例:feed流 和 仅有搜索首页的页面,这类站点建议增加索引页,让蜘蛛发现更多有价值的内容,索引页要按照时间历史顺序排序,新资源要实时发布到索引页上,目的是尽可能的曝光给蜘蛛,也不要做大量的泛滥的索引页。
后链的URL要在页面源码中直接露出,不要引入一些动作触发。
最好是使用百度资源平台的资源提交工具。
 
文章来源:万相科技,欢迎分享,转载请保留出处
原文地址:https://www.sc9.cn/news/cjwt/14458.html