易客通—专业为中小企业提供立体化网络营销解决方案服务商
打开客服菜单
易客通
易客通 > 新闻动态 > 易客通优化|SEO清洗网站爬虫日志的流程
易客通优化|SEO清洗网站爬虫日志的流程
编辑 :

网站建设

时间 : 2020-05-29 14:39 浏览量 : 6

  公司网站已经将近1年的时间在百度的收录少之又少

  将网站按照类型做分类,分为了频道页、列表页、专题页、聚合页以及新闻页5类。然后和技术沟通将这5类URL全部导出给我(新闻页,由于很多考试相关的新闻具有时效性,所以我只导出了30天的数据),然后我按照不同的分类开始收录查询工作。

  我发现公司人员和我反馈的网站不收录,具体的问题是在新闻页。而环球网校的新闻是面向考试的信息发布、资料发布等。是具有一定时效性的文章,按理说这么大的网站应该秒收才对。

  于是,我和相关人员要了网站最近7天的网站日志,技术给我的是原始的网站日志,既包含了爬虫数据也包含了用户数据等等,没办法,只能自己清洗一下这些数据了。

  SEO清洗网站爬虫日志的流程

  

  1、我先按照user-agent包含baiduspider的进行过滤,只保留包含baiduspider的数据,这样我就拥有了百度爬虫的数据;

  2、但百度爬虫数据中,也有很多假爬虫,按照ip反查的思路,我先把所有baiduspider的ip地址拿下来,然后去重;

  3、得到600多个不重复的唯一ip地址。我对这些ip地址通过程序批量识别真假爬虫,最后是真爬虫的ip地址有82个;

  4、我再在第一步的所有爬虫数据中进行过滤,只保留ip地址为真的百度爬虫的这82个。最后得到的数据就是真的爬虫数据了;

  5、我将最近7天内发布的url在这个清洗后的日志中进行查询,最后发现所有的新页面在发布后的1分钟内爬虫都有抓取,可想抓取是多么的及时,并且在第二天、第三天都还会有对这篇文章的抓取。

  思路总结

  

  1、锁定网站不收录的是哪类型的页面,就像案例所说,最终我锁定到了新闻页;

  2、思考网站不收录的这个时间点内,对网站有改动权限的人都做了什么,这些改动会不会是网站不收录的原因;

  3、分析网站的日志,看不收录的那个网站类目是不是有抓取,没抓取就是抓取问题,有抓取就不存在问题;

  4、当网站改动上没问题,抓取没问题。就在站长工具反馈中进行详细的反馈;

  5、反馈的同时也可以对该类型的模版页面进行适当的调整,例如增加链接入口、增加网页丰富度,新闻页提高原创比例,文章内容的质量程度。

  6、要是还不能收录的话,就对当前类型的模版页面进行大改版,重构页面进行尝试。

  • 超低建站费用

  • 具备营销能力

  • 强大SEO功能

  • 贴心售后技术支持

no cache
Processed in 0.242191 Second.