首页 > 服务器 > Linux服务器 > 正文

linux下5条提取百度蜘蛛Apache日志的命令

2020-02-09 11:01:36
字体:
来源:转载
供稿:网友

考虑到平时要做优化,看百度爬虫到底爬取了哪些目录,哪些链接或目录被爬取的次数比较少,以便对页面的链接做nofollow,robots.txt等屏蔽处理,引导爬虫抓取哪些需要被爬取的页面,提升整体的收录率。

总结了用的较多几条命令:

提取Apache日志百度蜘蛛的相关爬行记录

1. 百度蜘蛛爬行的次数 cat access_log | grep Baiduspider+ | wc 最左面的数值显示的就是爬行次数。

2. 百度蜘蛛的详细记录(Ctrl+C可以终止) cat access_log | grep Baiduspider+ 也可以用下面的命令: cat access_log | grep Baiduspider+ | tail -n 10 cat access_log | grep Baiduspider+ | head -n 10 只看最后10条或最前10条,这用就能知道这个日志文件的开始记录的时间和日期。

3. 百度蜘蛛抓取首页的详细记录 cat access_log | grep Baiduspider+ | grep “GET / HTTP”

4. 百度蜘蛛派性记录时间点分布 cat access_log | grep “Baiduspider+” | awk ‘{print $4}’

5. 百度蜘蛛爬行页面按次数降序列表 cat access_log | grep “Baiduspider+” | awk ‘{print $7}’ | sort | uniq -c | sort

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表