谷歌搜索引擎蜘蛛爬虫
google 搜索引擎蜘蛛爬虫的 UA 一般为
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)、
Googlebot/2.1 (+http://www.googlebot.com/bot.html)、
Googlebot/2.1 (+http://www.google.com/bot.html)、
Googlebot-Image/1.0,
其中最后一个是 google 图片搜索蜘蛛爬虫。
google 搜索引擎爬虫的 IP 段为:66.249.、203.208.60.、216.239.、66.102.、64.233.、72.14.
百度搜索引擎蜘蛛爬虫
目前,百度搜索蜘蛛对外公布的 UA 为:目前对外公布过的 UA 是:
移动 UA: Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
PC UA: Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
新增渲染 UA:
移动 UA: Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
PC UA:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
百度爬虫的 IP 段比较复杂,分爬取网页的、巡逻蜘蛛、准备来抓取、抓内页、抓权重的等等,这里简单给个汇总的:123.125.、180.76.5.、220.181.108.、220.181.7.、220.181.124.、220.181.125.、111.206.
此外,百度的 Baiduspider IP 的反查 hostname 都是以 .baidu.com 或 .baidu.jp 的格式命名
搜狗搜索引擎蜘蛛爬虫
搜狗搜索引擎 UA 为 Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)、图片蜘蛛:Sogou Pic Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
搜狗蜘蛛 IP 段: 123.126.113.79-123.126.113.191、220.181.89.190、220.181.89.189、218.30.103.155、61.135.189.75、220.181.94.228、61.135.189.74、220.181.89.157、220.181.89.165、220.181.89.183、220.181.89.194、218.30.103.80
360 搜狗搜索引擎蜘蛛爬虫
360搜索蜘蛛爬虫的 UA 为:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36; 360Spider
360 搜索社区认证的 360so 蜘蛛 IP 段:180.153.232.、180.153.234.、180.153.236.、180.163.220.、42.236.101.*、
42.236.102.、42.236.103.、42.236.10.、42.236.12.、42.236.13.、42.236.14.、42.236.15.、42.236.16.、42.236.17.、42.236.46.、42.236.48.、42.236.49.、42.236.50.、42.236.51.、42.236.52.、42.236.53.、42.236.54.、42.236.55.、42.236.99.*
神马搜索引擎蜘蛛爬虫
神马 Spider 的 user-agent 为:YisouSpider,因为历史原因此 user-agent 名称将会继续使用。神马 Spider 的 ip 地址是一组 ip 池,会动态变,官方未列举,一些可能神马蜘蛛的 IP:42.156.136.-42.156.139.、42.120.160.42.120.161.
Bing 搜索引擎蜘蛛爬虫
微软 Bing 蜘蛛爬虫的 UA 是 Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm),一些 IP 段是 207.46.13.、157.55.39.、40.77.167.
Yandex 搜索引擎蜘蛛爬虫
Yandex 是俄罗斯的搜索引擎,其 UA 是 Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots),一些 IP 段为:37.9.113.、37.9.87.、93.158.161.、178.154.244.、213.180.203.、141.8.142.、5.255.250
参考链接
【官方说法】只需两步,正确识别百度蜘蛛 - https://ziyuan.baidu.com/college/articleinfo?id=1002
百度蜘蛛最新UA及各大搜索引擎蜘蛛爬虫UA汇总 - http://www.webkaka.com/tutorial/zhanzhang/2017/061068/
祁劲松博客-常见搜索引擎爬虫IP地址段
发表评论 取消回复