1.百度UA标记:
移动UA:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
PC UA:Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
新增渲染UA:
移动UA:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
PC UA:Mozilla/5.0 (compatible;Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
2.百度蜘蛛IP段大全:
IP主段 | IP段或IP | 说明 |
60.28.22.* | 60.28.22.0 | 百度蜘蛛,IP段位于天津市 |
60.172.229.* | 60.172.229.61 | 这个ip段百度蜘蛛IP造访,准备抓取你东西,抓取网页的百度蜘蛛。 |
61.129.45.* | 61.129.45.72 | 这个ip段百度蜘蛛IP造访,准备抓取你东西,抓取网页的百度蜘蛛。 |
61.135.162.* | 61.135.162.0-61.135.169.255 | 这个ip段百度蜘蛛IP造访,准备抓取你东西,抓取网页的百度蜘蛛。IP段位于北京市 |
61.135.168.* | 61.135.186.0-61.135.190.255 | 百度图片爬虫。IP段位于北京市 |
111.206.*.* | 111.206.198.* | 百度渲染蜘蛛 |
111.206.*.* | 111.206.221.* | 百度渲染蜘蛛 |
116.179.*.* | 116.179.32.12 | 与220开头的类似、新版百度蜘蛛,高权重段,一般抓取文章页,IP段位于山西阳泉联通。 |
116.179.32.95 | 重点抓取内页,爬过的文章或首页基本24小时放出来。 | |
116.179.37.* | 百度渲染蜘蛛,巡查合规,类同惩罚蜘蛛。 | |
119.188.14.* | 119.188.14.13/35 | 百度蜘蛛,IP段位于济南市 |
121.14.89.* | 121.14.89.* | 这个ip段作为度过新站考察期,基本上是网站无排名。 |
123.15.*.* | 123.15.*.* | 百度图片爬虫。 |
123.125.66.* | 123.125.66.* | 代表百度蜘蛛IP造访,准备抓取你东西,IP段位于北京市 |
123.125.68.* | 123.125.68.* | 这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。IP段位于北京市 |
123.125.71.* | 123.125.71.95 | 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。IP段位于北京市 |
123.125.71.97 | 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。IP段位于北京市 | |
123.125.71.106 | 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。IP段位于北京市 | |
123.125.71.117 | 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或是采集文章。IP段位于北京市 | |
123.181.108.* | 123.181.108.77 | 抓取内页收录的, 权重较低,爬过此段的内页文章不会很快放出来,因不是原创 |
124.166.232.* | 124.166.232.* | 可能为新版新站专属百度蜘蛛,或低质量蜘蛛。 |
125.90.88.* | 125.90.88.* | 广东茂名市电信也属于百度蜘蛛IP主要造成成分,是新上线站较多,还有使用过站长工具,或SEO综合检测造成的。 |
159.226.50.* | 159.226.50.* | 百度其他蜘蛛,北京联通,功能未详! |
162.105.207.* | 162.105.207.0-255 | 百度其他蜘蛛,功能未详!IP段位于北京市 |
180.76.5.* | 180.76.5.87 | 百度其他蜘蛛,北京电信,功能未详! |
180.76.15.* | 180.76.15.* | 降权蜘蛛,有这个ip说明网站不会在收录了,一直到这个ip段消失。 |
180.149.133.* | 180.149.133.0-255 | 百度其他蜘蛛,功能未详!IP段位于北京市 |
183.91.40.* | 183.91.40.144 | 这个ip段出现在新站或站点有不正常现象后 |
202.108.249.* | 202.108.249.0-202.108.250.255 | 百度其他蜘蛛,功能未详!IP段位于北京市 |
203.208.60.* | 203.208..60.* | 此ip段为异常蜘蛛,通常由于网站服务器问题或其他违规行为会引起它来爬取 |
210.72.225.* | 210.72.225.* | 此ip段为日常巡逻蜘蛛,只要网站没有问题,没有违规操作就行。 |
218.30.118.* | 218.30.118.102 | 每天这个IP 段只增不减很有可能进沙盒或K站 |
220.181.7.* | 220.181.7.* | 代表百度蜘蛛IP造访,准备抓取你东西。 |
220.181.19.* | 220.181.19.0-255 | 百度其他蜘蛛,功能未详!IP段位于北京市 |
220.181.32.* | 220.181.32.0-220.181.38.255 | 百度其他蜘蛛,功能未详!IP段位于北京市 |
220.181.108.* | 220.181.108.0-255 | 百度其他蜘蛛,功能未详!IP段位于北京市 |
220.181.158.* | 220.181.158.107 | 百度其他蜘蛛,功能未详!IP段位于北京市 |
220.181.68.* | 220.181.68.* | 每天这个IP 段只增不减很有可能进沙盒或K站降权。 |
220.181.108.*【优质段】 | 220.181.108.75 | 重点抓取更新文章的内页达到90%,8%的抓取首页,2%其他权重ip段,抓过的文章或首页基本24小时放出来。 |
220.181.108.77 | 专用抓取首页IP权重段,一般返回代码是30400代表未更新。 | |
220.181.108.80 | 专用抓取首页IP权重段,一般返回代码是30400代表未更新。 | |
220.181.108.82 | 抓取tag页面。 | |
220.181.108.83 | 专用抓取首页IP权重段,一般返回代码是30400代表未更新。 | |
220.181.108.86 | 专用抓取首页IP权重段,一般返回代码是30400代表未更新。 | |
220.181.108.89 | 专用抓取首页IP权重段,一般返回代码是30400代表未更新。 | |
220.181.108.91 | 属于综合的。主要抓取首页和内页或者其它页面。属于权重IP段, 抓过的文章或首页基本24小时放出来 | |
220.181.108.92 | 属于综合的。主要抓取首页和内页或者其它页面。属于权重IP段, 抓过的文章或首页基本24小时放出来 | |
220.181.108.93 | 重点抓取内页,爬过的文章或首页基本24小时放出来。 | |
220.181.108.94 | 专用抓取首页IP权重段,一般返回代码是304 0 0代表未更新。 | |
220.181.108.95 | 这个是百度抓取首页的专用IP,基本来说你的网站会天天隔夜快照。 | |
220.181.108.97 | 专用抓取首页IP权重段,一般返回代码是304 0 0代表未更新。 | |
220.181.108.115 | 重点抓取内页,爬过的文章或首页基本24小时放出来。 | |
220.181.108.119 | 专用抓取首页IP权重段,一般返回代码是304 0 0代表未更新。 | |
220.181.108.156 | 重点抓取内页,爬过的文章或首页基本24小时放出来。 | |
220.181.108.158 | 重点抓取内页,爬过的文章或首页基本24小时放出来。 | |
220.181.108.180 | 重点抓取内页,爬过的文章或首页基本24小时放出来。 | |
220.181.108.184 | 重点抓取内页,爬过的文章或首页基本24小时放出来。 | |
百度自家
61.135.186.* :百度联盟爬虫,百度统计。
61.135.165.134:百度竞价蜘蛛北京联通。
61.135.169.*:百度公司内部专用IP;
111.206.198.*:百度渲染蜘蛛,专门抓取js、css和图片用的,百度站长工具落地着陆页检测IP。
111.206.221.*:百度渲染蜘蛛,专门抓取js、css和图片用的,百度站长工具落地着陆页检测IP。
117.34.74.66:百度竞价蜘蛛西安市电信。
118.122.188.194:百度竞价蜘蛛。
119.63.196.9:百度竞价蜘蛛。
123.125.67.* :百度站长工具的IP sitemap。
125.39.78.185:百度竞价蜘蛛天津联通。
203.119.241.*:百度主动推送的IP。
220.181.51.*:百度站长工具的IP sitemap。
220.181.108.120:抓取/robots.txt。
220.181.108.146:抓取/robots.txt。
百度联盟爬虫【百度统计】
61.135.186.*
站长工具模仿的百度蜘蛛。
61.147.98.146
61.188.39.16
113.98.254.245
117.21.220.245
117.28.255.42
114站长工具箱(这个是你的网站不稳定时常来的)
119.147.114.213
121.10.141.*
搜外站长工具蜘蛛。
124.248.34.52
也属于百度蜘蛛IP 主要造成成分,是新上线站较多,还有使用过站长工具,或SEO综合检测造成的,没有多大用。
百度蜘蛛
159.226.50.*
180.76.5.*
180.76.5.87
220.181.158.107
伪装百度蜘蛛IP
180.149.130.*
一般成功抓取返回代码都200,返回304代表网站没更新。
- 如何封禁百度蜘蛛:
- 可以通过更新网站的
robots.txt
文件来实现。这个文件告诉搜索引擎哪些页面可以抓取,哪些不可以。 - 在
robots.txt
文件中,可以明确指定不希望百度蜘蛛访问的资源或目录。 - 更新
robots.txt
文件后,还需要通过搜索资源平台的Robots
工具提交这个文件,让搜索引擎知道有更新。 - 需要注意的是,即使提交了更新,搜索引擎也需要一段时间来更新其抓取策略,所以不是立即就会停止抓取。
- 可以通过更新网站的
- 封禁百度蜘蛛可能带来的影响:
- 如果百度蜘蛛没有被正确抓取,可能会导致网站在百度搜索中的收录和展现减少。
- 如果封禁了百度蜘蛛,网站或目录的流量可能会出现异常下降。
- 在搜索结果中,摘要可能会显示“存在robots封禁”字样。
- 如果出现以上情况,网站管理员应该自查是否存在封禁百度蜘蛛的问题,并及时解除封禁。
- 如何解除封禁百度蜘蛛:
- 首先,检查
robots.txt
文件,看看是否有对百度蜘蛛的封禁记录。 - 如果
robots.txt
文件没有问题,那么进一步检查是否封禁了百度UA(用户代理)。这可以通过执行特定的curl命令或变更浏览器UA来验证。 - 如果以上都没有问题,那么可能是IP级别的封禁。这通常与网站的防火墙系统配置有关,需要查看防火墙配置系统后台,检查是否存在对百度蜘蛛IP的封禁措施。
- 首先,检查