Gg爬虫貌似出了一点问题
 2019-01-18 14:37:59   271   0   

本文最后更新于天前,文中介绍内容及环境可能已不适用.请谨慎参考.

中午习惯性的查看下访问日志。发现一堆的美国xxxxx Mountain View的访问记录。

再看看ip,一色的72.14.***,

绝壁是哪个爬虫,新的爬虫嘛?不对啊,看起来像gg Ad的爬虫啊。

应该是处理过的呢,怎么还会跑用户日志里面来呢。

 

后台检查了一番,发现

gg ad爬虫大抵是2B了一回,竟然不带gg Agent标识头过来爬取数据。。

导致直接被误认为是用户访问,搞的日志一团糟- -!

 

从8点到11:30一段时间内,过来的gg ad爬虫都不带头的。。

 

对应时间的爬虫日志.,都只有访问列表页面的

 

完全没有详情的访问记录,

后台nginx日志查看,也没有头部信息。坑,绝壁是爬虫服务在调整或者大抵是抽风了,或者有人在调试? >_<!

昨天都是正常的嘛。

随便了,不带标识就给你屏蔽掉.

好家伙,既然是爬虫就老老实实带上Agent头咯,不带头的直接卡掉。

 

           if (inblack) {
				logger.warn(ip + " is in blackiplist ,request url:" + request.getRequestURI() + " 
             ");

				// 在ip黑名单中,再过滤是否有爬虫标识
				// 将google ip段加入黑名单。 如果访问不带gg请求标识,直接屏蔽返回.
				if (isInSearchUserAgent(userAgent)) {
					// 爬虫

					// 是否为屏蔽爬虫标识
					if (isInBlackSearchUserAgent(userAgent)) {
						inblack = true;
					} else {
						// 即使ip段在黑名单中,但是带了爬虫标识的,并且不再爬虫黑名单中,可以访问.
						inblack = false;
					}
				}
			} else {
				// ip没有屏蔽,但是爬虫标识屏蔽了
				// 是否为屏蔽爬虫标识
				if (isInBlackSearchUserAgent(userAgent)) {
					inblack = true;
				}
			}

这样就舒爽多了~

laugh


 2024-08-04 08:14:53 
 0

  本文基于CC BY-NC-ND 4.0 许可协议发布,作者:野生的喵喵 固定链接: 【Gg爬虫貌似出了一点问题】 转载请注明



发表新的评论
{{s_uid}}   , 欢迎回来.
您的称呼(*必填):
您的邮箱地址(*必填,您的邮箱地址不会公开,仅作为有回复后的消息通知手段):
您的站点地址(选填):
留言:

∑( ° △ °|||)︴

(๑•̀ㅂ•́)و✧
<( ̄) ̄)>
[]~( ̄▽ ̄)~*
( ̄ˇ ̄)
[]~( ̄▽ ̄)~*
( ̄ˇ ̄)
╮( ̄▽ ̄)╭
( ̄ε(# ̄)
(⊙ˍ⊙)
( ̄▽ ̄)~*
∑( ° △ °|||)︴

文章分类

可能喜欢 

KxのBook@Copyright 2017- All Rights Reserved
Designed and themed by 野生的喵喵   1621246   44905