2019-01-18 14:37:59
271
0
中午习惯性的查看下访问日志。发现一堆的美国xxxxx Mountain View的访问记录。
再看看ip,一色的72.14.***,
绝壁是哪个爬虫,新的爬虫嘛?不对啊,看起来像gg Ad的爬虫啊。
应该是处理过的呢,怎么还会跑用户日志里面来呢。
后台检查了一番,发现
gg ad爬虫大抵是2B了一回,竟然不带gg Agent标识头过来爬取数据。。
导致直接被误认为是用户访问,搞的日志一团糟- -!
从8点到11:30一段时间内,过来的gg ad爬虫都不带头的。。
对应时间的爬虫日志.,都只有访问列表页面的
完全没有详情的访问记录,
后台nginx日志查看,也没有头部信息。坑,绝壁是爬虫服务在调整或者大抵是抽风了,或者有人在调试? >_<!
昨天都是正常的嘛。
随便了,不带标识就给你屏蔽掉.
好家伙,既然是爬虫就老老实实带上Agent头咯,不带头的直接卡掉。
if (inblack) {
logger.warn(ip + " is in blackiplist ,request url:" + request.getRequestURI() + "
");
// 在ip黑名单中,再过滤是否有爬虫标识
// 将google ip段加入黑名单。 如果访问不带gg请求标识,直接屏蔽返回.
if (isInSearchUserAgent(userAgent)) {
// 爬虫
// 是否为屏蔽爬虫标识
if (isInBlackSearchUserAgent(userAgent)) {
inblack = true;
} else {
// 即使ip段在黑名单中,但是带了爬虫标识的,并且不再爬虫黑名单中,可以访问.
inblack = false;
}
}
} else {
// ip没有屏蔽,但是爬虫标识屏蔽了
// 是否为屏蔽爬虫标识
if (isInBlackSearchUserAgent(userAgent)) {
inblack = true;
}
}
这样就舒爽多了~
2024-08-04 08:14:53
0
赞
赏
本文基于CC BY-NC-ND 4.0 许可协议发布,作者:野生的喵喵。 固定链接: 【Gg爬虫貌似出了一点问题】 转载请注明
相关文章:
发表新的评论
文章分类
文章归档
标签
deb ,
,
蓝屏 ,
select ,
html5 ,
tomcat ,
gcc ,
ajax ,
apt-get update ,
选择 ,
js加密 ,
java ,
工作 ,
ocr ,
AngularJs ,
感慨 ,
work ,
click ,
javascript ,
反向代理 ,
ip查询 ,
空间查询 ,
word ,
ECS服务器 ,
centos ,
杂 ,
StartupWMClass ,
前端 ,
js ,
vmdk ,
感概 ,
select2 ,
virtualbox ,
gg代理 ,
share ,
seo ,
风筝 ,
email ,
ASR ,
转换 ,
cool ,
activiti-ui ,
喵小凡 ,
@PropertySource ,
ckeiditor ,
网站攻击 ,
SRILM ,
风景 ,
plugin ,
vdi ,
扩容 ,
chorme ,
阿里云 ,
KALDI ,
num ,
packer2 ,
pic ,
gg镜像 ,
win8.1 ,
ecs ,
mysql ,
Ubuntu ,
快递查询 ,
nginx ,
ubuntu ,
swap ,
maven ,
entropy_avail ,
tencent ,
语音识别 ,
prerender ,
xfce4 ,
进度条 ,
存储过程 ,
activiti ,
熵 ,
日出 ,
练笔 ,
虞美人 ,
nodejs ,
词 ,
demo ,
jquery ,
random ,
linux ,
cat ,
bootstrapValidator ,
angularJs ,
live ,
on ,
gg ,
雪 ,
婚姻 ,
景色 ,
@Autowired ,
pdf ,
emqttd ,
优化 ,
thchs30 ,
opencv ,