大量来自FackBook的攻击请求，这是怎么做到的，怎么过滤这些请求

James · 2024-09-02T11:53:22+08:00

日志里边大量这种攻击，这种是如何实现的。有没有好的防御方式。 57.141.3.19 - - [02/Sep/2024:11:51:49 +0800] "GET /kR4fvWj.html HTTP/1.1" 404 1249 "-" "meta-externalagent/1.1 (+https://deve...

James

#5 308066400 谢谢

alay

这是被人盯上了。

rabbit

SemrushBot 可以用robots屏蔽掉吧

James

#8 rabbit 主要的来源还是 FackBook 的ip，刚删除的，又好多了

luckycxy

这个不是攻击，是我的监控服务，中午又宕机了半个钟

Badcat

直接禁止facebook的ip会发生什么

‏[已注销]

加个判断 host 是不是来自域名就可以，各种cdn也是这样子整的

James

#13 rm-rf/* 看请求页面是随机请求的，像是cc攻击。

#12 ‏[已注销] 我想从防火墙层面拦截，不想放到web服务器里边判断，放到防火墙层面会更节约资源。

rm-rf/*

如果IP不是官方的，一般是伪造的。
如果IP是官方的，一般是养大量空闲爬虫池（顶级域名或者二级域名均可），然后把要攻击的网址url/ip a过来。爬虫就能不断爬。

对于大厂如google，bing等等，对网站有评分的，会限制“垃圾网站”频率。但是对于某些新入局的爬虫来说。除了正常外爬外。某些情况主动提交一次索引请求，他就爬页面一次，这个页面n个a标签，他就顺着标签爬n次。

rm-rf/*

#14 James 网页动态生成a标签引用过来就行了。

然后把链接给你a过来。
如果爬虫遵循robots.txt，直接写robots.txt就不会爬了，不遵循robots.txt，屏蔽UA或者IP CIDR。

James

#15 rm-rf/* Linux下屏蔽 IP CIDR有没有好用一点的可视化管理的工具

rm-rf/*

#16 James iptables -A INPUT -p tcp -s 57.141.0.0/16 -j REJECT ?

叫GPT直接给你写一个flask

或者直接上一个脚本

#!/bin/bash

if [ $# -ne 1 ]; then
    echo "usage: $0 <IP CIDR>"
    exit 1
fi

IP_TO_BLOCK="$1"

iptables -A INPUT -p tcp -s $IP_TO_BLOCK -j REJECT

if [ $? -eq 0 ]; then
    echo "block: $IP_TO_BLOCK"
else
    echo "block fail"
fi

James

#17 rm-rf/* 算了，就这样敲命令吧，见一个杀一个。

rm-rf/*

#18 James 你不用见一个杀一个。这么麻烦。

fackbook把自己爬虫IP都公开了的。
https://developers.facebook.com/docs/sharing/webmasters/web-crawlers

AS32934

https://ipinfo.io/AS32934
http://ping0.cc/as/AS32934

James

#19 rm-rf/* 看了这文档我估计攻击的人就是使用这个api来攻击的了

curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"

不停生成url发过去。FB就会一直爬