rm-rf/* 如果IP不是官方的,一般是伪造的。 如果IP是官方的,一般是养大量空闲爬虫池(顶级域名或者二级域名均可),然后把要攻击的网址url/ip a过来。爬虫就能不断爬。 对于大厂如google,bing等等,对网站有评分的,会限制“垃圾网站”频率。但是对于某些新入局的爬虫来说。除了正常外爬外。某些情况主动提交一次索引请求,他就爬页面一次,这个页面n个a标签,他就顺着标签爬n次。
rm-rf/* #14 James 网页动态生成a标签引用过来就行了。 然后把链接给你a过来。 如果爬虫遵循robots.txt,直接写robots.txt就不会爬了,不遵循robots.txt,屏蔽UA或者IP CIDR。
rm-rf/* #16 James iptables -A INPUT -p tcp -s 57.141.0.0/16 -j REJECT ? 叫GPT直接给你写一个flask 或者直接上一个脚本 #!/bin/bash if [ $# -ne 1 ]; then echo "usage: $0 <IP CIDR>" exit 1 fi IP_TO_BLOCK="$1" iptables -A INPUT -p tcp -s $IP_TO_BLOCK -j REJECT if [ $? -eq 0 ]; then echo "block: $IP_TO_BLOCK" else echo "block fail" fi
rm-rf/* #18 James 你不用见一个杀一个。这么麻烦。 fackbook把自己爬虫IP都公开了的。 https://developers.facebook.com/docs/sharing/webmasters/web-crawlers AS32934 https://ipinfo.io/AS32934 http://ping0.cc/as/AS32934
James #19 rm-rf/* 看了这文档我估计攻击的人就是使用这个api来攻击的了 curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL" 不停生成url发过去。FB就会一直爬