源服务器的 iptables 能检测到 cdn 反代后的真实用户 ip 吗？

我有个网站用的是腾讯的 cdn ，用户访问先到腾讯 cdn ，然后 -> 源服务器

现在的问题是一堆爬虫来爬我数据，腾讯的 cdn 封禁 ip 黑名单太弱了（只支持 /24/18/16 这样的 IP 段，其他的支持很少），支持数量也很有限，我想在源服务器上用 iptables 封禁爬虫的 ip 段可行吗？

herozzm

2022-01-03 18:29:35 +08:00

想法是封禁所有阿里云的 ip ，大部分爬虫都部署阿里云上，我已经通过 https://bgp.he.net/search?search[search]=aliyun&commit=Search 得到了大部分的阿里云 ip

Buges

2022-01-03 18:37:31 +08:00

当然不能。真实 IP 是通过 X-REAL-IP 这样的应用层协议传输的，当然应该用应用层的防火墙拦截。

lhx2008

2022-01-03 18:37:41 +08:00

cdn 会带 http 头，显示源 IP ，这个时候可以 cdn -> 过滤器如 nginx -> 源服务器，然后通过过滤器解析 http 头做拦截

0x0021h

2022-01-03 18:37:54 +08:00

使用 X-Forwarded-For 可以获得真实的爬虫 IP 地址，然后封锁。

0x0021h

2022-01-03 18:38:30 +08:00

不过仅能在 CDN 的 firewall 上？ ()

herozzm

2022-01-03 18:41:52 +08:00

@lhx2008 我问问腾讯的技术客服

des

2022-01-03 20:01:25 +08:00

@herozzm
在应用层处理不是能做更多操作吗？

zingl

2022-01-04 02:22:45 +08:00

用自己的 IP 试一下，几分钟就知道答案了

tencentcloud

2022-01-04 12:15:41 +08:00

@herozzm 您好，目前腾讯云内容分发网络（ CDN ）支持一些简单的爬虫防护策略，比如说您可以根据爬虫请求设置 IP 黑名单，UA 黑白名单配置，http referer 防盗链等。如果您要求更高的爬虫防护，建议您使用安全加速产品(SCDN) Bot 爬虫防护功能，文档如下： https://cloud.tencent.com/document/product/1226/62782 ，感谢您对腾讯云的支持。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/825931

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.