想不通自建的 Google 镜像是怎么被镜像导航站发现并收录的

2017-04-30 19:14:21 +08:00
 also24

为了自己方便,就用 ngx_http_google_filter_module 搭建了个 Google 镜像给自己用。 因为只有自己在用,也就没有加任何验证机制。

今早使用的时候突然发现触发了人机验证码,觉得很奇怪就去查日志,结果发现

查 Referer 发现许多站点发布了我的镜像的地址出去:

那么问题来了,我这个镜像一直是自己自用的,加了 Chrome 自定义搜索和 Safari 书签,加了 Workflow,除此之外没有给别人用过或者对外发布过,这些站是怎么爬到我这个地址的呢?

目前怀疑的主要有以下几种情况:

  1. 在 log 里面有看到 bing 的爬虫,有可能进了某些搜索结果
  2. 这个站有申请 Let's encrypt 的证书,在 Google Certificate Transparency 是可以查到子域域名的,gg 开头一看就有特定功能
  3. 我自己健忘,有发过域名给别人但是自己忘了
  4. 我通过这个搜索访问过部分站,在他们的访问日志里留下了 Referer
7894 次点击
所在节点    问与答
26 条回复
alect
2017-05-01 16:22:36 +08:00
我有一个很私人的内容直接没敢做域名的 A 记录,自己在家里的路由器上加的记录……
also24
2017-05-01 16:43:56 +08:00
@alect #21 hhhh 曾经这么干过,后来想想太自欺欺人了,还是 Server 端做好防护比较重要
msg7086
2017-05-02 10:32:32 +08:00
@also24 别人要是能猜出你自定义的域名……
那你做啥防护都没用了。
also24
2017-05-02 10:34:03 +08:00
@msg7086 #23 那你要保证你站上没有引用任何外站内容,没有任何从你站上跳出的链接,不然抓 Referer 就抓到了
msg7086
2017-05-02 22:38:07 +08:00
@also24 然后……还是要猜出原站 IP 地址啊。
also24
2017-05-03 02:36:04 +08:00
@also24 #24 =。= 对我这种穷孩子来说,只有两三台主机。。IP 一猜就猜到了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/358265

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX