想不通自建的 Google 镜像是怎么被镜像导航站发现并收录的

2017-04-30 19:14:21 +08:00
 also24

为了自己方便,就用 ngx_http_google_filter_module 搭建了个 Google 镜像给自己用。 因为只有自己在用,也就没有加任何验证机制。

今早使用的时候突然发现触发了人机验证码,觉得很奇怪就去查日志,结果发现

查 Referer 发现许多站点发布了我的镜像的地址出去:

那么问题来了,我这个镜像一直是自己自用的,加了 Chrome 自定义搜索和 Safari 书签,加了 Workflow,除此之外没有给别人用过或者对外发布过,这些站是怎么爬到我这个地址的呢?

目前怀疑的主要有以下几种情况:

  1. 在 log 里面有看到 bing 的爬虫,有可能进了某些搜索结果
  2. 这个站有申请 Let's encrypt 的证书,在 Google Certificate Transparency 是可以查到子域域名的,gg 开头一看就有特定功能
  3. 我自己健忘,有发过域名给别人但是自己忘了
  4. 我通过这个搜索访问过部分站,在他们的访问日志里留下了 Referer
7894 次点击
所在节点    问与答
26 条回复
wwqgtxx
2017-04-30 19:51:09 +08:00
可能分享给了某人然后用 360 浏览器访问过,然后…
also24
2017-04-30 19:55:43 +08:00
@wwqgtxx #1 假设确实是第三条我自己健忘,但那最多也就是三五个人用用,也不至于直接进了镜像导航站呐
wwqgtxx
2017-04-30 19:56:54 +08:00
@also24 你试试在 360 搜索中能不能搜到你的网站,如果能,应该就是 360 浏览器干的好事了
also24
2017-04-30 20:02:17 +08:00
@wwqgtxx #3 试了,啥都没有……
arnofeng
2017-04-30 20:14:28 +08:00
加上白名单跳转机制即可。比如我的 g.adminhost.org 非允许网站来源不可访问 直允许直接访问。
also24
2017-04-30 20:18:20 +08:00
@arnofeng #5 限制已经加了,比你这个要严格一些。主要是不明白为什么会被抓到。

另外日志里还频繁出现 PhantomJS 的身影,也不知道想干啥

111.202.27.182 - - [30/Apr/2017:20:16:56 +0800] "GET / HTTP/1.1" 401 693 "-" "Mozilla/5.0 (Unknown; Linux x86_64) AppleWebKit/538.1 (KHTML, like Gecko) PhantomJS/2.1.1 Safari/538.1"
ZE3kr
2017-04-30 20:47:38 +08:00
确实可能是第四条,因为我经常从我的网站统计里翻翻来源,然后就找到了一堆 Google 镜像,当然我不会公开出去
HXM
2017-04-30 20:57:52 +08:00
我也发现了我的镜像站被收录了。。。
HXM
2017-04-30 20:58:36 +08:00
@also24 请问怎么加限制呢
also24
2017-04-30 21:02:48 +08:00
@HXM #9 我有用 verynginx,自己给自己的浏览器加了个 cookie 特征,在 verynginx 上配置放行策略
also24
2017-04-30 21:04:56 +08:00
@ZE3kr #7 hhhh 我就知道会有人看这个
bkmi
2017-04-30 22:06:13 +08:00
被扫到的,太正常了
also24
2017-04-30 22:12:18 +08:00
@bkmi #12 好奇这个扫是按什么来的,那些扫端口的我能理解,毕竟 IP 和端口就那么多,但是扫子域名?这工作量感觉有些大啊。
arnofeng
2017-04-30 22:57:19 +08:00
@arnofeng 为毛你比我更严格 我也加了 cookie 特征 nginx 自带就可以设置的 +同时判断后台 host+前端判断 host。手动滑稽。
taineric
2017-04-30 23:09:19 +08:00
bing 爬虫在先还是那些网站收录在先?网站收录了肯定有爬虫。
taineric
2017-04-30 23:15:50 +08:00
谷歌必应都收录了,必应国内版触关键词被和谐了,国际版还可以看到
also24
2017-04-30 23:18:16 +08:00
@arnofeng #14 这里的 “更严格” 指的是 “开放范围更小” 啦,毕竟你的站还是开放给其它人使用的。而我只需要保证自己能用,所以只是在 cookie 里加了一段表明自己身份用来校验的信息啊。

@taineric #15 bing 在先,而且非常非常的快,站点刚上线 8 个小时 bing 就来了。比 bing 更早的是 trustnet 的证书扫描请求

208.93.152.79 - - [17/Apr/2017:10:06:36 +0000] "HEAD / HTTP/1.0" 301 0 "-" "-"
208.93.152.79 - - [17/Apr/2017:10:06:37 +0000] "HEAD / HTTP/1.0" 301 0 "-" "TLSProbe/1.0 (+https://scan.trustnet.venafi.com/)"
40.77.167.62 - - [17/Apr/2017:15:09:07 +0000] "GET / HTTP/1.1" 301 178 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"
also24
2017-04-30 23:20:45 +08:00
@arnofeng #14 另外我这里没有直接用 nginx 自带的一个原因是 nginx 似乎无法自定义 401 错误页面,verynginx 我本身就装的有,配起来又方便,自然就直接用了。


@taineric #16 你这里的收录指的是收录了网址么?我在各家搜索引擎看到的都只收录了网址,但是没有收录任何页面信息。
just1
2017-04-30 23:59:04 +08:00
在 dns 服务商把搜索引擎 A 到 127.0.0.1
also24
2017-05-01 14:30:41 +08:00
@just1 #19 蛤?屏蔽搜索引擎也不至于这样啊。。。我直接把蜘蛛的请求也 401 掉就好了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/358265

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX