我用同一个帐号,在 iPad 上需要翻两三页才看到大量这个站群的结果,在 PC 上一突开就满脸都是 ... 看起来 Google 在这种奇怪的地方下了不少功夫
另外对于用户来讲,这个最好的手段应该是在服务器端把结果过滤掉,就不会出现“过滤之后首页根本没有结果”的现象了,不过 Google 貌似没有直接提供一个域名的全局黑名单。最骚的是这个站对“-知识网 -百科网”的关键词完全免疫,观察之后,用“-上一篇”把它干掉了(明明“百科网”在标题和正文里面都有,可能 Google 给文本分了词?虽然其实中文不需要这么干)。不过这个关键词居然貌似没有误伤 CNBlogs 。
对于这个关键词(“c 语言二进制输出 -上一篇”)来讲,我的搜索结果中唯一值得关注的只有 CNBlogs,其实还有 CSDN 和百度知道的不少结果,但是这种结果会不会仔细去看就是个人喜好了。不过我最希望 Google 给出的其实是这个:
https://zhihu.com/question/438434182/answer/1699713812 C 语言中为什么没有直接提供二进制数的输出? - 暮无井见铃的回答 - 知乎 看到 jajuju 的这个答案,我这个实验就算没白做。
可惜在 Google 给出的一共不到一百个结果中,并没有这个结果(只有个知乎专栏的),好消息是如果你 site:
zhihu.com 的话还是能找到的,我就是这么找到的。可见结果权重排序基本是乱的。
从实际的角度来说,要想最大限度地“净化”搜索结果,那么应该可以搞一个白名单,Google Custom Search 貌似是可以这么做的,把
reddit.com wikipedia.org zhihu.com bilibili.com youtube.com bbs.nga.cn v2ex.com chiphell.com 等一干网站加进去就行了。这几个差不多 cover 了我需要的简体中文内容的一大半,另外还有百度贴吧,百度的结果明显比 Google 要好,这个没救。
(我注意到 Google 还喜欢:对于同一个域名的结果,只显示他认为最 relevant 的,剩下的不给你看,或者有但是在二级页面里而不是全给你直接列出来。如果中文网络内容确实如此中心化的话,在 Google 这种策略下域名白名单反倒是更优的选择)
这么搞有一个直接的缺点就是干掉了所有的独立博客,这个是没法穷举的。但是我发现好像就算不加任何过滤,中文独立博客的结果也很有限,所以直接大网站白名单好像也不会差太多。
一个典型的例子是,刚才那个关键词几乎没有来自
github.io 的结果。但是单独 site:
github.io 的话可以发现并不是没有有用的结果(虽然不多,大概是被“-上一篇”给干掉了)。鉴于确实有不少人往
github.io 上放博客,所以独立博客作者可以考虑往
github.io 上扔个副本然后链到主站,这样不需要审查,也算是间接 SEO 。