我们做一个新的搜索引擎, 「F Search | F 搜」, 希望能给大家除了百度和搜狗以外不同的选择 - V2EX 首发

2021-11-24 15:39:57 +08:00
 tmacLiu9527

Our Vision

访问: https://fsou.cc

主要功能

中文搜索

英文搜索

In-line 翻译

CDN 加速

在搜索结果中如果有 StackOverflow Question 和 Github Issue 的页面, F 搜会加载到 CDN 加速

StackOverflow CND 加速 (beta) - 考虑到国内用户访问 SO 的速度问题, 我们将原页面缓存到 stackoverflow.nilmap.com 进行加速

Github Issues CDN 加速 (beta) - 考虑到国内用户访问 GH 的速度问题, 我们将原页面缓存到 github.nilmap.com 进行加速

高级搜索

+: 必须包含关键字

-: 必须排除关键字

site: 站内搜索

filetype: 搜索文件

more: 偏好某站

对于部分常用的网站, 比如所知乎, stackoverflow, github 等支持 inferred token, 比如搜索 "cannot read property of site:知乎" = "read property of site:zhihu" = "read property of site:zhihu.com"

代码搜索 (alpha)

这个功能处于 alpha 阶段, 需要在 toggle 实验功能 (右上角的小狗狗图标). 目前能够支持一些简单自然语言的 naive 搜索, 比如说 "java 用 scanner 输入字符串" 会有如下的结果

开发小工具

目前我们提供了几个开发用的小工具, 例如 Gist, Json Formatter, Regex 调试, Markdown 在线笔记. 都是来自于 Github 上面的开源项目, 也是我们团队经常使用的一些工具.

关于隐私

我们的隐私条约 - https://fsou.cc/privacy

我们自己手写的简单的隐私条约 (如果你有相关知识, 觉得我们写的有问题的, 请联系我), 如果有任何改动, 我们会及时通知所有相关的用户.

F 搜目前不使用 Cookie, 但是会使用浏览器的 Local Storage 存储如下信息, 服务端不保存数据:

  1. 语言偏好
  2. 搜索关键字历史
  3. 登录状态

关于 Censoring

对于搜索的关键字不进行检测, 但是对于结果会进行检测和过滤. 我们做个项目的初衷是帮助工程师更高效的工作和获取知识 (我们在创业过程中遇到的最大的痛点). 所以我们想花 90%的时间专注在产品的打造和痛点的解决而不是关键字的过滤, 因此我们的策略会比较的 aggressive, 如果你是正常使用的话, 应该不会有任何问题.

合法合规

因为产品的主要用户群是在国内, 所以我们会遵从中国相关法例做到个人信息保护合规, 虚假广告与虚假宣传风险排查与合规与网络安全与数据保护合规. 如果有任何问题, 请联系我.

如何使用

输入邮箱获取到登录链接, 如果你不想使用个人的邮箱, 请使用临时邮箱. 更多信息可以查看下面的 FAQ. 另外, 我们用的邮件服务是 Mailgun, 可能存在收邮件缓慢的问题, 请耐心等待, 如果长时间没有收到, 请联系我.

已知问题

  1. 部分浏览器适配问题, 例如旧版本 360.
  2. 缺少实时性数据支持, 例如新闻, 热搜等.
  3. LBS - 比如说 location aware 的搜索, 例如本地餐厅, 周边 POI 等 (因为没有收据收集, 目前的实现方式不是很满意, 所以暂时先不提供了)

FAQ

为什么和 Google 这么像?

Google 做了大量的用户研究, 在用户浏览和交互效率上面已经是非常极致了, 我们不想 reinvent the wheel.

数据来源是什么?

  1. Google (30%)
  2. Bing (30%)
  3. On-premise (25%)
  4. Yahoo Boss (10%)
  5. Yandex (5%)
  6. Wolfram Alpha (5%)

我们不从百度和搜狗获取任何列表结果的信息.

为什么需要登录?

Anti-spamming - 目前都会要求登录, 后续 public beta 会解除这个限制.

会开放接口允许第三方服务使用吗?

会. 我们做这个产品的初衷是帮助用户更高效的工作和获取知识, 那赋能大家可以打造自己的产品是理所当然的. 具体的 Roadmap 我们会在接下来的几天公布, 如果有特殊的 inquiry, 可以联系我们 (联系方式在下面).

F 搜怎么商业化?

  1. 同意数据收集的用户 - 我们的产品重心会放在知识获取和管理的效率, 商业化相关的工具和功能.
  2. 不同意数据收集的用户 - 广告, 但是会控制到 2-3 个首页列表的占比.

我有一些想法和意见, 怎么联系 F 搜?

WeChat: Y29ubm9yd2FuZzMyNQ==

Email: Y3dhbmdAaGV0YW9hcHBzLmNvbQ==

访问: https://fsou.cc

51505 次点击
所在节点    分享创造
400 条回复
tmacLiu9527
2021-11-26 14:43:39 +08:00
@lin0kin 争取下周二之前, 页面的 age 判断有很多 edge case (具体的说是怎么去判断页面是否是真的更新了), 目前我们正在调试.
lin0kin
2021-11-26 15:37:34 +08:00
@tmacLiu9527
b ( ̄▽ ̄) d  
祝顺利
hangvane
2021-11-26 15:47:36 +08:00
提一条建议,目前 chrome 内访问过 fsou 之后,无法自动添加至 chrome 的搜索引擎列表,也就无法在地址栏键入 fsou+tab 进行快速搜索,只能手动在 chrome 设置内添加。经查询后,这个功能似乎添加 opensearch 标准即可
https://segmentfault.com/q/1010000000095031
建议添加
tmacLiu9527
2021-11-26 17:36:40 +08:00
@hangvane 非常感谢! 我们添加一下!
tmacLiu9527
2021-11-26 18:33:58 +08:00
@tmacLiu9527 新的 ip 查询上线了, 会返回原始 ip 和代理 ip
RussellTu
2021-11-26 19:04:47 +08:00
现在不用登录了,试用了两天感觉中文搜索准确度也蛮不错的,支持一下!
Rrobinvip
2021-11-26 22:41:51 +08:00
非常好!
qq316107934
2021-11-27 01:48:33 +08:00
帮忙测试了一段时间,搜中文效果不错,搜英文有些 bad case:
例如搜索 linux 第一个是 linux 菜鸟教程
搜索 youtube ,第一页都没有 youtube 官网
搜索 telegram ,第一页也无官网
搜 html ,第一页出现了无关的 Fedex,腾讯视频和小米商城; http 也一样
搜 LGPL ,第一个出现的是 github 的一个项目
XGPU ,搜不到与 Xbox Game Pass Ultimate 相关的东西


试了试中文也有一些:
搜微博,第一个是新浪邮箱,无官网
搜谷歌,第一个是谷歌翻译
搜全栈,前 3 个结果不理想,不是相关解释
搜致命躯壳(一款游戏),前两个结果完全无关


自然语言理解上有一些待改进:
搜网络不通怎么排查,无结果
搜 ios 转移到 android ,第一个结果是 apple 的从 andoird 转移至 ios
搜 miui 经常卡住怎么办,第一行出现的是扫地机器人和手环

另外前端路由处理有问题,依次搜索测试 1 ,测试 2 ,点击后退,会回到搜索主页,而不是测试 1.

我对这个搜索的个人定位是,教程和代码相关权重较高,适合程序员查资料的时候使用,真的很不错。
coreki
2021-11-27 11:28:21 +08:00
用了一下,体验狠不错,收藏了
oldmyth
2021-11-27 18:20:36 +08:00
搜索 “色情网站”,出来的是什么玩意,无非理解客户的产品毛用都没有
tmacLiu9527
2021-11-27 23:06:38 +08:00
@qq316107934

1. Linux 问题 - 这个是由于搜索区域造成的, 我们会根据浏览器的语言和位置优化搜索结果的排序, 例如, 如果是语言是 zh-CN, 位置是 CN, 那我们的结果会优先展示地理位置近的, 所以会出现 linux 菜鸟教程的问题. 以我的浏览器举例, 我是 en-US, 位置是 CN, 出来的结果头四个是

linux 官网
linux kernel
linux wikipedia
linux foundation

具体的判断逻辑是
当区域和语言选择一致, bia 区域结果
当区域和语言不一致, bias 区域结果
所以区域有很大的权重, 这几天试下来, 发现还是太 naive, 需要调整一下!

这个我们需要在算法上调整一下. 非常感谢反馈. (ETA - 3 days)

2. Youtube + Telegram - 这个是因为被 censor 了, 两个源的内容过滤难度太大, 我们目前有个很好的解决方案, 相信这两天就能有很好的改善. (ETA - 2 days)

3. html 问题 - 和 linux 问题一样 - 我这边测试头三个结果是 wikipedia, HTML 教程, developer.mozzila.org, 解决方法和 1 一样
4. LGPL 问题 - 和 linux 问题一样 - 我这边测试头三个结果是 gnu.org, wikipedia, developer.mozzila.org, 解决方法和 1 一样
5. XGPU 问题 - 和 linux 问题一样 - 我这边测试头三个结果是 microsoft.com, bilibili.com, xbox.com, 解决方法和 1 一样
6. 新浪是个 bug, 因为新浪的微博会返回 visitor system 这个结果, 所以我们做了些处理, 没有排除首页, 很感谢反馈!
7. Google 问题 - 和 linux 问题一样(稍有些不同) - 因为谷歌翻译的访问量比 google.com 大, 所以被排在了第一位, 这个也需要调整下算法
8. 全栈问题 - 我这边测试头三个结果是 - 怎样成为全栈工程师( 知乎), 全栈工程师(百度百科), 全栈开发人员- 学习路径(AWS), 请问可以反馈一下你那边的结果吗?
9. 致命去壳问题 - 我这边测试头三个结果是 - Mortal Shell (Epic Games), 《致命躯壳》体现小型制作室的以小博大之道 (Unreal Engine), 致命躯壳(知乎). 请问可以反馈一下你那边的结果吗?
10. 网络不同怎么排查 - 我这边测试头三个结果是- 服务器网络不通的简单排查, 建立 ClassicLink 连接后经典网络和 VPC 网络不通的排查思路 (aliyun), 网络故障一般排查操作- 掘金, 请问可以反馈一下你那边的结果吗?
11. ios 转移到 android 问题 - 这个是 embedding 算法的问题, 解决的时间会比较久一点, 简单的原因就是我们认为 ios 转移到 android 和 android 转移到 ios 是同一个意思, 所以在排序上面没有做干扰.
12. miui 经常卡住怎么办 - 这个我们目前还不知道为什么结果相关度为什么会低, 正在排查中, 谢谢反馈!
13. 路由问题 - 周日可以解决

对于定位, 目前我们也是这个打算, 从工程师人群切入, 做好做精, 然后再延展到知识工作者群体, 我们的观察是, 这个群体以后会越来越去中心化, 一方面是 DAO 的兴起, 一方面是 remote 文化的蔓延, 所以很多知识都会需要自己去搜索和获取, 我们想将这个人群服务好.

非常感谢深度的体验和尝试 - 如果方便的话, 可以加我微信 Y29ubm9yd2FuZzMyNQ==
pagepan
2021-11-28 11:02:54 +08:00
不错体验了一下,速度很快,查找出来的内容也很靠谱。
zxhy
2021-11-28 18:53:02 +08:00
@qq316107934 这个怎么发现的,很好奇
vigack
2021-11-29 19:00:59 +08:00
支持,希望能比多吉撑得久点
Recle
2021-11-30 00:05:52 +08:00
太希望你们一直做下去了,加油!如果因为经济原因比较困难就贴收款码,忍百度太久了!
tmacLiu9527
2021-11-30 13:13:04 +08:00
@Recle 多谢支持. 我们一定会不忘初心.
xiaoke0718
2021-11-30 15:28:13 +08:00
太!棒!了!!!!!
noahhhh
2021-11-30 15:54:11 +08:00
用了下会还是会抓取垃圾内容农场。想了你们如果要保证质量只能弄付费订阅制的搜索🌚
tmacLiu9527
2021-11-30 16:03:48 +08:00
@noahhhh 目前正在解决内容农场. 周五之前会上线一般屏蔽内容农场的, 到时候可以试一下!
AllenHua
2021-11-30 17:27:32 +08:00
非常感谢,试用了一下觉得不错,希望一直坚持下去!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/817678

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX