预计算的时代该结束了

2024-01-29 14:53:31 +08:00
 Braisdom
原文链接: https://www.agiquery.com/blog/precomputation-should-be-over

9850 次点击
所在节点    推广
77 条回复
token10086
2024-01-29 14:54:59 +08:00
兄弟你这个地址秀我一脸。。。。
4u1kto
2024-01-29 14:57:09 +08:00
看来预计算的时代真该结束了
qk3z
2024-01-29 14:57:30 +08:00
兄弟,趁别人没看到,赶紧换个地址
Braisdom
2024-01-29 14:57:32 +08:00
@token10086 抱歉,修改好了。实在没留意,文章刚刚写好。
Braisdom
2024-01-29 14:58:29 +08:00
统一感谢一下。。。。
lexa
2024-01-29 15:06:32 +08:00
kyligence 估计要急了哦。
JavaGo
2024-01-29 15:31:46 +08:00
你这是要推翻世界的节奏呀...
hanhugh
2024-01-29 15:35:19 +08:00
看上去不错,关于数据透视表目前我们是才用写代码的方式来生成交叉维度报表,后面准备换成 flink 单机运行,使用标准的 map 、flatmap 、reduce 、groupby 等算子来完成。
预计算,数据量大肯定是需要的。
hanhugh
2024-01-29 15:36:57 +08:00
有很多大数据引擎,特别是时序相关的引擎,都想使用自己设计的 dsl 来替换掉 sql ,但好像都不是很理想
Braisdom
2024-01-29 15:40:40 +08:00
@hanhugh 非常同意你的看法,自己设计的 DSL 短期内很难产生影响力,毕竟 SQL 已经出现近 40 年了,已经根深蒂固了,只能通过间接的方法实现,除非有越级大的公司做背书。

Google 提的 NoSQL 目前只能在部分领域适用,关系运算还是以 SQL 为主,估计还得需要类似 OpenAI 形式的创新,来改写历史。
dayeye2006199
2024-01-29 15:46:44 +08:00
我记得前几年有个 kylin 的框架非常流行,就是预先按维度聚合之后再提供查询
Braisdom
2024-01-29 15:49:06 +08:00
@dayeye2006199 kylin 是预计算最典型的产品,
Alias4ck
2024-01-29 16:05:34 +08:00
@Braisdom openai 形式的我知道有一个产品 在外网很火 https://github.com/mindsdb/mindsdb
Braisdom
2024-01-29 16:10:58 +08:00
@Alias4ck 我和这个项目不是同一类项目,后面再写个文章介绍一下 chatgpt 和实际的数据分析之间的距离。
beneo
2024-01-29 21:19:45 +08:00
说真的,别再吹了。Agile Query 本质上只是 BI 里面的 SQL 组装工具。

如今的 BI 系统,普遍通过数据集、分组字段、自定义计算字段等方式,结合可视化维度和度量的拖拽操作,来生成 SQL 语句。
而 Agile Query ,它仅仅是创建了一个 DSL 用来生成 SQL 。

这两种方法,无论是图形化界面生成 SQL ,还是你的 Agile Query ,其本质都在于简化查询过程。但最终,这些查询还是需要转换成 SQL ,由底层数据库执行。无论查询语言或工具有多高效,它们的数据处理和计算能力终究受限于底层数据库的性能。即便是高级的查询工具,也不能超越它们所依赖的数据库的基本性能限制。比如,最近有人在讨论 MySQL 单表一亿条数据的聚合查询,即使使用了 Agile Query ,也无法达到 Clickhouse 那样的效果。

此外,你提到的“预计算时代的结束”这一趋势,确实存在这样的方向。但是,别人的解决方案通常是采用像 Apache Doris 或 StarRocks 这样的 DB 。他们是引入更牛逼的 DB 啊,而不是引入一个“语法糖”。你怎么能把别人的能力当成你的 feature ,然后做一个广告呢 ?

最后,我真的好奇你家庭如何支撑你这样创业,或者有怎样的金主来支撑起你的事业。你这个东西搞了好几年了,V 站上面也宣传了小一年了,从承诺开源到不开源,从承诺 docker 镜像开放到现在没谱,从一直否认 Agile Query 不是 BI ,到现在就是 BI (的一个小边角)。次次都在转弯。

所以,你到底要做个什么东西?你面相的用户到底是谁?
Braisdom
2024-01-29 21:28:19 +08:00
@beneo 兄弟本质上是一个 DSL 生成 SQL ,关键是如何生成的 SQL ,
生成的 SQL 能不能进行 "RFM 分析"、"同环比分析"、"客户画像"等,

如果兄弟开发出通过拖拽实现上述分析,我需要向兄弟你好好学习一下,有机会一定去拜访。
lexa
2024-01-29 21:33:37 +08:00
@beneo 大佬,我们用 superset 做 BI ,最复杂的就是各 SQL 了,虽然有模板,但维护起来还是很痛苦呀,楼主的产品如果能解决 SQL 编写这块,已经解决 BI 中最主要的矛盾了。
beneo
2024-01-29 21:40:09 +08:00
@Braisdom FineBI ,PowerBI 没有么?
@lexa 本质上你公司就是想白嫖,开源的用的不爽,想嫖 B 兄弟的,QuickBI 不香吗?
Braisdom
2024-01-29 21:45:30 +08:00
@beneo Agile Query 只需要一个函数就可以实现,

SEGMENT(
CASE
WHEN MONTH_DIFF(NOW(), MAX(orders.order_date)) < 2
AND SUM(order_details.quantity * order_details.unit_price) > 1000
AND COUNT(orders.order_id) > 10 THEN '高价值客户'
WHEN DAY_DIFF(NOW(), MAX(orders.order_date)) < 50
AND SUM(order_details.quantity * order_details.unit_price) > 100 THEN '重要发展客户'
WHEN MONTH_DIFF(NOW(), MAX(orders.order_date)) > 4
AND SUM(order_details.quantity * order_details.unit_price) > 400 THEN '重要挽留客户'
ELSE '其它'
END,
customers.customer_id,
orders.order_date = LAST_YEARS(1)
)

FineBI 的: https://help.fanruan.com/finebi/doc-view-703.html

PowerBI 的: https://zhuanlan.zhihu.com/p/220408371

Agile Query 本质上和 PowerBI 比较接近,FineBI 的就差太远了。
Braisdom
2024-01-29 21:47:21 +08:00
@beneo 上面的确是一种 DSL ,只不过这类 DSL 更接近领域问题,使用起来更加方便。

建议去看一下: https://www.agiquery.com/blog/rfm/

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/1012446

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX