现在比较轻量的 bi 和 etl 是什么?

2023-12-11 00:05:35 +08:00
 sunorg

有一批数据要处理,数据源乱七八糟,但数据量不大,一般一天递增 2 万,哪位朋友能给推荐个 ETL 和 BI 可视化的??

2907 次点击
所在节点    程序员
15 条回复
sunorg
2023-12-11 00:11:10 +08:00
.补充下信息:

目前数据源主要是 excel ,mongodb ,json 文本,普通 txt.

主要使用需要是 python 。
haimianbihdata
2023-12-11 00:28:48 +08:00
有预算就帆软的,没有就开源 superset 之类的 bi 。etl 就海豚调度➕Python 处理文本入库。大差不差
KKLeon
2023-12-11 00:57:24 +08:00
powerbi 和 tableau ? tableau 可视化做的不错,原来体验过,不过我用的很基础
ferock
2023-12-11 03:44:49 +08:00
mark ,期待后续解答
hysys32
2023-12-11 08:02:36 +08:00
powerbi 宇宙最强
sunorg
2023-12-11 08:02:54 +08:00
@haimianbihdata 感谢,我学习一下这个去
Babbitt
2023-12-11 08:16:33 +08:00
有类似需求,关注下
fridaycatye
2023-12-11 08:36:07 +08:00
mark ,我自己用过 datax 和 kettle
sujin190
2023-12-11 08:50:55 +08:00
https://github.com/snower/syncany-sql

那来推荐下这个项目呗,写 SQL 可以同时查询你需要的这些数据源还可以相互 join ,python 搞的,出发点也就是你现在遇到的这种需求,把统计结果同步到 mysql 之类的,图表用 superset 就很好用了
sunorg
2023-12-11 09:05:06 +08:00
@sujin190 十分有意思的项目,谢谢。晚点我试一下
howfree
2023-12-11 09:13:58 +08:00
有个叫 datart 的,不知道能不能满足你的需求
sujin190
2023-12-11 09:29:21 +08:00
@sunorg #10 顺便补充一点点,这个写的 SQL 主要方向还是数据导出和数据同步,所以 insert into 并不和数据库的 insert into 一样,其 select 的第一个字段表示主键唯一值,insert into 的时候可以指定选项按这个字段值存在则更新否则插入以保证可重入,毕竟定时脚本统计同步数据不能保证重入简直坑死人,默认则是追加,如果是按天统计结果的也推荐用日期加统计类型来构建一个唯一值更容易保证不出错
Chalice
2023-12-11 10:16:59 +08:00
最近测了很多 bi ,大部分对 MongoDB 的支持都很烂(比如 metabase 不支持 MongoDB 的 array ), 有的甚至完全不支持,最好先用 MongoDB Connector for BI 转换下。
sunorg
2023-12-11 23:16:15 +08:00
@sujin190 有点不合适,有些追加有些覆盖
sunorg
2024-01-18 20:24:33 +08:00
@haimianbihdata

海豚调度,客户端太耗费系统资源了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/999214

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX