有没有老哥做过数仓或者数据中台,请教个问题

2023-06-07 14:17:03 +08:00
 voids
公司最近推行数字化转型,要求建立一个数据仓库,统一产出所有项目的报告。但各项目使用的产品来自不同的第三方公司,没有 API 接入,日常报告只能基于导出的 Excel 数据。由于我不是技术出身,能想到的方案就是从各项目收集每天导出的数据,用脚本定时读取数据,上传到 MySQL 中,再用 MySQL 中的数据做可视化。想咨询一下在这种背景下,从“数据仓库”技术角度还有没有更好的解决方案?或者这样的需求有没有必要引入其他数仓的技术?
2070 次点击
所在节点    程序员
16 条回复
aru
2023-06-07 14:26:37 +08:00
数据就是干这活的呀
市面上很多数仓产品,大部分都是有定制化开发的,就看你们有多少预算做这个事情
sss495088732
2023-06-07 14:27:30 +08:00
oss+foreign table+bi
sijue
2023-06-07 14:32:48 +08:00
代码使用 httpClient 直接访问第三方公司页面 http 的请求,获取返回的 excel ,解析 excel 写入 mysql ,然后从 mysql 定时写入数仓
hhjswf
2023-06-07 14:33:24 +08:00
就这么点需求感觉没有数仓的必要,一般是考虑大数据量的实时或者离线计算才引入。
xuelang
2023-06-07 14:36:15 +08:00
最简单就是用 clickhouse 了,直接 Excel 导入 clickhouse 表,秒级分析。。
voids
2023-06-07 14:36:38 +08:00
@hhjswf 是的,这也我最近思考的,尤其了解了一些 Hadoop ,Hive 的基础,感觉不是很合适这个需求
liprais
2023-06-07 14:36:49 +08:00
你先把你想要的做出来
就知道怎么做了
voids
2023-06-07 14:37:30 +08:00
@xuelang 感谢,我了解一下。
optional
2023-06-07 14:50:23 +08:00
数仓=etl 工程师+报表工程师。
理想很美好,各部门都准备好数据。
实际很现实,数据都要自己去扣,自己找资源整合数据。
voids
2023-06-07 14:53:49 +08:00
@optional 是的,深有体会😂
tensorzhang
2023-06-07 14:56:05 +08:00
直接去找专业的公司就好了,例如神策之类的。能花钱尽量自己不动手
sujin190
2023-06-07 15:03:47 +08:00
这事看起来没啥复杂的,就是累人,图表显示还好,既有开源系统可以用各种云厂商也有,收集数据确实麻烦,一般也不标准化,或许可以看看各种 pra 工具能不能搞搞
voids
2023-06-07 15:15:30 +08:00
感谢各位老哥,我大概知道方向了。
xuelang
2023-06-07 15:15:36 +08:00
clickhouse + grafana / redash 都行,肯花钱就直接买云服务,不舍得就自己部署,也是很简单的
vincent7245
2023-06-07 15:49:45 +08:00
友情提醒 OP ,如果只有你自己维护这套系统,别弄太复杂,如果 mysql 这种数据库就能满足你的需求,那就用 mysql 。如果你们没有 BI 部门,没有专业的大数据开发,别搞数仓那一套东西,光运维这套系统就能累死你。
qzwmjv
2023-06-07 15:59:59 +08:00
你这个不需要大数据,合理的数据库就行了,就是需要 ETL 工程师写解析任务

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/946616

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX