1
2Nfree 15 小时 33 分钟前
什么是 RDD ? RDD 的特性是什么?
Spark 的执行流程是怎样的?从提交作业到执行完成经历了哪些步骤? 如何优化 Spark 作业性能?(结合内存管理、分区数量、数据倾斜处理等) Flink 和 Spark Streaming 的异同? |
2
dylanqqt 15 小时 31 分钟前
你觉得你能给公司带来多大价值?
|
3
Geekgogo 15 小时 30 分钟前
你在工作中遇到最有挑战性的难题是什么?你是如何解决的
|
4
lianhuayu420 15 小时 7 分钟前
CEP 生态了解多少,简单谈谈
|
5
huangsijun17 13 小时 42 分钟前
应聘程序员,好点先说一下自己的技术栈,再来问题目啊。不然提问的连问你什么语言都不知道。
|
6
levelworm 3 小时 53 分钟前 via Android
针对偏数仓的数据工程:
BigQuery 一张表默认能有多少分区?超过的话写入新的分区会这么样? 请问你有没有从上游 api 获取数据、最终写入数据仓库的经验?请简单从需求分析到项目提交介绍一下每个流程。请重点介绍一下遇到的难点,以及你是如何做监控和测试的。 请问你有没有优化 Spark 查询的经验?能否说一个例子?请对其中的技术考量多进行一点量化的讲解。 请问你们公司的代码审核和测试是什么样的?能否简单描述一下你们的 CICD 管道? 请问你们团队是在工程团队,还是在业务团队?请问你们团队主要的客户是哪些组?你们和业务部门有没有经常的直接对接,还是通过分析组来进行联络?粗略估计一下,你们组的临时任务多吗? |