架构师 0 期 | 大数据相关技术
Spark为什么比MapReduce更快?
区别
RDD
RDD是Spark的核心概念,弹性分布式数据集(Resilient Distributed Datasets)
Spark计算阶段
可以分割成更多的计算阶段(stage),这些计算阶段组成一个有向无环图DAG
Spark的任务调度器可以根据DAG的依赖关系执行

Spark作业管理

Spark的执行过程
Spark支持 Standalone、Yarn、Mesos、Kubernetes 等多种部署方案。
原理都一样,只是不同组件角色的命名不同,核心功能和流程差不多。

Spark的生态体系
