Bootstrap

架构师 0 期 | 大数据相关技术

Spark为什么比MapReduce更快?

区别

RDD

RDD是Spark的核心概念,弹性分布式数据集(Resilient Distributed Datasets)

Spark计算阶段

可以分割成更多的计算阶段(stage),这些计算阶段组成一个有向无环图DAG

Spark的任务调度器可以根据DAG的依赖关系执行

Spark作业管理

Spark的执行过程

Spark支持 Standalone、Yarn、Mesos、Kubernetes 等多种部署方案。

原理都一样,只是不同组件角色的命名不同,核心功能和流程差不多。

Spark的生态体系