pyspark

3000字长文教你大数据该怎么学！

大概两年前写过同样标题的一篇文章，对于这个问题感兴趣的人不少，后台收到不少同学的提问，所以准备细致地解答一下这些问题，希望能解决掉大家90%的疑问。下次再看到相关的提问我会理直气壮地把这篇文章的链接甩你脸上。

数据倾斜？Spark 3.0 AQE专治各种不服

Spark3.0已经发布半年之久，这次大版本的升级主要是集中在性能优化和文档丰富上，其中46%的优化都集中在Spark SQL上，SQL优化里最引人注意的非Adaptive Query Execution莫属了。

Hadoop的MapReduce到底有什么问题？

作为Hadoop里重要的分布式计算组件MapReduce到底存在什么样的问题，大家纷纷都转投其他技术栈？我们来一起探个究竟。本文会先详细解析一下整个MapReduce的过程，编程方式，然后再去分析一下存在的问题和其中可以借鉴的点。

大画 Spark :: 网络(2)-上篇-通过网络收取消息的过程

上一篇，https://xie.infoq.cn/article/3bac4574de003e458556a81d2，对spark网络进行了初探，了解了client端与server端大概的构成，以及一个非常简单的交互模型。

企业大数据实战：Kyuubi 与 Spark ThriftServer 的全面对比分析

本文从企业大数据应用场景关注的问题出发，对比了 Kyuubi 与 Spark Thrift Server 的差异与优劣，并引入HiveServer2 进行全面的分析。

英雄惜英雄-当Spark遇上Zeppelin之实战案例

我们在之前的文章中提到过《大数据可视化从未如此简单 - Apache Zepplien全面介绍》一文中介绍了 Zeppelin 的主要功能和特点，并且最后还用一个案例介绍了这个框架的使用。这节课我们用两个直观的小案例来介绍 Zepplin 和 Spark 如何配合使用。

Spark Shuffle 内部机制（一）

Spark Shuffle Write框架的内部机制与设计

万字长文，Spark 架构原理和RDD算子详解一网打进！

Spark超强攻略

Spark 扫描 HDFS lzo/gz/orc异常压缩文件

考虑到 Hadoop 3.0.0 的新特性 EC 码，我们将 Hadoop 2.6.0 集群的数据冷备到 Hadoop 3.0.0，来缓解 HDFS 存储的压力，但在冷备操作进行了一段时间后，用户反馈数据读取存在异常，由于文件暂时不可恢复，需要把异常文件给排查出来。

大画 Spark :: 网络(1)-如何构建起基础的网络模型

8月的时候考虑开始写一个spark的专题系列。当时，看过一些技术文章，思考使用和生活中很近的例子来列举应该会产生共鸣，方便小伙伴的理解和学习。在企业内做培训的时候，采用了一下这样的方法，但是效果却出奇的不好。

Spark 持久化介绍（cache/persist/checkpoint）

Spark 持久化原理详解一、RDD 持久化介绍二、RDD 持久化级别三、持久化级别选择四、删除持久化数据五、RDD cache 和 persist 六、RDD checkpoint 七、DataSet cache 和 persist

过滤Spark数据集的四种方法

你知道有四种过滤Spark数据集的方法吗？

【转】大数据开发之Spark面试八股文

rdd 分布式弹性数据集，简单的理解成一种数据结构，是 spark 框架上的通用货币。所有算子都是基于 rdd 来执行的，不同的场景会有不同的 rdd 实现类，但是都可以进行互相转换。rdd 执行过程中会形成 dag 图，然后形成 lineage 保证容错性等。从物理的角度来

极光笔记丨Spark SQL 在极光的建设实践

Spark在2018开始在极光大数据平台部署使用,历经多个版本的迭代,逐步成为离线计算的核心引擎。当前在极光大数据平台每天运行的Spark任务有20000+,执行的Spark SQL平均每天42000条,本文主要介绍极光数据平台在使用Spark SQL的过程中总结的部分实践经验

3000字长文教你大数据该怎么学！

Kyuubi: 网易数帆开源的企业级数据湖探索平台（架构篇）

Kyuubi是网易数帆旗下易数大数据团队开源的一个企业级数据湖探索平台，建立在Apache Spark之上。Kyuubi提供一个高性能的通用JDBC和SQL执行引擎，通过它，用户能够像处理普通数据一样处理大数据。本文将详细解读Kyuubi的架构设计。

实时数据流计算引擎Flink和Spark流计算对比

在过去几年，业界的主流流计算引擎大多采用Spark Streaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对Spark Streaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处

实时大数据Flink知识结构(超全整理，附知识脑图)

实时大数据Flink知识结构图

Spark HistoryServer日志解析&清理异常

线上集群在使用 Spark HistoryServer 出现过两类问题，一类问题是日志解析异常导致无法查看 Spark 作业执行记录，另一类问题是日志清理异常导致 Spark 作业写 HDFS 目录达到上限无法提交作业，针对这两类问题，我们对 Spark HistoryServer 源码展开了研究。

开源数据交换（client）

exchange是要打造一个轻量级，高扩展性的数据交换平台，支持对结构化及无结构化的异构数据源之间的数据传输，在应用层上具有数据权限管控、节点服务高可用和多租户资源隔离等业务特性，而在数据层上又具有传输架构多样化、模块插件化和组件低耦合等架构特点。

大数据技术发展(三)：Spark 代替 Hadoop ? Spark Or Flink ?

在大数据领域中，选择使用 Hadoop、还是 Spark、还是 Flink，这个话题是一个非常热门的话题，这篇文章就带你探个究竟，看看到底选择哪一个技术？

基于Docker的大数据开发环境 - HDP Sandbox

采用HDP Sandbox搭建基于Docker的大数据开发环境。

Spark 架构剖析：一个任务是怎么运行的

本文从一段代码开始，拆解Spark背后的运行机制

基于SparkMLlib智能课堂教学评价系统的设计与实现(一)

本篇文章是智能课堂教学评价系统系列文章的第一篇

技术揭秘：华为云DLI背后的核心计算引擎

摘要：介绍隐藏在华为云数据湖探索服务背后的核心计算引擎Spark，玩转DLI，，轻松完成大数据的分析处理。

数据湖应用解析：Spark on Elasticsearch一致性问题

摘要：脏数据对数据计算的正确性带来了很严重的影响。因此，我们需要探索一种方法，能够实现Spark写入Elasticsearch数据的可靠性与正确性。

个推Spark性能调优实战分享：性能提升60%↑ 成本降低50%↓

效率和成本始终是行业进行海量数据处理和计算时所必须关注的问题。如何充分发挥Spark的优势，在进行大数据作业时真正实现降本增效呢？个推将多年积累的Spark性能调优妙招进行了总结，与大家分享。

OPPO大数据离线计算平台架构演进

OPPO大数据离线计算平台演进道路上，遇到了很多经典的大数据问题，比如说：shuffle失败、小文件问题、元数据切分、多集群资源协调、spark 任务提交门户建设。OPPO大数据离线计算平台团队依托自身的资源和技术，不断探索，务实的解决平台发展中遇到的各种问题

深入浅出Spark

Spark Join的那些事儿

Spark底层原理详细解析(深度好文，建议收藏)

Apache Spark是用于大规模数据处理的统一分析引擎，基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量硬件之上，形成集群。

大画 Spark :: 网络(3)-回复消息机制OneWayMessage与RpcRequest对比

上一篇，我们把消息如何最终传递到RpcEndpoint做了一个研究探讨，如下图所示。但留了一个小尾巴，即如果是RpcRequest的话，还需要回复消息给client端，这个是如何实现的呢？

Spark知识点简单总结

Hadoop底层使用MapReduce计算架构，只有map和reduce两种操作，表达能力比较欠缺，而且在MR过程中会重复的读写hdfs，造成大量的磁盘io读写操作，所以适合高时延环境下批处理计算的应用；

上万字详解Spark Core（建议收藏）

先来一个问题，也是面试中常问的：Spark为什么会流行？

大画 Spark :: 网络(2)-下篇-通过网络收取消息的过程

上一篇，我们从接收到消息到RpcEndpoint的过程做了简单的梳理，理清了以下几个概念

Spark Shuffle 内部机制（三）

本篇中我们继续总结一下Spark Shuffle整个的发展历史

其他标签

Elsewhere

返回顶部