hadoop

随着公司业务的增长，数据量越来越大，原有的datanode节点的容量已经不能满足存储数据的需求，需要在原有集群基础上动态添加新的数据节点。也就是俗称的动态扩容。

YARN的基本设计思想是将MapReduce V1中的JobTracker拆分为两个独立的服务：ResourceManager和ApplicationMaster。ResourceManager负责整个系统的资源管理和分配，ApplicationMaster负责单个应用程序的的管理。

Hadoop 3.x 版本相对于 Hadoop 2.x的新特性

Apache Hadoop 3.0.0在以前的主要发行版本（hadoop-2.x）上进行了许多重大改进。

HDFS的block块和副本机制

hdfs将所有的文件全部抽象成为block块来进行存储，不管文件大小，全部一视同仁都是以block块的统一大小和形式进行存储，方便我们的分布式文件系统对文件的管理

HDFS的垃圾桶机制

每一个文件系统都会有垃圾桶机制，便于我们将删除的数据回收到垃圾桶里面去，避免垃圾桶，避免我们某些误操作错误的删除一些重要文件，回收到垃圾桶里里面的资料数据，都可以进行恢复

Hadoop的发展及其架构

Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。

MapReduce优化

//以下参数是在用户自己的MapReduce应用程序中配置就可以生效

3.7亿条保单数据怎么分析？这个大数据平台有绝招

受到新冠疫情影响，全球经济面临冲击，国内经济已进入复工复产有序发展的新常态阶段，企业想要实现持续增长需另寻突破点，越来越多的企业把视线转向了企业内部，希望通过推进精细化管理来实现降本增效。

Hadoop的MapReduce到底有什么问题？

作为Hadoop里重要的分布式计算组件MapReduce到底存在什么样的问题，大家纷纷都转投其他技术栈？我们来一起探个究竟。本文会先详细解析一下整个MapReduce的过程，编程方式，然后再去分析一下存在的问题和其中可以借鉴的点。

大数据技术发展(三)：Spark 代替 Hadoop ? Spark Or Flink ?

在大数据领域中，选择使用 Hadoop、还是 Spark、还是 Flink，这个话题是一个非常热门的话题，这篇文章就带你探个究竟，看看到底选择哪一个技术？

基于Docker的大数据开发环境 - HDP Sandbox

采用HDP Sandbox搭建基于Docker的大数据开发环境。

与 Hadoop 对比，我是如何看待 Spark 技术？

首先看一下Hadoop解决了什么问题，Hadoop就是解决了大数据（大到一台计算机无法进行存储，一台计算机无法在要求的时间内进行处理）的可靠存储和处理。

大画 Spark :: 网络(5)-Spark中的server端和client端

上一篇介绍了Endpoint的构建流程，采用sparkEnv → NettyRpcEnv → Dispatcher的构建顺序。并且探讨了最基础的Driver和Executor的职责与关系

Flink,Spark,Storm,Hadoop框架比较

大数据分析作为一种用于分析大量按需数据的工具，越来越受到人们的欢迎。四个最常见的大数据处理框架包括Apache Hadoop，Apache Spark，Apache Storm和Apache Flink。

【史上最全】Hadoop 核心 - HDFS 分布式文件系统详解(上万字建议收藏)

Hadoop 分布式系统框架中，首要的基础功能就是文件系统，在 Hadoop 中使用 FileSystem 这个抽象类来表示我们的文件系统，这个抽象类下面有很多子实现类，究竟使用哪一种，需要看我们具体的实现类，在我们实际工作中，用到的最多的就是HDFS(分布式文件系统)以

大数据知识专栏 - MapReduce 的 Map端Join

大数据专栏系列文章: 通过该文章, 教会如何在 MapReduce 中使用 Map 端 Join.

Impala UDTF 功能实现

如果你需要将表中的一行记录转成多行，Hive 中可以使用 UDTF 做到，然而 Impala 中没有实现 UDTF，那么该怎么办？

Hadoop 数据仓库建设实践（理论结合实践）

数据的重要性和战略意义毋庸置疑，目前业界也都在热火朝天地将大数据战略落地和用于实战。在这个过程中，我们首要的问题就是数据平台的搭建了。

教你用Python 编写 Hadoop MapReduce 程序

摘要：Hadoop Streaming 使用 MapReduce 框架，该框架可用于编写应用程序来处理海量数据。

sqoop如何指定pg库的模式

摘要：sqoop如何指定pg库的模式？

Apache HBase MTTR 优化实践：减少恢复时长

摘要：HBase是Hadoop Database的简称，是建立在Hadoop文件系统之上的分布式面向列的数据库，它具有高可靠、高性能、面向列和可伸缩的特性，提供快速随机访问海量数据能力。

Apache HBase MTTR 优化实践：减少恢复时长

Hadoop集群搭建-01前期准备

整个搭建hadoop集群的流程，包括前期准备安装zookeeper并配置环境编译安装hadoop并启动安装HDFS管理namenode和dataname管理集群硬盘资源安装启动yarn建立MapReduce管理cpu和内存资源

Hadoop集群搭建-02安装配置Zookeeper

这一篇接着记录集群搭建，开始安装配置zookeeper，它的作用是做集群的信息同步，zookeeper配置时本身就是一个独立的小集群，集群机器一般为奇数个，只要机器过半正常工作那么这个zookeeper集群就能正常工作，

Hive 中的 GroupBy, Distinct 和 Join

深度剖析Hive中的 Groupby，Distinct 与 Join

Hive HMS Canary 时间较长异常分析

Cloudera 管理的 Hadoop 集群中 Hive 服务 MetaStore 角色出现 canary 异常，表现为用户通过 Hive 客户端 create/drop/alter 等操作时间很慢，基本维持在 200s 多一点，本文主要针对问题分析这一现象的原因之一。

一文教你学会Hive视图和索引

我们在写HQL有没有遇到过数据量特别大的时候比如，使用HQL 处理起来非常复杂，非常慢，这时候我们可以使用Hive给加个索引来提高我们的速度。点赞点赞点赞

Hive的调优你都知道那些？

我们在工作中还是在学习中有都会遇到我们写的HQL语句执行效率不高，那我们该怎么提高查询效率那，这篇文章就带你从不同维度讲解,让你的HQL瞬间提高一个档次。记得收藏

Hadoop生态系统Hive：SQL执行(一)

本文主要是记录一些Hive的SQL语句的特殊之处。

MapReduce简介及过程详解

MapReduce是面向大数据并行处理的计算模型、框架和平台，对于大数据开发或者想要接触大数据开发的开发者来说，是必须要掌握的，它是一种经典大数据计算框架，现在有很多开源项目的内部实现都会直接或间接地借鉴了MR过程的实现。Hadoop中的MapReduce 是一个离

100万级车辆数据监控的hadoop大数据架构探索与实践

作者有幸在前些年主导并尝试使用hadoop大数据生态技术对传统车联网项目进行改造，取得了一些成果。本文对该项目进行复盘，聊聊大数据架构在车联网行业中的实践。

大数据技术发展(二)：Hadoop 技术生态圈的发展

Hadoop 是大数据领域中最重要的一门技术，我们很多人知道它是发源于 google 的"三驾马车"，实际上真的是这样的吗？这篇文章一探 Hadoop 技术的起源。

Hadoop之HDFS 内部机制知多少？

探寻Hadoop里另外一个重要组件HDFS的架构和高可用相关机制

Hadoop的MapReduce到底有什么问题？

Hadoop Committer如何炼成？爱奇艺新晋核心贡献人给出了这份攻略！

近日，全球最大的开源基金会Apache基金会的大数据开源社区Hadoop公布了最新一批Committer（核心贡献人），爱奇艺大数据团队的朱琦同学接受Apache社区邀请，正式成为了Hadoop Committer的一员。

其他标签

Elsewhere

返回顶部