Bootstrap
sqoop如何指定pg库的模式

摘要:sqoop如何指定pg库的模式?

Hadoop 数据仓库建设实践(理论结合实践)

​数据的重要性和战略意义毋庸置疑,目前业界也都在热火朝天地将大数据战略落地和用于实战。在这个过程中,我们首要的问题就是数据平台的搭建了。

Impala UDTF 功能实现

如果你需要将表中的一行记录转成多行,Hive 中可以使用 UDTF 做到,然而 Impala 中没有实现 UDTF,那么该怎么办?

教你用Python 编写 Hadoop MapReduce 程序

​​摘要:Hadoop Streaming 使用 MapReduce 框架,该框架可用于编写应用程序来处理海量数据。

现在后端都在用什么数据库存储数据?

那我就根据这两三年的研究与工作经历,说说如今的情况。 1.Oracle:传统行业,尤其是政府,医疗,学校和大企业,基本上还是Oracle应用最广,其次就是DB2。反而是WebLogic和WebSphere这些中间件基本上随着经典javaee的没落,已经逐步退出历史舞台,

现在后端都在用什么数据库存储数据?

那我就根据这两三年的研究与工作经历,说说如今的情况。 1.Oracle:传统行业,尤其是政府,医疗,学校和大企业,基本上还是Oracle应用最广,其次就是DB2。反而是WebLogic和WebSphere这些中间件基本上随着经典javaee的没落,已经逐步退出历史舞台,

HBase与Cassandra架构对比分析的经验分享

HBase和Cassandra几乎是一个年份发起,又都是在2010年成为Apache的顶级项目,不过如果我们去细品其内部机制,我们会发现其实两者是完全不同的架构风格。

Hadoop集群搭建-01前期准备

整个搭建hadoop集群的流程,包括 前期准备 安装zookeeper并配置环境 编译安装hadoop并启动 安装HDFS管理namenode和dataname管理集群硬盘资源 安装启动yarn建立MapReduce管理cpu和内存资源

Apache HBase MTTR 优化实践:减少恢复时长

摘要:HBase是Hadoop Database的简称,是建立在Hadoop文件系统之上的分布式面向列的数据库,它具有高可靠、高性能、面向列和可伸缩的特性,提供快速随机访问海量数据能力。

Hadoop集群搭建-02安装配置Zookeeper

 这一篇接着记录集群搭建,开始安装配置zookeeper,它的作用是做集群的信息同步,zookeeper配置时本身就是一个独立的小集群,集群机器一般为奇数个,只要机器过半正常工作那么这个zookeeper集群就能正常工作,

Hadoop实战篇-集群版(2)

在上一篇的Hadoop实战篇介绍过了Hadoop-离线批处理技术的本地模式和伪集群模式安装,接下来继续学习 Hadoop 集群模式安装 作者 | WenasWei

Hive 中的 GroupBy, Distinct 和 Join

深度剖析Hive中的 Groupby,Distinct 与 Join

Hive HMS Canary 时间较长异常分析

Cloudera 管理的 Hadoop 集群中 Hive 服务 MetaStore 角色出现 canary 异常,表现为用户通过 Hive 客户端 create/drop/alter 等操作时间很慢,基本维持在 200s 多一点,本文主要针对问题分析这一现象的原因之一。

一文教你学会Hive视图和索引

我们在写HQL有没有遇到过数据量特别大的时候比如,使用HQL 处理起来非常复杂,非常慢,这时候我们可以使用Hive给加个索引来提高我们的速度。点赞 点赞 点赞

Hive的调优你都知道那些?

我们在工作中还是在学习中有都会遇到我们写的HQL语句执行效率不高,那我们该怎么提高查询效率那,这篇文章就带你从不同维度讲解,让你的HQL瞬间提高一个档次。记得收藏

Hadoop生态系统Hive:SQL执行(一)

本文主要是记录一些Hive的SQL语句的特殊之处。

MapReduce简介及过程详解

MapReduce是面向大数据并行处理的计算模型、框架和平台,对于大数据开发或者想要接触大数据开发的开发者来说,是必须要掌握的,它是一种经典大数据计算框架,现在有很多开源项目的内部实现都会直接或间接地借鉴了MR过程的实现。Hadoop中的MapReduce 是一个离

100万级车辆数据监控的hadoop大数据架构探索与实践

作者有幸在前些年主导并尝试使用hadoop大数据生态技术对传统车联网项目进行改造,取得了一些成果。本文对该项目进行复盘,聊聊大数据架构在车联网行业中的实践。

大数据技术发展(二):Hadoop 技术生态圈的发展

Hadoop 是大数据领域中最重要的一门技术,我们很多人知道它是发源于 google 的"三驾马车",实际上真的是这样的吗?这篇文章一探 Hadoop 技术的起源。

Hadoop Committer如何炼成?爱奇艺新晋核心贡献人给出了这份攻略!

近日,全球最大的开源基金会Apache基金会的大数据开源社区Hadoop公布了最新一批Committer(核心贡献人),爱奇艺大数据团队的朱琦同学接受Apache社区邀请,正式成为了Hadoop Committer的一员。

Hadoop之HDFS 内部机制知多少?

探寻Hadoop里另外一个重要组件HDFS的架构和高可用相关机制

大数据技术思想入门(三):分布式文件存储的流程

相对于单机版本的文件的读写,分布式文件的读写还是稍微的复杂点的,这篇文章就带你掌握分布式文件读写的原理

Hadoop的MapReduce到底有什么问题?

作为Hadoop里重要的分布式计算组件MapReduce到底存在什么样的问题,大家纷纷都转投其他技术栈?我们来一起探个究竟。本文会先详细解析一下整个MapReduce的过程,编程方式,然后再去分析一下存在的问题和其中可以借鉴的点。

大数据技术思想入门(四):分布式文件的元数据是怎么存储的

分布式存储集群中的主节点存储的是元数据信息,那么这个元数据到底是存储在主节点的内存还是主节点的磁盘呢?原因又是什么呢?这篇文章带你掌握主节点中的元数据是怎么存储的

深度探索Hadoop分布式文件系统(HDFS)数据读取流程

Hadoop分布式文件系统(HDFS)是Hadoop大数据生态最底层的数据存储设施。因其具备了海量数据分布式存储能力,针对不同批处理业务的大吞吐数据计算承载力,使其综合复杂度要远远高于其他数据存储系统。

三大 OSS 缓存加速系统巅峰对决

在上篇文章 《OSS太慢?看我们怎么提速10倍!》中提到,JuiceFS 可以提高 OSS 在大数据场景下的性能 10 倍,当时有朋友在朋友圈建议我们用 JuiceFS 和类似的对象存储加速方案做一下比较。在花了一个月时间准备之后,有一些阶段性成果跟大家分享一下。

技术干货!HDFS读写原理和代码简单实现

摘要:本文主要研究了HDFS文件系统的读写流程以及基于MRS在windows客户端下读写HDFS文件的实现。

Hadoop 数据仓库建设实践(理论结合实践)

​数据的重要性和战略意义毋庸置疑,目前业界也都在热火朝天地将大数据战略落地和用于实战。在这个过程中,我们首要的问题就是数据平台的搭建了。

Impala UDTF 功能实现

如果你需要将表中的一行记录转成多行,Hive 中可以使用 UDTF 做到,然而 Impala 中没有实现 UDTF,那么该怎么办?

深度对比Apache CarbonData、Hudi和Open Delta三大开源数据湖方案

摘要:今天我们就来解构数据湖的核心需求,同时深度对比Apache CarbonData、Hudi和Open Delta三大解决方案,帮助用户更好地针对自身场景来做数据湖方案选型。

Hadoop 编程实战:HDFS API 编程样例

介绍HDFS常用API编程样例

DolphinScheduler-1.3.0-dev功能体验

Apache Dolphin Scheduler - 1.3.0 dev分支部署及新功能体验

Hadoop编程实战:HDFS用户Shell详解

HDFS Shell主要分为两部分,分别为用户Shell及管理员Shell,对应的关键字分别是dfs与dfsadmin。本文将介绍用户Shell 39个指令的功能描述,选项详解及样例演示。

UCloud一站式智能大数据平台USDP免费版正式发布!

近日UCloud全新发布了针对私有化部署场景下的一站式智能大数据平台USDP免费版。免费版USDP支持HDFS、Kudu、ES全生态,助力企业提升大数据开发、运维效率,快速构建大数据业务的分析处理能力。

命令行一键启动Hadoop集群

不装虚拟机,不配环境变量,不写配置文件,命令行一键启动单机Hadoop集群

其他标签