Bootstrap
实时数据流计算引擎Flink和Spark流计算对比

在过去几年,业界的主流流计算引擎大多采用Spark Streaming,随着近两年Flink的快速发展,Flink的使用也越来越广泛。与此同时,Spark针对Spark Streaming的不足,也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点,为流处

第13周总结:Spark&流计算,数据分析和机器学习

第13周总结:Spark&流计算,数据分析和机器学习总结

DolphinDB与Spark的性能对比测试报告

Spark是基于内存计算的通用大数据并行计算框架,内置多种组件,如批处理、流处理、机器学习和图处理。Hive是基于Hadoop的数据仓库,支持类SQL的命令查询,提升了Hadoop的易用性。Spark与Hive、Hadoop通常是搭配使用,利用Hive中的数据分区可以方便地管理和过

17张图带你搞懂ZooKeeper一致性原理!

首先概括一下基本的区别: TCP 是一个面向连接的、可靠的、基于字节流的传输层协议。 而 UDP 是一个面向无连接的传输层协议。(就这么简单,其它 TCP 的特性也就没有了)。 具体来分析,和 UDP 相比,TCP 有三大核心特性:

技术方案设计的方法论及案例分享

怎么去体现技术方案设计的深度是大家普遍关心的一个问题,这个问题不是个例问题,因此本文主要分享下作者个人的一些观点和看法。

DolphinDB与Spark的性能对比测试报告

Spark是基于内存计算的通用大数据并行计算框架,内置多种组件,如批处理、流处理、机器学习和图处理。Hive是基于Hadoop的数据仓库,支持类SQL的命令查询,提升了Hadoop的易用性。Spark与Hive、Hadoop通常是搭配使用,利用Hive中的数据分区可以方便地管理和过

flink流计算可视化web平台

flink-streaming-platform-web 系统是基 Flink 封装的一个可视化的、轻量级的 flink web 客户端系统,用户只需在 web 界面进行 sql 配置就能完成流计算任务 主要功能:包含任务配置、启/停任务、告警、日志等功能,支持 sql 语法提示,格式化、sql 语句校验。

博文推荐|多图详解 Apache Pulsar 消息存储模型

Apache Pulsar 是 Apache 软件基金会顶级项目,是下一代云原生分布式消息流平台,集消息、存储、轻量化函数式计算为一体,采用计算与存储分离架构设计,支持多租户、持久化存储、多机房跨区域数据复制,具有强一致性、高吞吐、低延时及高可扩展性等流数据存储

DolphinDB与Spark的性能对比测试报告

Spark是基于内存计算的通用大数据并行计算框架,内置多种组件,如批处理、流处理、机器学习和图处理。Hive是基于Hadoop的数据仓库,支持类SQL的命令查询,提升了Hadoop的易用性。Spark与Hive、Hadoop通常是搭配使用,利用Hive中的数据分区可以方便地管理和过

Java Stream 源码深入解析

Pipline是流水线,表示一整个流程。Stage表示流水线的其中一个阶段。是一个比较抽象层面的描述,因为stage主要表示一种逻辑上的顺序关系,而具体每一个阶段要干嘛、怎么干,使用Sink来进行描述。

开发效率提升15倍!批流融合实时平台在好未来的应用实践

本文由好未来资深数据平台工程师毛祥溢分享,主要介绍批流融合在教育行业的实践。内容包括两部分,第一部分是好未来在做实时平台中的几点思考,第二部分主要分享教育行业中特有数据分析场景。

DolphinDB与Spark的性能对比测试报告

Spark是基于内存计算的通用大数据并行计算框架,内置多种组件,如批处理、流处理、机器学习和图处理。Hive是基于Hadoop的数据仓库,支持类SQL的命令查询,提升了Hadoop的易用性。Spark与Hive、Hadoop通常是搭配使用,利用Hive中的数据分区可以方便地管理和过

Java中的Stream用还是不用

我的意思还是用它。

Java中的Stream用还是不用

我的意思还是用它。

博文推荐|多图详解 Apache Pulsar 消息存储模型

Apache Pulsar 是 Apache 软件基金会顶级项目,是下一代云原生分布式消息流平台,集消息、存储、轻量化函数式计算为一体,采用计算与存储分离架构设计,支持多租户、持久化存储、多机房跨区域数据复制,具有强一致性、高吞吐、低延时及高可扩展性等流数据存储

Suricata-流的处理

Thank Zhihao Tao for your hard work. The document spent countless nights and weekends, using his hard work to make it convenient for everyone.

Suricata-流的处理

Thank Zhihao Tao for your hard work. The document spent countless nights and weekends, using his hard work to make it convenient for everyone.

复杂事件处理简介

本文将从什么是CEP、CEP与流式计算、CEP分布式实现等几个方面简单介绍CEP。

复杂事件处理简介

本文将从什么是CEP、CEP与流式计算、CEP分布式实现等几个方面简单介绍CEP。

Flink on Zeppelin (1)入门篇

​  一直有人在Zeppelin社区问能否在Zeppelin里使用Flink。现在终于有了进展了,从Zeppelin 0.9开始将正式支持Flink 1.10。Flink是一个批流统一的计算引擎,本文将从第一个wordcount的例子为起点来讲述如何在Zeppelin中使用Flink。

Flink on Zeppelin (5) 高级特性篇

在Flink on Zeppelin系列的前面几篇文章中,我讲述了如何在Zeppelin里使用Flink的一些基本操作和配置, 中间也会穿插一些高级feature,但都比较零散,这篇文章会集中重点讲述一些非常实用的Flink on Zeppelin的高级feature。

Apache Zeppelin:可能是开源届最好的Flink开发平台

最近做了一系列Flink on Zeppelin的视频教程,整理出来分享在公众号上,希望对大家有所帮助。下面是大纲:

Flink on Zeppelin (2) - Batch篇

 在Flink on Zeppelin 入门篇 中我们讲述了如何配置Zeppelin + Flink来运行一个最简单的WordCount例子。本文将讲述如何使用Flink SQL + UDF来做Batch ETL和BI数据分析的任务。

Flink on Zeppelin (3) - Streaming篇

 继之前入门篇和Batch篇之后,今天这篇Flink on Zeppelin主要讲述如何在Zeppelin中使用Flink的Streaming功能,我们会以2个主要的场景来讲:

Flink on Zeppelin (4) - 机器学习篇

今天我来讲下如何在Zeppelin里做机器学习。机器学习的重要性我就不多说了,我们直奔主题。

17张图带你搞懂ZooKeeper一致性原理!

首先概括一下基本的区别: TCP 是一个面向连接的、可靠的、基于字节流的传输层协议。 而 UDP 是一个面向无连接的传输层协议。(就这么简单,其它 TCP 的特性也就没有了)。 具体来分析,和 UDP 相比,TCP 有三大核心特性:

17张图带你搞懂ZooKeeper一致性原理!

首先概括一下基本的区别: TCP 是一个面向连接的、可靠的、基于字节流的传输层协议。 而 UDP 是一个面向无连接的传输层协议。(就这么简单,其它 TCP 的特性也就没有了)。 具体来分析,和 UDP 相比,TCP 有三大核心特性:

实践解析可视化开发平台FlinkSever优势

摘要:华为Flink可视化开发平台FlinkServer作为自研服务,能够提供比原生flinksql接口更强的企业级特性,比如任务的集中管理,可视化开发,多数据源配置等。

Java Stream 源码深入解析

Pipline是流水线,表示一整个流程。Stage表示流水线的其中一个阶段。是一个比较抽象层面的描述,因为stage主要表示一种逻辑上的顺序关系,而具体每一个阶段要干嘛、怎么干,使用Sink来进行描述。

实践解析可视化开发平台FlinkSever优势

摘要:华为Flink可视化开发平台FlinkServer作为自研服务,能够提供比原生flinksql接口更强的企业级特性,比如任务的集中管理,可视化开发,多数据源配置等。

扎心!天天写代码,方向真的对吗?

“每个人的时间都是有限的,在有限的时间里选择一项值得投入的技术会变得尤为重要。”

TensorFlow On Flink 原理解析

简介: 本文将分享如何使用一套引擎搞定机器学习全流程的解决方案。先介绍一下典型的机器学习工作流程。如图所示,整个流程包含特征工程、模型训练、离线或者是在线预测等环节。

其他标签