Airflow 是一个编排、调度和监控workflow的平台,由Airbnb开源,现在在Apache Software Foundation 孵化。AirFlow 将workflow编排为tasks组成的DAGs,调度器在一组workers上按照指定的依赖关系执行tasks。
SparkSQL已经成为Spark最常用的使用方式之一了,但SpakSQL是如何将SQL转化具体的任务执行逻辑,本文将对SparkSQL Catalyst的SQL解析,优化和执行流程进行学习和分析
今天给大家分享第四范式在推荐系统大规模特征工程与Spark基于LLVM优化方面的实践,主要包括以下四个主题。
我们在之前的文章中提到过《大数据可视化从未如此简单 - Apache Zepplien全面介绍》一文中介绍了 Zeppelin 的主要功能和特点,并且最后还用一个案例介绍了这个框架的使用。这节课我们用两个直观的小案例来介绍 Zepplin 和 Spark 如何配合使用。
Hive on Spark过程中,一个HQL是如何传输到spark集群的,本文在一次线上环境的trouble shooting中揭秘
作为Hadoop里重要的分布式计算组件MapReduce到底存在什么样的问题,大家纷纷都转投其他技术栈?我们来一起探个究竟。本文会先详细解析一下整个MapReduce的过程,编程方式,然后再去分析一下存在的问题和其中可以借鉴的点。
Spark超强攻略
RDD是Spark的基本数据抽象,利用将数据存储在内存;分区存储使得其天然支持并行;存储依赖关系提升错误恢复,基于RDD的论文介绍了RDD的一些概念和实现思想
Spark中有很多异步处理的例子,每一个地方都值得好好去审视一番,对辅助理解spark的机理以及为自己写出优雅的代码都会有很大的帮助。
写在前面: 大家好,我是强哥,一个热爱分享的技术狂。目前已有 12 年大数据与AI相关项目经验, 10 年推荐系统研究及实践经验。平时喜欢读书、暴走和写作。
本节主要阐述六种异步方案:回调函数、事件监听、发布/订阅、Promise、Generator和Async。其中重点是发布/订阅、Promise、Async的原理实现,通过对这几点的了解,希望我们前端切图仔能够在修炼内功的路上更进一步。
通过设定衡量代码质量的八个度量项来对软件的质量进行量化打分,其设定度量项的标准参考了定义软件质量的ISO25010标准。这篇文章将给大家介绍一下如何通过ISO25010标准来制定以下的质量指标。
最近找工作的同学很多,我发现不少人对如何找一份合适自己的工作上比较迷茫。今天推荐一篇我的好朋友邱岳的文章,或许适用于尚在职场前半场的朋友们。
不要轻易去依赖一个人,它会成为你的习惯,当分别来临,你失去的不是某个人,而是你精神的支柱。无论何时何地,都要学会独立行走,它会让你走得更坦然些。
(1)主要考虑避免频繁的线程以及多CPU内核的上下文切换机制。
7月15日,“融通发展,共赢5G消息新未来”——2021中国移动创客马拉松大赛5G消息专题赛启动仪式顺利举行。
今天讲解的这道题目,由于其涉及大量网络协议,可以非常直观的看出诸位小伙伴对计算机网络体系的整体把握程度,所以自然成为了各大公司的面试常客。
哪吒人生信条:如果你所学的东西 处于喜欢 才会有强大的动力支撑。
带你找回童年般的感觉。
本文会先解释 HTTP 为什么是不安全的,然后讲解 HTTPS 为了保证 Web 的安全提供了哪些手段,最后再揭晓谜底,为什么更安全的 HTTPS 协议在互联网上没有被全面采用。
Python 实战案例分析 | 某化妆品企业的销售分析
哪吒人生信条:如果你所学的东西 处于喜欢 才会有强大的动力支撑。
大家好,我是魔王哪吒,很高兴认识你~~
以下是在现公司,给成员做分享的资料。 不管是业务技术还是底层技术人员,有一些思维和能力都是共通的。比如,分解问题的能力,抽象思维,结构化思维等等。这些都需要我们在日常的工作生活中不断的加深思考,沉淀能力。
架构即权衡
学习不是努力读更多的书,盲目追求阅读的速度和数量,这会让人产生低层次的勤奋和成长的感觉,这只是在使蛮力。那么,什么才是高质量的学习呢?这篇文章告诉你高效学习那些事~
第一次编写代码,第一次发表文章,第一次获得赞赏,第一次参与程序员课程培训……我们的职业生涯中面临过多种多样的第一次。
今天就让我们的专业编辑给大家讲一讲,如何写出一篇备受青睐的好文章,再说说如何被推荐到首页&登上写作平台置顶位。
25年前,尼尔·斯蒂芬森写的一本书,书名叫《雪崩》,它确实改变了人们的认知。这听起来很戏剧性,但这是真的。《雪崩》 引入了“元宇宙”的概念,这是一个虚拟世界,人们可以在梦幻般的3D环境中进行互动,成为他们想成为的人,过一种完全不同的生活。
ETL同步工具KETTLE
摘要:2020GDE全球开发者大赛-KPI异常检测告一段落,来自深圳福田莲花街道的“原子弹从入门到精通”有幸取得了总榜TOP1的成绩,在这里跟大家分享深圳福田莲花街道在本次比赛的解决方案。
我们不生产数据,我们只是数据的搬运工。
今天,我们分享的内容主要是物联网操作系统中的任务管理。
在上一讲中我们基本上学习了 css 中经典的塌陷问题以及 margin 和 padding 具体指的是什么和怎么合理运用,除此之外,在上一讲的最后我们还了解了圆角边框和盒子阴影,更能熟悉的学习对于盒子更多非常规的时候怎么去贴合业务。掌握基础是非常重要的,所以需要