Bootstrap
浅析决策树的生长和剪枝

​​摘要: 决策树剪枝策略:先剪枝、后剪枝,用于解决过拟合问题。

揭开KPI异常检测顶级AI模型面纱

摘要:2020GDE全球开发者大赛-KPI异常检测告一段落,来自深圳福田莲花街道的“原子弹从入门到精通”有幸取得了总榜TOP1的成绩,在这里跟大家分享深圳福田莲花街道在本次比赛的解决方案。

配置微软Azure大数据HDInsight云集群

配置微软Azure大数据HDInsight云集群,存储账户、托管标识等问题也都参考官方文档解决了。

全面开放!华为云GaussDB(for openGauss)正式商用发布

摘要:截止目前,华为消费者云已在GaussDB(for openGauss)上线了40+业务,包括弹幕&评论、云空间、地理大数据等业务系统,实时为5亿+用户提供高效服务。

滴滴Kafka服务体系建设,实战干货都在这里!

Obsuite·云讲堂第一期直播即将上线,欢迎大家于2月27日20:00进入腾讯会议849 182 609,观看直播~张亮老师将带给您精心准备的滴滴Kafka服务体系建设实战干货!

滴滴Kafka服务体系建设,实战干货都在这里!

Obsuite·云讲堂第一期直播即将上线,欢迎大家于2月27日20:00进入腾讯会议849 182 609,观看直播~张亮老师将带给您精心准备的滴滴Kafka服务体系建设实战干货!

This BigData,Hadoop组成及生态

随着科技的发展,我们在网上留下的数据越来越多,大到网上购物、商品交易,小到浏览网页、微信聊天、手机自动记录日常行程等,可以说,在如今的生活里,只要你还在,你就会每时每刻产生数据,但是这些数据能称为大数据么?不,这些还不能称为大数据。那么大数

命令行一键启动Hadoop集群

不装虚拟机,不配环境变量,不写配置文件,命令行一键启动单机Hadoop集群

Yarn日志聚合优化—摆脱HDFS依赖

针对集群 Yarn 日志聚合依赖独立的 HDFS 集群,当该 HDFS 集群 namenode rpc 压力过大时,提交到 Yarn 集群的作业量会下降,Yarn 分配 Container 的性能也会下降,进而影响到整个集群的吞吐量,本文针对问题进行优化,主要是摆脱作业提交对 HDFS 集群的依赖。

Yarn RM写ZNode超数据量限制bug修复

Yarn RM写ZK ZNode的数据量超过限制,导致 RM 服务进入Standby状态,用户无法正常提交任务,整个集群hang住,后续排查发现是异常任务写ZNode数据量太大超过限制,为避免类似问题再次出现,对RM写ZNode逻辑进行了优化,规避异常任务对整个集群造成的雪崩效应。

大数据简介&架构(一)

随着近年来,信息技术迅猛发展,通过各种终端设备收集大量的用户信息、操作行为等日志,数据的来源和数量正以前所未有的速度增长。对这些数据进行分析、挖掘、机器学习,实现个性化营销、智能推荐等应用,为公司挖掘更多的商业价值,为用户带来更好的体验。

极客大学架构师训练营 大数据 GFS、MapReduce、BigTable,Hadoop HDFS Yarn Hive 第12次作业

笔者在一家成立于1885年的全球性跨国银行,用大数据处理的业务包括:分析出洗黑钱的用户,根据用户的存款和消费数据给用户信用评分,贷款的时候给出相应额度。

OPPO大数据离线计算平台架构演进

OPPO大数据离线计算平台演进道路上,遇到了很多经典的大数据问题,比如说:shuffle失败、小文件问题、元数据切分、多集群资源协调、spark 任务提交门户建设。OPPO大数据离线计算平台团队依托自身的资源和技术,不断探索,务实的解决平台发展中遇到的各种问题

大数据知识专栏 - Hadoop的资源管理 Yarn介绍

大数据专栏系列文章: 通过该文章, 了解Yarn的运行机制, 包括资源调度与应用管理.

Hadoop之YARN的内部机制

前面两篇文章,我们介绍了Hadoop里两个重要的组件MapReduce和HDFS。本文我们一起看一下,作为大数据业内用的比较普遍的YARN的内部机制。

大数据开发hadoop之yarn基础架构详解

​Apache Yarn(Yet Another Resource Negotiator的缩写)是 hadoop 集群资源管理器系统,Yarn 从 hadoop 2 引入,最初是为了改善 MapReduce 的实现,但大数据培训是它具有通用性,同样执行其他分布式计算模式。

Hadoop 入门笔记—核心组件 YARN

Apache YARN (Yet Another Resource Negotiator) 是 Hadoop 中的资源管理和作业调度系统, 在 Hadoop 2.x 时才被引入。

云小课 | 大数据融合分析:GaussDW(DWS)轻松导入MRS-Hive数据源

摘要:通过建立GaussDB(DWS)与MRS的连接,支持数据仓库服务SQL on Hadoop,以外表方式实现Hive数据的快捷导入,满足大数据融合分析的应用场景。

带你了解WDR-GaussDB(DWS) 的性能监测报告

​​​​摘要:通过本文,读者可知晓什么是WDR,如何创建性能数据快照以及生成WDR报告。

处理XML数据应用实践

摘要:GaussDB(DWS)支持XML数据类型及丰富的XML解析函数,可实现关系数据和XML数据的映射管理功能。

当 Redis 发生高延迟时,到底发生了什么

Redis 是一种内存数据库,将数据保存在内存中,读写效率要比传统的将数据保存在磁盘上的数据库要快很多。但是 Redis 也会发生延迟时,这是就需要我们对其产生原因有深刻的了解,以便于快速排查问题,解决 Redis的延迟问题。

Apache Oozie学习笔记(一)

作者:あおざき

基于CarbonData的电信时空大数据探索

​​摘要:作为IOT最底层的无线通信网络生成大量与位置相关的数据,用于无线通信网络规划和优化,帮助电信运营商建设更好体验的精品网络,构建万物互联的信息社会。

大数据集群被窃取数据怎么办?透明加密可以一试

​​摘要:传统大数据集群中,用户数据明文保存在HDFS中,集群的维护人员或者恶意攻击者可在OS层面绕过HDFS的权限控制机制或者窃取磁盘直接访问用户数据。

Superior Scheduler:带你了解FusionInsight MRS的超级调度器

摘要:Superior Scheduler是一个专门为Hadoop YARN分布式资源管理系统设计的调度引擎,是针对企业客户融合资源池,多租户的业务诉求而设计的高性能企业级调度器。

一文讲清楚FusionInsight MRS CDL如何使用

​​摘要:CDL是一种简单、高效的数据实时集成服务,能够从各种OLTP数据库中抓取Data Change事件,然后推送至Kafka中,最后由Sink Connector消费Topic中的数据并导入到大数据生态软件应用中,从而实现数据的实时入湖。

带你认识MRS CDL架构

​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​摘要:MRSCDL是FusionInsight MRS推出的一种数据实时同步服务,旨在将传统OLTP数据库中的事件信息捕捉并实时推送到大数据产品中去,本文档会详细为大家介绍CDL的整体架构以

深度解读MRS IoTDB时序数据库的整体架构设计与实现

​​【本期推荐】华为云社区6月刊来了,新鲜出炉的Top10技术干货、重磅技术专题分享;还有毕业季闯关大挑战,华为云专家带你做好职业规划。

FusionInsight MRS:你的大数据“管家”

​​​​摘要:4月24日-26日,HDC.Cloud2021在深圳大学城成功举办,华为云FusionInsight MRS云原生数据湖带来最懂行的大数据解决方案,为政企客户提供湖仓一体、云原生的大数据解决方案,一个架构可构建3种数据湖:离线数据湖、实时数据湖、逻辑数据湖,更有

华为云FusionInsight MRS在金融行业存算分离的实践

摘要:华为云FusionInsight MRS的大数据存算分离解决方案,实现资源价值最大化,存储与计算资源全面云化、灵活配置、弹性伸缩,降本增效。

NewSQL分布式数据库,例如TIDB用K/V的底层逻辑

那么通过这种思路,就能比关系型数据库的b/b+树索引在写的性能方面带来质的提升,而且对于局部热点,也就是近期数据带来惊人的查询性能,虽然全局范围的查询有所降低,数据段合并会带来的资源消耗(rocksdb通过多线程合并提升了这一过程的效率)

[TcaplusDB知识库]TcaplusDB的数据恢复功能

TcaplusDB是腾讯自研的noSQL数据库,针对游戏的开发特点而定制,具备高性能、低成本、高可用、强弹性伸缩等特点,本文重点介绍Tcaplus高可用中必备的数据恢复功能。

结合源码讲解:Kafka消费者参数配置(解释、定义、引用、注意事项)

原创:石头老师@觅密学堂IT分享 2021年6月20日 微信:nevian668899

中国移动工程师浅析:KubeEdge在国家工业互联网大数据中心的架构设计与应用

【摘要】 在18年时候,工信部开展了一个叫国家创新发展工程,这个工程中提出了要建立一个国家工业大数据中心,中国移动在其中承担了边缘协同与数据采集相关功能的研发。本文将从该项目背景下面临的问题与挑战、技术选型等方面进行阐述。

其他标签