物联网(Internet of Things)让速度急剧加快!
自从2021年1月份推出免费的StarRocks标准版产品后,我们的客户量出现了爆发式的增长。到目前为止,已经有数十家客户在生产环境正式上线了StarRocks,并且有数百家客户正在进行真实业务场景的测试。我们邀请了部分已上线的客户,分享他们的数据分析经验。
Openet已经迈出了大胆的一步
摘要:是否对面试官在Hadoop 面试中可能会问的所有问题感到不知所措?现在是时候通过一系列涵盖 Hadoop 框架不同方面的 Hadoop 面试问题了。
日志不仅记录了程序的执行过程,同时也是分析问题的一种重要手段。对于神策分析 iOS SDK 而言,通过日志系统不但可以了解到 SDK 的行为,而且便于我们排查问题。因此,日志系统是 SDK 中必不可少的一项功能。
摘要:为了探究垃圾的智能分类等问题,由中关村海华信息研究院、清华大学交叉信息研究院以及Biendata举办的2020海华AI垃圾分类大赛吸引了大量工程师以及高校学生的参与
摘要:全托管Serverless服务DLI就像是我们日常使用的滴滴共享打车,我们不再需要为购买和保养私家车而支出固定成本。
随着大数据时代的来临,各行各业都面临着数字化转型等问题带来的挑战。星环科技基于自研的多款软件平台,为企事业单位应对数字化浪潮的各类问题提供解决方案。本合集将以现实问题为基础,以应用案例为依托,深入浅出地介绍其可行解决方法。
projeciton对查询性能有着百倍级别的提升,那没有projection功能之前,clickhouse还存在什么问题?本文梳理了作者对clickhouse projection的一些思考。
OpenLooKeng是一款开源的高性能数据虚拟化引擎,提供统一SQL接口,可以实现对多个数据库的跨源异构和跨域跨DC查询。我们使用SSB测试基准提供的数据和SQL查询语句,对OpenLookeng的ClickHouse connector的性能进行了初步的评估。
今天,请给国产新一代MPP数据库一个机会,让鼎石数据库助力您的业务飞速发展!
滴滴集团作为生活服务领域的头部企业,正在全面测试和上线StarRocks。StarRocks在稳定性、实时性方面也给了我们良好的体验,接下来以StarRocks实现的漏斗分析为例介绍StarRocks在橙心优选运营数据分析应用中的实践。
数据团队到底是成本?还是价值?如果没有泛化数据给使用数据的人,数据团队将永远被冗杂和重复的工作所困
对比分析:根据选定的两个对比时段,提供网站流量在时间上的纵向对比报表,发现网站发展状况、发展规律、流量变化率等。
数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。
摘要:华为开发者大会2021(Cloud)大会期间,华为云FusionInsight MRS云原生数据湖HetuEngine架构师武文博,分享了“跨湖跨仓场景下如何实现海量数据分钟级分析”主题。
摘要:全托管Serverless服务DLI就像是我们日常使用的滴滴共享打车,我们不再需要为购买和保养私家车而支出固定成本。
你知道有四种过滤Spark数据集的方法吗?
第13周总结:Spark&流计算,数据分析和机器学习总结
拿下数据分析师offer的实战技能
你们年货都买了些什么?
Python 实战案例分析 | 某化妆品企业的销售分析
拿下数据分析师offer的实战技能
近期成为月入两万的数据分析师的广告遍地都是,可能会对一些未入行的同学造成错觉。我个人感觉数据分析师这个岗位,可能近几年会消亡。未来数据分析可能会变成一个基本无门槛的模块,培养自己的产品sense,解决用户需求问题,或将成为未来的发展方向。
摘要: “一分钟,我要这个人的全部信息”,霸道总裁拍了拍你。
摘要:采用 SQL 作为数据查询和分析的入口是一种数据全栈的思路。
“颜值和性格成反比”更可能是我们犯了伯克森谬误而得出的错误结论;面对涉及到能力、品格、长相、运气的各种“负相关”论断,我们都应该保持戒心。
日前,openLooKeng发布了新版本v1.2.0。在易用性和安全性上,该版本优化了数据加载性能,新增结果分页显示、动态添加目录等新功能,为用户提供更加友好的使用界面;同时也丰富了Ranger的功能,使openLooKeng可以提供更高细粒度的权限控制。
定义上说,元数据(Metadata)即描述数据的数据,但是在实际使用的时候,还是存在很多细分的概念,业务层偏向应用端,技术层偏向底层系统的交互和实现,在对性别的描述上都是核心维度。本质上看元数据,介于系统和业务中间,提供双方都能明白的语义和逻辑。
又不知道写什么,便稍微介绍一下一般我们常用的数据分析的流程。本篇主要以90年代的 CRISP-DM 为例进行说明。
本文开始正式写Pandas的系列文章,就从:如何在Pandas中创建数据开始。Pandas中创建的数据包含两种类型:
数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。
云厂商的一系列新产品的推出,虽然让数据开发工程师们尝到了甜头。但是我们也可以从中敏锐地嗅出一丝危机的气味。
类似连续登录人数计算的问题,比如想要算任意时间段内连续登陆天数,怎么算?