腾讯自研分布式远程Shuffle服务Firestorm正式开源

11月4日,在2021腾讯数字生态大会上,腾讯宣布开源自主研发的分布式远程Shuffle服务Firestorm。该服务的开源不但可以助推分布式计算的云原生部署,还能解决大数据分布式计算过程中的痛点,提升计算资源的利用率。

图片来源:pixabay
在分布式计算领域,Shuffle过程由于存在着磁盘IO随机读写问题,一直是分布式计算任务的性能瓶颈,除了降低计算任务的运行效率,还降低硬件资源的利用率。同时,由于Shuffle过程对于本地磁盘有容量需求(如Spark计算引擎),对于计算引擎的云原生化也制造了阻碍。近年来,云原生的需求不断增加,而和大数据息息相关的分布式计算领域也在不断探索如何云原生化这样的课题。业界对于Shuffle过程存在的问题越来越关注,改善的需求也越来越迫切,不但出现了各种解决方案,部分国外厂商也开源了相关的实现。
腾讯大数据团队在推进云原生的过程中也遇到了相同的问题,由于缺乏一个通用,便于扩展的远程Shuffle服务的开源方案,团队提议进行自研并最终开源回馈社区,Firestorm则在这样的背景下应然而生。相比已经开源的同类服务,腾讯Firestorm能适用于更多的应用场景,更灵活的接入各类分布式计算引擎,还能支持各种不同的存储系统。
为了达到支持云原生的部署模式并提升计算资源的使用率,Firestorm具备诸多特性:
目前Firestorm在腾讯内部已经在近万台规模的在线离线混布集群落地,每天支撑近5W的分布式计算作业,每天的Shuffle数据量接近2PB,已经达到了初期制定的第一阶段目标,具备了相当的生产环境成熟度。除此以外,Firestorm在Shuffle数据量较大的分布式计算任务中能显著提升性能和成功率,有效支撑现网Shuffle量100TB+的分布式作业。
腾讯大数据团队表示:“将腾讯自主研发的分布式远程Shuffle服务Firestorm开源,不仅可以将腾讯在大数据分布式计算领域的技术和经验和全球开发者分享,还能够汲取该领域在全球范围内的优秀理念,最终推动分布式计算领域在云原生时代的进一步发展。” 未来团队还会进一步对其优化,在开源后,腾讯也将和社区的开发者一起对Firestorm不断完善。
开源版本地址:
(点击“阅读原文”即可访问)
本文转载自:腾讯大数据 公众号
作者:腾讯大数据

