Bootstrap

分布式系统架构设计 - 一致性hash算法及其改进

概述

通常,分布式系统习惯采用分布式哈希(DHT)算法来实现数据的分区分配(路由)以及负载均衡,普通的分布式hash算法通过增添虚拟节点,对物理的热点区间进行划分,将负载分配至其他节点,从而达到负载均衡的状态,但是这并不能保证集群的负载就一定很是的均衡。

而一种改进过的一致性Hash算法,即带边界因子的一致性Hash算法,其严格控制每个节点的负载从而能获得更好的负载均衡效果。

普通的DHT算法

假设有8个Object,通过下图的DHT算法:

很明显,Vnode0和vNode1 都落了三个 object,而 vNode2和vNodeN 都只落了 1个Object,这里的DHT算法负债均衡因子并不是很好。

带负载边界因子的DHT算法

假设有8个Object,通过如下图的DHT with bounded loads算法:

第一轮映射:

第二轮映射:

最终的映射结果是:

很明显,Vnode0,vNode1,vNode2, vNodeN 每个节点都分到2个 object,显然带负载边界因子的DHT算法负债均衡比普通的DHT算法来的好。

这些节点的负载因子可以从IO,CPU,MEM,Disk,Network等输入因子计算出来。

作者简介

常平,中科大硕,某AI芯片独角兽深度学习首席软件主管工程师,前EMC 大数据资深首席工程师,主要工作背景在深度学习、流式大数据、分布式中间件以及Linux内核。

参考资料

[1]

[2]