模块三 - 消息队列架构设计文档
前言
本文是游戏业务线消息队列中间件详细架构设计文档,用于指导消息队列后续的开发、测试和运维
词汇表
1. 业务背景
2014年左右,公司游戏业务发展很快,子系统越来越多,系统间协作效率越来越低,主要表现在如下几个方面:
耦合问题:运营子系统很多通知功能调用逻辑写在项目代码中,后期通知有变动还需要修正代码重新发布。

性能问题:玩家充值后,等级子系统需要同步调用福利系统、客服系统、商品系统等子系统,性能很低,高峰期系统响应慢。

效率问题:每个子系统提供的接口参数和实现都有一些细微的差别,导致每次都需要重新设计接口和联调接口,开发团队和测试团队花费了许多重复工作量。
2. 约束和限制
数据库使用MySQL
服务器系统是Linux
业务系统是单机房
中间件团队熟悉Java语言
3. 总体架构
采用自研集群+MySQL存储的方案
Java语言编写消息队列服务器
消息存储采用MySQL
SDK轮询服务器进行消息写入
SDK轮询服务器进行消息读取
MySQL双机保证消息尽量不丢
使用Netty自定义消息格式,并且支持HTTP接口
消息系统与业务系统和管理系统间交互图

消息队列系统内部架构图

3.1 架构分析
3.1.1 高性能
不需要特别高的性能,游戏新版本和VIP充值的消息并不多,短期内用户出现爆发式指数级增长不太可能,系统压力基本不会激增。
3.1.2 高可用
需要,游戏版本发布和VIP都是优先级高的业务,涉及到用户直接的使用体验,必须保证可用。
3.1.3 可扩展
不需要,消息队列功能基本明确,无需扩展。
3.1.4 可维护
需要,后期消息系统需要交付给运费系统维护,并且需要嵌入到公司现有的运维监控体系中。
3.1.5 可观测
需要,开发人员需要查看某一队列的消费情况数据统计等、运费人员需要看到当前系统的运行指标。
3.1.6 可测试
需要,自研的消息集群服务,需要有全面、规范的性能测和可用测试。
3.1.7 成本
需要考虑,目前中间件团队只有6个人,而且最近游戏发展较快,为了更好的保证新的业务架构,也应该尽量将开发周期缩短。
3.1.8 安全
不需要,消息队列部署在内部机房,只有内部系统可访问。
3.2 总体架构
3.2.1 消息系统架构说明

消息队列SDK:消息队列客户端,采用JAVA语言开发,可通过Jar包引入系统
消息队列管理系统:管理消息队列系统,负责管理和监控消息队列系统的服务节点,向客户端提供配置服务
消息队列系统:提供主题消息读取和写入功能
消息队列SDK与消息队列系统:SDK直接访问消息队列系统中的节点,读取消息或写入消息
消息队列SDK与消息队列管理系统:SDK定时去消息队列管理系统拉取消息队列系统的节点与主题的对应关系
消息队列管理系统与消息队列系统:
管理系统下发节点配置信息和节点控制命令,比如主题增加删除修改、节点上下线重启
队列系统定时上传节点状态及消息统计信息,比如某主题的消息数量

管理系统模块说明:
权限管理:队列管理系统,超级管理员可为开发人员、运维人员、运营人员分配账户并提供不同的权限
配置管理:主题的增删改查
监控:主要提供一些基本的系统运行指标,给开发和运维人员查看,同时为嵌入公司已有的监控体系提供接口支持
维护:运维人员发现故障后,能及时停止节点服务,并快速定位恢复访问
3.2.2 消息队列系统内部架构说明

采用数据分散集群的架构,集群中的服务器进行分组,每个分组存储一部分消息数据。
每个分组包含一台主 MySQL 和一台备 MySQL,分组内主备数据复制,分组间数据不同步。
正常情况下,分组内的主服务器对外提供消息写入和消息读取服务,备服务器不对外提供服务;主服务器宕机的情况下,备服务器对外提供消息读取的服务。
客户端采取轮询的策略写入和读取消息。
4. 详细设计
客户端设计:客户端采用Java开发,基于Netty与服务器端交互
消息队列服务器端设计:
服务器基于Netty开发,采用Reactor网络模型
两台服务器组成一个sharding,整个系统可以多个sharding,每个sharding包含一主一从两台服务器(可以对比MongoDB shard)
主服务器提供消息读写操作,从服务器只提供消息读取操作
服务器基于ZooKeeper进行主从切换
MySQL设计:
采用MySQL主从同步
每个消息队列对应一个表
消息表最多存储30天内的消息,过期的自动清除
直接用MySQL的主从复制来实现数据复制
客户端与消息队列服务端设计:
客户端与服务端采用TCP连接,采用Json传递数据
为了兼容非Java系统,服务端同时提供HTTP接口
4.1 核心功能
4.1.1 消息发布
1. 消息队列系统设计两个角色:生产者和消费者,每个角色都有唯一的名称。
2. 消息队列系统提供SDK供各业务系统调用,SDK从配置中读取所有消息队列系统的服务器信息,SDK采取轮询算法发起消息写入请求给主服务器。
3. 如果某个主服务器无响应或者返回错误,SDK将发起请求发送到下一台主服务,相当于在客户端实现了分片的功能。
4.1.2 消息读取
1. 消息队列系统提供SDK供各业务系统调用,SDK从配置中读取所有消息队列系统的服务器信息,轮流向所有服务器发起消息读取请求。
2. 消息队列服务器需要记录每个消费者的消费状态,即当前消费者已经读取到了哪条消息,当收到消息读取请求时,返回下一条未被读取的消息给消费者。
3. 默认情况下主服务器提供读写服务,当主服务器挂掉后,从服务器提供读消息服务
4.1.3 服务器主从切换
1. 同一组的主从服务器配置相同的group名称,在ZooKeeper建立对应的PERSISENT节点
2. 主从服务器启动后,在ZooKeeper对应的group节点下建立EPHEMERAL节点,名称分为为master和slave
3. 从服务器watch主服务器的master节点状态,当master节点超时被删除后,从服务器接管读消息,收到客户端SDK的读消息请求后返回消息,收到客户端SDK的写请求直接拒绝。
4.2 关键设计
4.2.1 消息发送可靠性
业务服务器中嵌入消息队列系统提供的 SDK,SDK 支持轮询发送消息,当某个分组的主服务器无法发送消息时,SDK 挑选下一个分组主服务器重发消息,依次尝试所有主服务器直到发送成功;
如果全部主服务器都无法发送,SDK 可以缓存消息,也可以直接丢弃消息,具体策略可以在启动 SDK 的时候通过配置指定。
如果 SDK 缓存了一些消息未发送,此时恰好业务服务器又重启,则所有缓存的消息将永久丢失,这种情况 SDK 不做处理,业务方需要针对某些非常关键的消息自己实现永久存储的功能。
4.2.2 消息存储可靠性
消息存储在 MySQL 中,每个分组有一主一备两台 MySQL 服务器,MySQL 服务器之间复制消息以保证消息存储高可用。
如果主备间出现复制延迟,恰好此时 MySQL 主服务器宕机导致数据无法恢复,则部分消息会永久丢失,这种情况不做针对性设计,DBA 需要对主备间的复制延迟进行监控,当复制延迟超过 30 秒的时候需要及时告警并进行处理。
4.2.3 消息如何存储
每个消息队列对应一个 MySQL 表,消息队列名就是表名,表结构设计为
CREATE TABLE $(message}(
`id` bigint primary key autoincrement not null,
`content` text,
`publish_unixtime` int default 0,
`publish_client` varchar(128) default '',
`create_unixtime` int default 0
)ENGINE=InnoDB charset utf8mb4 comment 'message name';
CREATE TABLE ${message}_consume(
`id` bigint primary key autoincrement not null,
`message_id` bigint default 0,
`subscribe_group_name` varchar(128) default '',
`subscribe_client` varchar(128) default '',
`create_unixtime` int default 0,
unique key(`message_id`, `subscribe_group_name`)
)ENGINE=InnoDB charset utf8mb4 comment 'message consume log';
message id通过雪花算法生成,保证每个分片上的ID唯一
innodb charset使用utf8mb4,防止有表情符
每个客户端都有唯一标识,通过消息队列管理器分配
message_id 和 subscribe_group_name 组成唯一索引,防止组内重复消费
4.3 设计规范
开发框架
消息队列服务器使用 Spring Boot + Netty 开发
消息队列管理服务器使用Spring Boot + Netty 开发
客户端SDK使用Java + Netty 开发
交互协议及数据格式
SDK 与 消息队列服务器 使用TCP协议,数据包JSON格式传输
SDK 与 管理服务器 使用TCP协议,数据包JSON格式传输
管理服务器 与 消息队列服务器 使用TCP协议与HTTP协议,TCP数据包使用JSON格式传输,HTTP协议因地制宜
其他
MySQL 使用 Innodb 存储引擎
TCP 包的结构设计
REQUEST_PULL_MSG
{
"client_id":"123123",
"type":"pull",
"client_unixtime":12312923234,
"group_name":"haha"
}
RESPONSE_PULL_MSG
{
"code": 200,
"msg": "",
"data":{
"group_name":"haha",
"message_id": 123124123,
"publish_unixtime": 12312312,
"topic_name": "haha",
"publish_client" : "",
"content": ""
}
}
REQUEST_PUSH_MSG
{
"client_id":"123123",
"type":"push",
"client_unixtime":12312923234,
"content":""
}
RESPONSE_PUSH_MSG
{
"code": 200,
"msg": "",
"data":{
"message_id": 123124123
}
}
5. 质量设计
5.1 消息队列管理后台(待完善)
可测试
可维护
可观测
5.2 成本(待完善)
6. 演进规划
6.1 一期:消息队列系统核心接口可用
保证消息队列系统接口可用,可测试
6.2 二期:核心业务功能可用
SDK、消息队列管理系统、消息队列系统核心功能可用,建主题、推送消息、拉取消息
6.3 三期:系统可观测、可维护
嵌入公司运维体系、管理系统模块功能可用
PS:本文章主体框架借鉴 华仔