阿里云第三代神龙架构

今年双11,基于第三代神龙架构,搜索、广告以及核心交易数据库等存储和网络高负载业务完成全面云化,神龙输出千万核CPU计算能力,完成了阿里巴巴经济体所有业务负载100%在神龙公有云部署。

两年前,阿里云神龙首次支撑双11大促;去年,双11核心系统全面on神龙;今年,双11所有业务部署在神龙公有云。神龙架构已连续三年顺利支撑双11,每年不变的是一如既往的表现平稳,为用户提供了如丝般顺滑的购物体验,而变化的是神龙架构的不断升级和迭代。

本文将为大家揭秘双11最具挑战的搜索广告、金融级业务核心交易数据库如何迁移至第三代神龙架构,再详解神龙架构如何支撑阿里巴巴最大规模云原生实践落地,最后是神龙架构如何通过宕机演练大考、备战双11的背后故事。

最具挑战、没有之一,搜索广告业务升级至第三代神龙架构

对于电商平台来说,搜索功能是最核心的功能,百微秒的结果展示延迟都将直接影响到平台用户最终交易的转化,用户体验至关重要。所以,搜索广告业务对计算和网络的性能要求是极尽苛刻的,而这也是目前神龙架构面临的最具挑战的业务,没有之一。

今年双11,搜索广告业务支撑了数以千计的会场场景,日均商品曝光千亿次;日均模型发布上万次,单模型容量1TB+,模型参数达千亿级,实时每分钟更新1亿模型参数;日均样本数据处理达100PB,单次请求超过200亿次浮点运算。这些数据的背后,搜索业务团队对底层基础设施提出了两大挑战。

1、极致的性能需求,要求双向百G全线速处理网络流量

根据历史数据预测,双11凌晨零点线上搜索广告业务的网络带宽将达到双向100G极限全线速,所以要求基础设施资源能配合提供双向100G全线速(line speed)流量带宽处理的能力,以确保顺利支撑零点流量峰值。实际在双11当天零点,线上大部分网络流量均来自搜索广告业务的弹性裸金属实例,网络带宽均如预期达到了极限全线速。

第三代神龙架构,通过网络硬件加速实现了网络带宽全线速处理,可以提供100Gbps网络带宽、2400万PPS网络转发和100万云盘IOPS,极好地满足了搜索广告业务双向100G全线速流量带宽的处理需求,不仅帮助搜索广告业务顺利扛过了双11零点流量洪峰,同时还提升了资源的利用率。

2、进一步提升离线搜索和在线搜索混部服务质量

搜索广告业务分为在线搜索和离线搜索,这两个系统对资源的需求是天然互斥的:离线搜索业务要求极高吞吐能力,需要确保数以亿计的数据可以在15分钟内完成处理完成;在线搜索则是对时延有极高的要求,需要确保1000万数据亚秒级处理的实时性和极高的可用性。

第三代神龙架构引入了高级QoS特性,可多级调度网络和存储QoS,实现多维度精准调度,极好地支撑搜索广告的离线业务和在线业务混部,最终帮助搜索广告业务实现了同时达到在线业务低时延和离线业务高吞吐的混部业务目标。

事实上,在阿里巴巴集团实际的业务场景中发现,在同样的资源配置的情况下,神龙裸金属比普通物理机的QPS可以提升30%,延时可以降低96.3%,资源利用率也有大幅提升。

扛住58.3万笔/秒新峰值,核心交易数据库on神龙

联系我们

微信号:meida6699

QQ:657265212

QQ:946586667

电话:0635-6869545

QR code