作者:时代财经 史成超
阿里云弹性计算负责人张献涛。来源:阿里云发布会
7月15日,阿里云宣布推出第三代神龙云服务器。与上一代相比,第三代神龙云服务器的综合性能暴涨160%,比目前全球最顶级云服务器快30%以上,能提供顶级算力。
传统服务器主要依赖堆硬件提升性能,而阿里云自研的神龙架构,基于硬件云原生理念,打破了虚拟化技术与CPU、内存、网卡等硬件的鸿沟,发挥出比传统物理机更强的性能。目前,全球仅有亚马逊AWS和阿里云两家厂商通过相关技术实现了虚拟化零损耗。
时代财经从阿里云方面获悉,第三代神龙云服务器产品家族提供了最多208核、最大6TB内存,云盘IOPS(即每秒的输入输出量)高达100万、网络转发高达2400万、网络带宽高达100G,均为全球最高性能水平,支持CPU、GPU、NPU、FPGA等多种计算形态,具备3分钟交付50万核vCPU的极速扩容能力,是云原生的最佳载体。
过去十年,阿里云的存储性能提升了2000倍,网络性能提升了500倍,整体算力以平均每12个月翻一番的速度增长,超越了摩尔定律,这其中,阿里自研的神龙架构发挥了重要的作用。
阿里云弹性计算负责人张献涛在接受时代财经等媒体采访时,将取得的成绩归结于“自研”。神龙云服务器不仅性能较上一代有了大幅飞跃,各项性能参数上,也代表云计算行业与传统数据中心进一步拉开了差距,背后是阿里云的自研重心转向软硬件一体化。
“以前虚拟化技术的设计思路,前提都是服务器和计算架构都已经定了,如何通过软件适配计算架构。我们做神龙则是反其道而行之。”张献涛表示,“随着云计算向纵深方向发展,软硬一体化的架构设计将成为云技术架构的主流。3-5年内,容器在IT架构里面占比将达到一半以上。”
最大挑战是确保稳定性
神龙架构诞生最初,是用以减少云计算行业的性能损耗。
2009年,阿里云成立后,采用了当时较为流行的开源虚拟化软件XEN,之后在2014年升级到KVM架构,后者在虚拟机和硬件之间加了一个软件层--Hypervisor,直接运行在物理硬件之上,大幅降低了虚拟化性能损耗,但依然有很多缺陷,对产品和客户带来了巨大的挑战。
首先是资源争抢,客户使用的虚拟机和虚拟化管理系统的宿主机“共处一室”,带来虚拟机计算能力的波动,云厂商没法把这台机器的全部算力给到客户。此外,性能瓶颈会影响整个存储、网络的虚拟化,降低稳定性,无法支持裸机服务。
为了解决这一问题,阿里云于2017年推出首款自研神龙云服务器,采用软硬一体的虚拟化架构方案,解决了虚拟化性能损耗的问题。
“我们不再使用传统的像KVM、XEN这种虚拟化架构,而是自研了非常轻量级的Dragonfly Hypervisor(神龙架构),不仅资源占用少,在虚拟化的效率提升方面也非常明显,在计算的抖动性方面可以做到百万分之一级别,在业界处于非常领先的水平。”张献涛介绍道。
到2019年9月,阿里云宣布第三代自研神龙架构,全面支持ECS虚拟机、裸金属、云原生容器等,贯穿整个IaaS计算平台,并在IOPS、PPS等方面提升5倍性能。在阿里巴巴内部,神龙架构已大规模应用于淘宝、天猫、菜鸟等业务,解决高峰值的性能瓶颈问题。
在神龙性能保障提升160%的同时,张献涛表示,成本价格方面反而有所下降。他指出,同样是8核32GB的实例,在阿里云上面的性能可能比其他云高50%、60%,有的甚至一倍。“客户关心的都是性价比,我们的定价本身就比较低了,但是我们在性能方面,又高出一大截,整体来看,我们的性价比这种竞争优势是比较明显的。”
与此同时,神龙架构的进化也面临着不断的挑战。谈及神龙架构的研发过程,张献涛提到,一般会用半年或者9个月的时间来确保稳定性。“在第三代神龙架构研发的过程中,如何能够在快速互联网迭代方式下,实现芯片随着用户周期迭代,并且同时确保稳定性能,这对我们是很大的挑战。”
“其他公司也面临同样问题,一些公司都尝试了两三代,到现在还没有做出来。做一个模型简单,但是真正用到生产环境里面,尤其是短期内大规模应用的话,这个挑战我相信是会非常大的。”
张献涛认为,未来神龙架构主攻方向有三:一是存储性能要进一步提升;二是可信计算领域加密算法的加强;三是与半导体芯片领域的研究结合。
阿里云自研向软硬一体转变
弹性计算服务是云计算最基础、核心的产品,也是阿里云在2010年的5月10日对外发布的第一个商业化的产品。
从最早单一的通用计算,到推出异构计算与高性能计算产品,再到今天的一系列新品,阿里云弹性计算已覆盖互联网、金融、零售等行业近300种场景,支撑了各种流量高峰:如12306的春运抢票、微博热点的暴涨流量、钉钉2小时扩容10万台云服务器等。以上场景的极致表现,均离不开阿里云自研的神龙弹性裸金属服务器支持。
张献涛表示,2016年,阿里巴巴经济体业务上云时,对产品提出了更高的能力要求。而在评估业界同行、设备厂商芯片后,团队发现现有产品已经满足不了业务需求。“因为他们的设计还是传统的X86架构,而我们今天的神龙架构对外的I/O,以及一些计算方面的优化,其他厂商其实都没有考虑过。”
阿里云神龙计算平台负责人蒋林泉曾指出,很多云厂商选择走“捷径”,直接用开源技术搭建平台,看起来是“短、平、快”,实现快速上线的效果,但是过于依赖开源技术,意味着企业缺乏自主演进能力。阿里云则选择了自研的道路,包括自研飞天、神龙等,并将自研重心转向软硬件一体化,逐渐与其他厂商拉开了距离。
据张献涛透露,第三代神龙架构所有涉及链路的东西,无论是存储还是网络,都使用了阿里云自研的神龙芯片进行加速,从来带来极致性能提升。
“网络我们做到了2400万PPS(云计算参数,指每秒发包数量),是业界其他厂商最好水平的至少3倍,这方面优势其实也是神龙芯片带来的。”此外,存储和低延迟方面的性能,也是得益于神龙芯片加速的能力。
他进一步提到,“2016年我们还没有收购平头哥,如果自己去做SoC(系统级芯片)和ASIC(专用集成电路)的话,各方面IP都开发完成的情况下需要2-3年,我们客户的业务是等不及的,所以我们用FPGA(半定制电路)做了第一代的神龙芯片。今天有了平头哥,所以我们会和平头哥一起去做一些ASIC和SoC联合方面的开发和尝试。”
张献涛认为,阿里自主研发的AI芯片寒光800是软件协同设计的典范,“原来我们只能用GPU,还是一个通用计算的并行计算处理器,但是NPU出来了之后,它的推理算力比传统的GPU高好多倍,这个也是软硬件协同设计带来的一些优势。”