为天琴α超大规模计算集群提供自动化运维能力是摆在京东云面前的难题

2022-01-10 16:21:06 中国网阅读量:19790   
imgad2

继人工交付裸金属,智能交付裸金属到边缘裸金属的持续升级后,京东云正式进军高定裸金属,以自主研发的裸金属服务器管理平台,支持全国首个基于DGX SuperPOD架构的超级计算集群——天琴α。

图:天琴α部分机柜

谁在追捧裸金属服务器

作为兼具云主机与物理机优势的云产品,裸金属在不少行业场景中备受追捧,成为用户上云的首选。。

以金融,银行,证券等行业为例,裸金属资源独享,数据隔离和可监管,可追溯的特性,可以满足业务部署的合规性要求,客户对数据的安全要求在超算中心,航空航天等科学研究场景,裸金属不受虚拟化性能损耗等影响,保持优秀计算性能,稳定性,实时性表现,支持处理大规模数据还有游戏开发,基因测序等多类场景,裸金属都是众多用户的首选

究其原因,是裸金属无虚拟化性能损耗,独享服务器计算能力和存储空间的特性,可以满足核心应用场景对高性能,稳定性和安全性的需求,同时拥有云化管理,自动化交付,提供快速弹性扩展业务的能力,让用户可以像虚拟机一样直接申请,部署和管理物理机。

从通用到高定,京东云裸金属的里程碑式升级

近期,京东探索研究院宣布建设完成全国首个基于DGX SuperPOD架构的超大规模计算集群——天琴α,为超级深度学习,可信人工智能以及量子机器学习三大方向的研究提供强大算力支撑在天琴α的背后,正是京东云自主研发的裸金属管理平台

京东云裸金属致力于在不侵入服务器硬件设备和不增加成本的前提下,为客户提供裸金属云服务,满足客户按需购买,按量付费,弹性扩展的能力不同于通用裸金属方案提供基于以太网的网络隔离能力,镜像和服务器初始化配置等服务,天琴α采用的DGX服务器旨在实现超级计算能力,难以与云主机融合,且不可随意加装硬件设备影响整体性能和稳定性

如何在不加增特定硬件的前提下,为天琴α超大规模计算集群提供自动化运维能力是摆在京东云面前的难题。

面对天琴α超大规模计算集群的自动化运维需求,京东云在原有裸金属管理平台基础上,深度定制一套全新的裸金属管理平台,不仅支持以太网和InfiniBand网络同步隔离,DGX服务器实例管理,还提供定制化OS镜像,面向NVME磁盘的软RAID设置和完全个性化的服务器初始化配置能力。

通过这套高度定制化的裸金属管理平台,可实现以线上控制台或者OpenAPI分钟级完成新DGX服务器的初始化安装部署配置,支持随时在线管理DGX服务器资源或者重新调配,极大提升整体集群的利用效率。

全栈裸金属产品服务,助力多元客户上云

从2017年初京东决定全面向技术转型以来,近五年时间已在技术上累计投入近750亿元,换来在高精尖领域创新等领域的重大突破,并在京东体系的业务场景完成大规模实践在近期揭晓的2021新型实体企业百强榜上,京东高居第二名

在裸金属领域,基于多年的技术研发与业务实践,京东云已经构建全栈裸金属产品服务体系,包括人工交付裸金属产品线,智能交付裸金属产品线以及边缘裸金属产品线,并支持面向客户场景进行深度定制化研发。项目包括:启动,构建基础代码,运行HelloWorld,调用蓝牙音响硬件等。

京东云裸金属已经在大数据,数据库,数据仓库,容器管理平台,三方CDN等多种业务场景为客户提供服务,赢得广泛好评在即时零售及配送行业,京东云以公有云+裸金属的混合云架构,助力用户将无状态业务系统部署在云主机,数据库及数据仓库部署在云物理服务器,并通过内网专线将两者的VPC打通同时将云物理服务器AZ间内网打通,实现DB数据实时同步帮助客户通过京东618,11.11等大促流量洪峰考验,同城方案双活保障整体可用性达到99.995%

未来,京东云裸金属将持续升级,为用户研发更多满足需求的裸金属产品服务,提供全栈上云方案,满足用户上云,用云需求,推进企业数智化进程。