文章详情

Blogs

基于GPU智能精准调度平台的算力整合:数字经济的新引擎

01

引言


在数字化浪潮的推动下,算力已经成为推动经济发展的新动力。


智算中心分散式建设带来的挑战


随着国家政策的引导和算力市场的火热,智算中心如雨后春笋般涌现。这些智算中心的快速增长,带来了算力资源的丰富。打通智算中心,实现全局布局,是构建高效、可靠、安全、经济的智能计算基础设施的重要步骤。因为这可以实现资源共享、协同工作、数据本地化、增强安全性、提升用户体验等。如何打通这些分散的智算中心正成为新的挑战。

运营商智算中心并网调度


在这样的背景下,中国联通、中国移动、中国电信等运营商开始着手进行全国范围内的算力整合。通过并网行动,将社会算力与运营商自有算力汇聚,构建多层级的算力布局体系,实现智算资源的共享,这不仅提升了资源的使用效率,也为数字经济的发展提供了强有力的支撑。


算力整合实现跨区域连接


目前算力发展存在很多难点,但是通过算力整合实现算力跨区域连接将是解决算力发展难点的一个思路。

530 2.png

图1-1:算力跨区域连接是解决算力发展难点的一个思路


今天我们来聊一下算力整合这个话题。


02

什么是算力整合


算力整合,简单来说,就是将分散的算力资源汇聚起来,通过智能化的调度平台,实现资源的最优配置和利用。这不仅关乎数据中心内部的资源整合,更是跨数据中心、跨地域集群的大范围汇聚。


算力整合的双重维度


算力整合可以从狭义和广义两个层面来理解。


狭义上,它是数据中心内部资源的整合,通过云服务化的智能调度平台,实现算力的精准分配和使用。我们可以称之为域内算力整合。


广义上,它则是跨数据中心、跨地域的算力集群的整合,通过多级平台实现算力的广泛汇聚。我们可以称之为跨域算力整合。


03

算力整合实践的关键


算力整合实践的关键是GPU智能精准调度平台、逻辑资源池、多资源池接入以及算力交易门户等。


GPU智能精准调度平台


在算力整合的过程中,GPU智能精准调度平台发挥着至关重要的作用。它能够接入多个GPU池化集群,实现对资源的统一管理和调度。这种平台的建立,是实现算力整合的关键一步。


5301.png

图3-1:GPU智能精准调度平台


基于趋动科技的OrionX的应用与算力分离部署的架构,可以为用户提供远程算力使用、异构算力同集群纳管、动态资源自动分配、自动回收、丰富的调度策略等核心能力,为算力整合提供了最基础的GPU智能精准调度能力。


530 4.png

图3-2:GPU智能精准调度平台的核心功能特性


多资源池接入


一个运维管理系统接入多个GPU池化集群,提供SPoG(Single Pane of Glass,通常指一个集成的仪表板或用户界面,它允许管理员从单一视图监控和管理多个系统、服务和应用程序)的运维管理系统。


灵活的逻辑资源池划分


多资源池的整合,使得我们可以将不同的GPU资源池统一接入和管理。而vpool(逻辑资源池)的引入,则为我们提供了更灵活的资源划分方式。vpool可以跨越物理集群,实现跨地域的资源逻辑组织,这为算力的灵活调度提供了可能。


趋动科技OrionX实现基于物理资源池之上灵活地划分逻辑资源池,从而更符合组织内,或者行业、社会需求的算力分配,同时支持实现vpool的动态调整。


5303.png

图3-3:物理资源池与逻辑资源池的灵活划分


算力交易门户


算力交易门户为算力供需双方提供了一个交易平台。通过这个门户,需求方可以轻松下单,供应方可以高效开通资源,双方的交易更加顺畅,资源的配置更加优化。


5305.png

图3-4:趋动云算力交易门户


04

算力整合的五个场景


算力整合的过程大体上可以分为五个场景


1)  域内资源整合


场景描述:将域内分散的算力集中起来,通过一个调度系统满足多方的算力需求。


价值:将域内项目制的算力整合为服务化提供算力,通过算力的动态、灵活、敏捷的使用,达到提升算力利用效率的目的。


OrionX目前已经在多个客户上提供了这种形式的资源整合,且给客户带来巨大价值收益。详见:《云原生演进中的AI算力高效使用》。


2)  可视化和监管


场景描述:汇聚平台实现多资源池的运维接入和管理。


价值:通过整合接入,实现对区域内分散资源池的全局把控,从智算中心的上架率、售卖率、利用率、能耗等多个维度的审计,提升智算中心的效能。


5307.png

图4-1:集中监控管理平台


3)  调度托管


场景描述:统一调度平台完全托管多个分布式多智算中心节点的业务开通需求,实现算力调度。另外基于vpool的灵活配置,可以使应用可以使用跨域算力集群的算力。借助拓扑调度,可以实现应用调度算力时候选择的优先级如下:本服务器算力->本集群算力->跨域算力


价值:在成熟的阶段,实现统一调控。统一调度平台也完成统一监管运维的能力。


5306.png

图4-2:统一调控平台


4)  算力分发引流


场景描述:在过渡到统一调控平台之前,可能会呈现一种中间态,即算力集群的一部分算力维持原有调度和业务分发,将另一部分算力交给引流平台集中调度。


价值:维持原有智算中心算力供给调度能力外,通过二级平台的引流,增加智算中心节点的业务来源,实现算力的充分释放。


530 8.png

图4-3:引流平台


5)  二级平台汇聚


场景描述:通过边缘节点到中心整合工作台的架构,实现区域内的核心总控和集团的全局接入。尤其适用于集团-省分-地市这样架构的客户。其表现形式为在场景3的统一调控平台之上继续引入一个一级工作台。


价值:满足不同平台的运维需求:一级汇聚平台仅完成数据收集,不做调度控制;二级统一调度平台实现所辖分布式算力集群节点的统一纳管调度。


5309.png

图4-4:二级平台汇聚


05

结语


算力整合是数字经济时代的必然趋势。通过智能化和精准化的调度和管理,我们可以更高效地利用算力资源,推动经济社会的数字化转型。趋动的OrionX GPU池化方案将助力客户搭建多种算力整合场景。让我们共同期待,在算力整合的推动下,数字经济能够迎来更加繁荣的发展。