业务挑战:
培养AI人才,需要以理论基础+动手实践相结合,目前高校主要以服务器+若干物理GPU方式为学生构建实训环境,存在以下难题:
教学场景同时上机实验的学生众多,但是往往 GPU 资源较少;GPU以物理形式分配,每个学生独占1片卡,成本高昂;但是实验内容通常只会消耗小部分 GPU 算力,其他资源闲置浪费。
科研场景需要获取更多算力,加速取得科研成果, 但是GPU 资源分布在多台物理服务器上,集中调用复杂、繁琐、技术难度高;而且由于任务运行时间通常较长,各个教研团队对GPU资源的分配和复用容易产生冲突。
校方信息中心希望物尽其用,但是不断投入资金采购 GPU,依然总是无法满足教学、教研需求;GPU独占,利用率极低,浪费严重;缺乏有效管理,分配出去后即被霸占,回收困难。
方案简介:
OrionX 通过软件定义 AI 算力,颠覆了原有的 AI 应用直接调用物理 GPU 的架构,将 AI 应用与物理 GPU 解耦。AI 应用调用 OrionX 虚拟 GPU,由 OrionX 将虚拟 GPU匹配到 GPU 资源池中的物理 GPU,这样,能够达到 AI 应用透明的共享 GPU 资源池内的所有 GPU 资源的目的。针对教学场景, OrionX 解耦物理 GPU 与每个学生的绑定关系,通过 OrionX 软件层为每个学生提供虚拟 GPU。 针对科研场景,OrionX 打破物理服务器边界。针对大规模科研场景,轻松实现 GPU 跨机聚合,调度更多算力,支持科研加速。 针对信息中心管理, OrionX构建统一的资源池,静态分配变成动态分配,GPU 利用率成倍提升。
方案价值:
利用率提升:将物理GPU切片为多个任意大小的虚拟GPU,供多个学生同时使用,互不干扰,充分利用资源,节约成本。
场景灵活转换:统一资源池,同时支持教学和教研场景,瞬间转换,资源随时就绪;使用结束后立即释放,无回收之忧。
灵活的资源调度:自助式服务,简化管理,简化运维,师生只需关注自己专业,不用在意底层。
弹性伸缩:基于资源池的灵活扩展,按需分配,资源大小可以动态调节,无需重启。
资源监控:提供全局资源池性能监控,为运维人员提供直观的资源利用率等信息。
GPU全兼容:支持Nvidia全系列主流GPU的统一管理灵活分配,充分保护学校投资。
解决方案架构图