业务挑战:
自动驾驶训练业务的特征是:小文件高IOPS、大文件高带宽、低延时。在算法开发与训练过程中,对GPU资源和存储资源提出了更高的要求。
GPU分散使用,缺少统管平台,运维人员无法有效整体调度、监控和管理。
存储难以满足海量混合文件管理及高性能要求。
方案简介:
趋动科技与焱融科技强强联合,打造自动驾驶高性能存算一体解决方案。在计算方面,通过趋动科技OrionX GPU池化方案,把异构GPU算力形成软件定义的GPU资源池,既满足了自动驾驶客户对于资源分配灵活度的需求、实现对AI开发训练集群资源的整体调度和管理,算法工程师之间共享资源,互不干扰,提高人效。在存储方面,采用焱融科技自研的高性能并行文件存储系统 YRCloudFile,通过可扩展的元数据架构缓解元数据节点压力,解决数据访问性能上限的问题,提升海量文件并发访问的性能,满足自动驾驶海量数据处理的业务要求。焱融科技 YRCloudFile 文件存储可以满足海量数据场景下的性能需求,满足上百亿文件训练存储需求且性能不衰减,充分适配上层GPU算力。通过YRCloudFile的智能数据加载 Dataload和冷热数据自动分层功能,实现异构存储数据打通。让自动驾驶业务的数据互通和流转,有效平衡成本和性能,实现数据全生命周期管理。
方案价值:
通过OrionX“化整为零”、“化零为整”、“隔空取物”、“随需应变”、“显存超分”等功能特性,能帮助客户将GPU资源利用率提升4倍以上。
GPU资源实现按需动态分配、多机多卡资源聚合,自动化训练及排队等策略功能,让算法工程师节省了大量宝贵的时间,更加从容专注地投身研发。
搭配趋动科技Gemini AI开发训练平台,显著提升易用性。平台将AI任务所需的数据、镜像、代码集中管理,方便数据复用和分享,同时数据和信息安全得到了保障。
热数据层无缝对接K8S平台,为自动驾驶训练任务提供高性能的数据访问支持。
采用混合云管理模式,实现业务数据在私有云和公有云互通,且具备容灾能力,保障业务连续性。
解决方案架构图: