面向国产XPU的openCoDA开源框架亮相中国开源大会

10月21-22日,以“开源联合,聚力共赢”为主题的2023 CCF中国开源大会在长沙召开。在算力网与大模型分论坛上,戚正伟教授分享了面向国产XPU的openCoDA开源框架的报告。这是华为数据存储和上海交通大学自2020年成立联创中心后孵化出来的又一创新成果,旨在构建开放的XPU虚拟化生态:根据自身硬件和应用特性,协同优化性能和功耗,形成开放自主的协议栈,实现软硬垂直协同;通过标准化接口,向下屏蔽硬件差异,向上提供统一管理接口;构建虚拟化统一开源框架(Unified Virtualization Framework,UVF),形成公共的开放架构,避免重复投入。

UVF框架作为这一技术体系的核心组成部分,具有以下特点和优势:

  • 高效性能:UVF框架在内核态级别管理GPU资源分配和调度,确保虚拟vGPU性能接近原生性能,实现了较低的性能开销。
  • 资源隔离:UVF框架具备强大的资源隔离能力,确保容器之间的vGPU工作负载互不干扰,从而减少了“吵闹邻居干扰”。
  • 灵活管理:UVF框架支持GPU显存动态划分,并支持MB级划分和GPU利用率的动态调整,以满足不同应用场景的需求。
  • 功能丰富:UVF框架不仅支持算力加速、渲染、超算等GPU基本功能,还向上提供统一的用户态驱动接口,实现国产南北向生态的衔接。

openCoDA开源框架旨在解决国产XPU“各自为主”、缺乏统一开放生态的问题。通过对资源进行虚拟化和池化,openCoDA形成了一个公共的开发架构,提供了标准化接口,使得用户和厂商可以更加便捷地进行适配工作,从而形成国产算力开放XPU算力生态技术体系。同时,通过与头部国产XPU厂商的产学研合作,openCoDA期望能够构建一个国产化开放XPU算力和技术生态。

构建软硬协同的开放XPU算力生态技术体系是引领算力生态新趋势的关键。通过协同优化性能和功耗,形成开放自主的协议栈,并借助UVF统一框架的力量,可以更好地满足AI大模型亿万量级参数的计算需求。