2023-10-24发表2023-11-01更新5 分钟读完 (大约705个字)

面向国产XPU的openCoDA开源框架亮相中国开源大会

10月21-22日，以“开源联合，聚力共赢”为主题的2023 CCF中国开源大会在长沙召开。在算力网与大模型分论坛上，戚正伟教授分享了面向国产XPU的openCoDA开源框架的报告。这是华为数据存储和上海交通大学自2020年成立联创中心后孵化出来的又一创新成果，旨在构建开放的XPU虚拟化生态：根据自身硬件和应用特性，协同优化性能和功耗，形成开放自主的协议栈，实现软硬垂直协同；通过标准化接口，向下屏蔽硬件差异，向上提供统一管理接口；构建虚拟化统一开源框架（Unified Virtualization Framework，UVF），形成公共的开放架构，避免重复投入。

UVF框架作为这一技术体系的核心组成部分，具有以下特点和优势：

高效性能：UVF框架在内核态级别管理GPU资源分配和调度，确保虚拟vGPU性能接近原生性能，实现了较低的性能开销。
资源隔离：UVF框架具备强大的资源隔离能力，确保容器之间的vGPU工作负载互不干扰，从而减少了“吵闹邻居干扰”。
灵活管理：UVF框架支持GPU显存动态划分，并支持MB级划分和GPU利用率的动态调整，以满足不同应用场景的需求。
功能丰富：UVF框架不仅支持算力加速、渲染、超算等GPU基本功能，还向上提供统一的用户态驱动接口，实现国产南北向生态的衔接。

openCoDA开源框架旨在解决国产XPU“各自为主”、缺乏统一开放生态的问题。通过对资源进行虚拟化和池化，openCoDA形成了一个公共的开发架构，提供了标准化接口，使得用户和厂商可以更加便捷地进行适配工作，从而形成国产算力开放XPU算力生态技术体系。同时，通过与头部国产XPU厂商的产学研合作，openCoDA期望能够构建一个国产化开放XPU算力和技术生态。

构建软硬协同的开放XPU算力生态技术体系是引领算力生态新趋势的关键。通过协同优化性能和功耗，形成开放自主的协议栈，并借助UVF统一框架的力量，可以更好地满足AI大模型亿万量级参数的计算需求。