怎样通过海光 DCU 的 DTK 环境进行 ROCm 项目迁移:解决版本依赖冲突的实战避坑指南
如何在海光 DCU DTK 环境下平滑迁移 ROCm 项目:解决版本冲突的实战指南 海光 DCU(Deep Computing Unit)作为国产 AI 算力的佼佼者,其底层软件栈 DTK(Deep-learning ToolKit)高度兼...
如何在海光 DCU DTK 环境下平滑迁移 ROCm 项目:解决版本冲突的实战指南 海光 DCU(Deep Computing Unit)作为国产 AI 算力的佼佼者,其底层软件栈 DTK(Deep-learning ToolKit)高度兼...
如何使用 CANN 插件在国产昇腾 NPU 上快速迁移并加速 PyTorch 模型 随着国产化算力需求的爆发,将现有的 AI 模型从 CUDA 环境迁移到国产昇腾(Ascend)平台已成为许多开发者的核心任务。得益于华为提供的 CANN(C...
Kubernetes(K8s)已经成为容器编排的事实标准,但集群配置、应用状态和持久卷数据的备份与恢复,始终是生产环境运维的关键挑战。Velero(前称 Heptio Ark)是 K8s 社区中最流行且功能强大的开源备份工具,它允许用户备份...
随着Kubernetes社区正式移除了对内置的dockershim的支持,将K8s集群的容器运行时(CRI)从Docker切换到原生Containerd已成为主流趋势。虽然Containerd是Docker的核心组件,但这种切换并非无缝。本...
在AI模型部署实践中,业务发展常常要求我们从一个云平台迁移到另一个云平台,或者采用混合云架构以满足成本、监管或地域需求。AI工作负载迁移的难点在于数据依赖和环境锁定。不同的云提供商使用不同的GPU驱动、计算实例类型和模型服务API(如Sag...