你好!作为一名长期关注算力自主可控、深度参与过国内多家头部企业 AI 基础设施国产化迁移的资深博主,我非常理解这个领域的特殊性。
如何使用 CANN 插件在国产昇腾 NPU 上快速迁移并加速 PyTorch 模型 随着国产化算力需求的爆发,将现有的 AI 模型从 CUDA 环境迁移到国产昇腾(Ascend)平台已成为许多开发者的核心任务。得益于华为提供的 CANN(C...
如何使用 CANN 插件在国产昇腾 NPU 上快速迁移并加速 PyTorch 模型 随着国产化算力需求的爆发,将现有的 AI 模型从 CUDA 环境迁移到国产昇腾(Ascend)平台已成为许多开发者的核心任务。得益于华为提供的 CANN(C...
Kubernetes(K8s)已经成为容器编排的事实标准,但集群配置、应用状态和持久卷数据的备份与恢复,始终是生产环境运维的关键挑战。Velero(前称 Heptio Ark)是 K8s 社区中最流行且功能强大的开源备份工具,它允许用户备份...
随着Kubernetes社区正式移除了对内置的dockershim的支持,将K8s集群的容器运行时(CRI)从Docker切换到原生Containerd已成为主流趋势。虽然Containerd是Docker的核心组件,但这种切换并非无缝。本...
在AI模型部署实践中,业务发展常常要求我们从一个云平台迁移到另一个云平台,或者采用混合云架构以满足成本、监管或地域需求。AI工作负载迁移的难点在于数据依赖和环境锁定。不同的云提供商使用不同的GPU驱动、计算实例类型和模型服务API(如Sag...