andy的文章

第22页

如何通过内存对齐 Padding 提升 Go 结构体在 CPU 缓存行中的访问性能

2026-02-25andy阅读(105)评论(0)

如何通过内存对齐 Padding 提升 Go 结构体在 CPU 缓存行中的访问性能在现代多核 CPU 架构中，内存访问的最小单位并非单个字节，而是被称为缓存行（Cache Line）的数据块，通常为 64 字节。当多个线程（或 Gorou...

2026-02-24andy阅读(157)评论(0)

如何利用华为迁移工具自动化实现 CUDA 到 CANN 的算子代码映射随着国产算力加速卡的应用普及，将原本运行在 NVIDIA GPU 上的 CUDA 算子迁移到华为昇腾 Ascend NPU 环境已成为开发者的核心痛点。本文将详解如何利...

2026-02-24andy阅读(102)评论(0)

如何通过 Kubeflow Pipelines 深入解耦并并行化 AI 训练流水线在现代 AI 生产环境中，单一的巨型脚本（Monolithic script）已成为迭代效率的杀手。通过将 AI 流程分解为有向无环图（DAG），我们可以实...

2026-02-24andy阅读(354)评论(0)

1. 为什么大模型推理会受限于 HBM？在大模型（LLM）推理过程中，Transformer 架构中存在大量的逐元素（Element-wise）操作，如 Add、LayerNorm、Mul 和 Silu 等。在标准的执行流中，每个算子都需...

2026-02-24andy阅读(91)评论(0)

如何利用 Ascend C 手写高性能算子：解决昇腾模型不支持算子的终极方案在将深度学习模型部署到昇腾（Ascend）昇腾 AI 处理器时，经常会遇到某些算子在 CANN 算子库中不存在或者性能不达标的情况。这时，使用 Ascend C（...

2026-02-24andy阅读(163)评论(0)

如何解决昇腾 NPU 上频繁创建张量导致的内存碎片问题在将模型从 CUDA 迁移到昇腾 NPU（Ascend）时，很多开发者会遇到一个诡异现象：通过 nvidia-smi 类似的工具观察，显存（HBM）占用并没满，但程序却频繁报出 Out...

2026-02-24andy阅读(101)评论(0)

如何利用 Kubeflow Pipelines 与 Optuna 构建自动化模型迭代的 AutoML 管道？在现代 MLOps 体系中，持续训练（Continuous Training, CT）是核心环节。然而，大多数流水线仅能实现“固定...

2026-02-24andy阅读(93)评论(0)

如何解决 Go 语言中接口 nil 判定的陷阱在 Go 语言开发中，判定一个变量是否为 nil 是最基础的操作。然而，在处理接口（interface）类型时，很多开发者会遇到一个极其隐蔽的坑：一个存储了 nil 指针的接口变量，在进行 *...

2026-02-24andy阅读(86)评论(0)

如何利用 sync.Pool 缓解高并发场景下的 GC 压力与对象频繁分配在 Go 语言的高并发网络编程或高性能服务开发中，频繁地创建和销毁临时对象（如 []byte 缓冲区、小结构体等）会给垃圾回收器（GC）带来巨大的扫描与清理压力，导...

2026-02-23andy阅读(102)评论(0)

如何通过 AclLite 封装大幅简化昇腾推理程序的开发流程在国产昇腾（Ascend）芯片上进行 AI 推理开发时，开发者通常需要直接面对 CANN (Compute Architecture for Neural Networks) 的...