andy的文章

第13页

怎样正确使用 context.Value 传递链路信息并规避潜在的隐式内存泄漏

2026-02-27andy阅读(61)评论(0)

如何在 Go 中正确使用 context.Value 传递链路信息并规避内存泄漏在 Go 微服务开发中，context.Value 是在函数间传递 Request ID、UserID 或 Trace 信息的最常用工具。然而，由于 cont...

2026-02-27andy阅读(71)评论(0)

如何通过分析 Plan 9 汇编优化 Go 语言的高性能计算函数在 Go 语言开发中，绝大多数场景下我们不需要关注底层汇编。但在编写高性能科学计算、加解密算法或底层驱动时，理解 Go 的 Plan 9 汇编能帮助我们洞察编译器的行为，消除...

2026-02-26andy阅读(75)评论(0)

1. 背景：为什么相同的量化模型在不同芯片上精度不同？在国产化适配过程中，开发者常遇到一个困惑：在 PyTorch 下验证良好的 INT8 量化模型，部署到昇腾（Ascend）、寒武纪（Cambricon）或昆仑芯（KunlunCore）...

2026-02-26andy阅读(67)评论(0)

如何构建高性能模型注册表：基于 MLflow 的元数据管理实践在 AI 基础设施中，模型注册表（Model Registry）不仅是一个存储桶，它是管理模型生命周期、版本控制以及元数据的核心中枢。一个高性能的模型注册表能够支持快速的元数据...

2026-02-26andy阅读(142)评论(0)

如何在海光 DCU DTK 环境下平滑迁移 ROCm 项目：解决版本冲突的实战指南海光 DCU（Deep Computing Unit）作为国产 AI 算力的佼佼者，其底层软件栈 DTK（Deep-learning ToolKit）高度兼...

2026-02-26andy阅读(70)评论(0)

如何利用 MindSpore 算子下沉机制显著提升模型训练速度在深度学习模型的训练过程中，Host（CPU）与 Device（如昇腾 NPU 或 GPU）之间的频繁通信往往是性能的绊脚石。国产 AI 框架 MindSpore 提供了一种强...

2026-02-26andy阅读(85)评论(0)

如何解决国产 AI 芯片下的集合通信瓶颈：深度对比 HCCL 与 NCCL 在 Ring AllReduce 上的差异在分布式深度学习中，集合通信（Collective Communication）是决定训练效率的关键。在 NVIDIA ...

2026-02-26andy阅读(70)评论(0)

在 Go 语言开发中，反射（reflect）是一把双刃剑。它提供了强大的运行时动态处理能力，但同时也带来了显著的性能开销。本文将从 reflect.Type 与 reflect.Value 的底层实现入手，分析性能瓶颈并给出实战调优方案。 ...

2026-02-26andy阅读(73)评论(0)

如何理解 Go 语言泛型：详解单态化与字典查找的性能权衡 Go 1.18 引入泛型后，开发者在享受代码复用便利的同时，也对其底层实现产生的性能影响感到好奇。Go 并没有盲目追随 C++ 的完全单态化，也没有像 Java 那样通过类型擦除导致...

2026-02-25andy阅读(71)评论(0)

如何利用 MUSA 运行时的显存超发机制解决大模型推理中的显存不足问题在国产 GPU 适配的过程中，显存不足（OOM, Out of Memory）是运行大规模语言模型（LLM）时最常见的痛点。摩尔线程（Moore Threads）的 M...