标签：指南

怎样通过海光 DCU 的 DTK 环境进行 ROCm 项目迁移：解决版本依赖冲突的实战避坑指南

2026-02-26andy阅读(113)评论(0)

如何在海光 DCU DTK 环境下平滑迁移 ROCm 项目：解决版本冲突的实战指南海光 DCU（Deep Computing Unit）作为国产 AI 算力的佼佼者，其底层软件栈 DTK（Deep-learning ToolKit）高度兼...

2026-02-11andy阅读(77)评论(0)

混合精度（Mixed Precision）量化是解决端侧AI模型部署中“精度损失”与“推理加速”矛盾的核心策略。当我们对整个模型进行激进的INT8量化时，通常会发现少数几个关键层（如Attention机制中的线性层、Softmax输入层或模...

2026-02-08andy阅读(106)评论(0)

Prometheus 和 Grafana 是云原生监控领域的黄金组合。Prometheus 负责采集和存储时序数据，而 Grafana 则负责数据的可视化。本文将指导您如何在 Kubernetes (K8s) 集群中快速部署这一监控体系，并...

2026-02-08andy阅读(86)评论(0)

Git Submodule是管理跨项目依赖库（例如共享的基础组件、工具链等）的强大工具。它允许一个Git仓库引用另一个特定版本的Git仓库。然而，如果不了解其底层机制，Git子模块也可能成为开发过程中的陷阱。本文将聚焦于Git子模块的实战...

2026-02-04andy阅读(123)评论(0)

在车载视觉系统中，对推理速度和功耗的要求极为严苛。NVIDIA TensorRT (TRT) 是优化和部署深度学习模型到NVIDIA GPU（如Jetson或Drive系列）的首选工具。然而，在将PyTorch或TensorFlow训练好的...

2026-02-03andy阅读(103)评论(0)

在处理大规模向量数据集时，内存占用往往是制约系统扩展性的瓶颈。Faiss 提供了多种索引结构来优化搜索速度和内存，其中 Scalar Quantizer (SQ) 是一种简单高效的内存优化技术，尤其适用于对精度要求不太严苛的场景。本文将深...

2026-02-01andy阅读(155)评论(0)

混合精度训练（Mixed Precision Training）是现代深度学习模型训练中常用的优化手段。通过将模型的大部分计算转移到半精度浮点数（FP16）进行，而保持关键部分（如权重更新）使用全精度浮点数（FP32），可以显著提高训练速度...

2026-02-01andy阅读(112)评论(0)

在Python中，当我们使用multiprocessing模块实现并发时，与多线程（threading）不同，子进程拥有独立的内存空间。这意味着父进程中定义的普通变量（如列表、字典、普通对象实例）不会自动且安全地在子进程间共享。如果尝试直接...

2026-01-31andy阅读(100)评论(0)

如何解决 Elasticsearch 深度分页问题：Scroll 与 Search After 实战指南在使用 Elasticsearch 进行数据查询时，我们通常使用 from 和 size 参数来实现分页。然而，当试图获取大量分页结果...

2026-01-31andy阅读(104)评论(0)

在构建高性能AI训练服务器，尤其是涉及大型语言模型（LLM）或多模态模型的训练时，GPU之间的通信带宽往往成为整体性能的瓶颈。忽视互联技术（Interconnect）的选择，是许多开发者在组装硬件时常犯的“大坑”。本文将深入比较NVLink...