怎样通过 MUSA 集群进行大模型分布式训练:详解多卡互联下的物理拓扑与带宽优化
如何通过 MUSA 集群进行大模型分布式训练:详解多卡互联与带宽优化 随着国产算力的崛起,摩尔线程(Moore Threads)的 MUSA 架构已成为大模型训练的重要选择。在多卡集群环境下,如何充分利用 MT-Link 互联技术并优化通信...
如何通过 MUSA 集群进行大模型分布式训练:详解多卡互联与带宽优化 随着国产算力的崛起,摩尔线程(Moore Threads)的 MUSA 架构已成为大模型训练的重要选择。在多卡集群环境下,如何充分利用 MT-Link 互联技术并优化通信...
1. 为什么大模型推理会受限于 HBM? 在大模型(LLM)推理过程中,Transformer 架构中存在大量的逐元素(Element-wise)操作,如 Add、LayerNorm、Mul 和 Silu 等。在标准的执行流中,每个算子都需...
在 Go 语言中,性能优化和垃圾回收(GC)效率与内存分配方式息息相关。如果一个变量本可以分配在快速的栈(Stack)上,却因某些原因被分配到了慢速的堆(Heap)上,这就称为“逃逸”(Escape)。闭包(Closure)是导致变量逃逸最...
随着大模型(LLM)的飞速发展,将这些强大的AI能力部署到资源受限的手机等端侧设备上,成为了AI工程化的一大挑战。Llama系列模型虽然效果优秀,但其巨大的参数量和高昂的内存需求,使得直接部署几乎不可能。本文将详细讲解如何通过4-bit量化...
华为昇腾(Ascend)系列芯片搭载了基于达芬奇(DaVinci)架构的NPU,旨在提供极致的AI推理性能。然而,将PyTorch或TensorFlow训练的模型部署到昇腾NPU上,需要经过严格的图优化和格式转换。本文将聚焦于使用核心工具A...
在 Kubernetes (K8s) 环境中,应用的部署速度和弹性与容器镜像的体积息息相关。镜像体积越大,Kubelet 拉取(Pull)镜像所需的时间越长,尤其是在节点首次启动或冷启动时,这可能导致应用启动延迟,影响用户体验和HPA(Ho...
Transformer 模型,如 BERT 或其轻量化版本,在自然语言处理任务中表现出色。然而,由于其复杂的矩阵乘法和注意力机制,它们对移动端性能提出了巨大挑战。iPhone 上的神经引擎(ANE)是实现高性能端侧推理的关键,但需要模型以 ...
模型量化(Quantization)是端侧推理加速的关键技术之一,它将浮点数(FP32)权重和激活值转换为低比特整数(如INT8),显著减少了模型大小并提高了计算效率。然而,量化方式的选择——特别是对称量化(Symmetric Quanti...
作为Elasticsearch(ES)的资深用户,我们深知数据的删除操作并非简单的“一删了之”。标准的物理删除操作会在ES内部留下“tombstone”(删除标记),这些标记只有在后续的段合并(Segment Merge)过程中才会被清理,...
在构建大规模向量搜索系统时,我们经常面临“非对称搜索”场景:查询向量(Query Vector)通常保持高精度(浮点型),而数据库中的索引向量(Database Vector)为了节省存储和提高I/O效率,会使用量化压缩技术(如Produc...