人工智能和大数据

第11页

手绘 Megatron-LM 的 3D 并行拓扑图：请指出流水线并行与张量并行的切分边界在哪里？

2026-02-13andy阅读(52)评论(0)

Megatron-LM是NVIDIA开发的一个用于训练超大规模Transformer模型的框架。它通过组合三种并行技术（数据并行DP、张量并行TP、流水线并行PP）实现了高效的3D并行策略。对于希望配置和优化LLM训练的用户来说，理解TP和...

2026-02-13andy阅读(66)评论(0)

在分布式深度学习训练中，尤其是在使用数据并行（Data Parallel，如PyTorch DDP或Horovod）时，我们常常追求训练速度与GPU数量的线性扩展。但在使用标准万兆以太网（10GbE）作为节点间通信主干时，一旦GPU数量增加...

2026-02-13andy阅读(71)评论(0)

移动端AI推理对速度和功耗要求极高。传统的CPU卷积计算密集，难以满足实时性需求。将计算任务迁移到移动GPU上是主流的加速策略，而OpenGL ES (GLES) 和 Vulkan Shaders是实现这一目标的核心工具。本文将聚焦于如何...

2026-02-13andy阅读(65)评论(0)

作为AI基础设施（AI Infra）工程师，我们面临的核心挑战是如何在PyTorch、TensorFlow、JAX等算法框架日新月异、依赖库爆炸式增长的背景下，维护一套稳定、高效且“长青”的底层平台。核心思路是：将快速变化的算法层与相对稳定...

2026-02-13andy阅读(51)评论(0)

AI模型部署流程（MLOps）正在快速整合DevSecOps原则。在每次将模型服务推送到生产环境之前，强制执行严格的安全基线是防止供应链攻击、恶意依赖注入和配置错误的关键步骤。本文将聚焦于如何通过集成容器扫描工具，在CI/CD流水线中建立并...

2026-02-13andy阅读(60)评论(0)

Transformer 模型，如 BERT 或其轻量化版本，在自然语言处理任务中表现出色。然而，由于其复杂的矩阵乘法和注意力机制，它们对移动端性能提出了巨大挑战。iPhone 上的神经引擎（ANE）是实现高性能端侧推理的关键，但需要模型以 ...

2026-02-13andy阅读(45)评论(0)

在AI模型的推理加速领域，显存带宽往往是性能瓶颈的关键。模型计算图中的许多操作，如卷积（Conv）和随后的激活函数（ReLU），虽然逻辑上是独立的步骤，但在执行时，需要将中间结果从计算单元（如GPU或NPU）写入显存，再由下一个操作读取。这...

2026-02-13andy阅读(63)评论(0)

在移动端 AI 推理领域，MNN（阿里巴巴）和 NCNN（腾讯）是两个最受欢迎的深度学习推理框架。它们的性能差异往往取决于底层的硬件加速能力和驱动适配情况，尤其是在面对高通（Qualcomm Adreno）和联发科（MediaTek Mal...

2026-02-13andy阅读(40)评论(0)

在传统的操作系统（OS）中，计算的最小单位是进程（Process）或线程（Thread）。应用程序通过调用系统API，由进程负责资源的分配（CPU时间片、内存空间、I/O访问）。这种模型在处理通用计算任务时非常高效，但面对现代AI和大数据的...

2026-02-13andy阅读(57)评论(0)

概述：AI公平性透明度的技术挑战近年来，针对AI系统决策的公平性和透明度要求日益严格。以美国加州为例，未来可能出台的法规将要求AI系统明确披露其在不同受保护群体（如种族、性别、年龄等）上产生的偏差影响。对于AI基础设施和模型部署团队而言，...