标签：架构

第2页

怎样针对华为达芬奇架构 NPU 进行模型优化：详解昇腾社区端侧部署的避坑实践

2026-02-14andy阅读(76)评论(0)

华为昇腾（Ascend）系列芯片搭载了基于达芬奇（DaVinci）架构的NPU，旨在提供极致的AI推理性能。然而，将PyTorch或TensorFlow训练的模型部署到昇腾NPU上，需要经过严格的图优化和格式转换。本文将聚焦于使用核心工具A...

2026-02-12andy阅读(119)评论(0)

在传统的 Kubernetes 部署中，即使应用长时间处于闲置状态，也会保持至少一个或多个 Pod 运行，这导致了计算资源的浪费。Serverless 架构的核心优势之一就是能够按需启动和关闭应用，实现“零副本”待机。Knative，作为构...

2026-02-10andy阅读(267)评论(0)

随着大模型的体积不断增长，如何在资源受限的端侧设备上高效运行这些模型成为了关键挑战。Apple M系列芯片，特别是最新的M3系列，通过其独特的统一内存架构（Unified Memory Architecture, UMA），为端侧大模型推理...

2026-02-10andy阅读(78)评论(0)

存算一体架构（CIM）：AI算力下一阶段的性能飞跃还是工程挑战？随着AI模型（尤其是大语言模型和Transformer架构）的规模爆炸式增长，对算力的需求也急剧上升。然而，传统的冯·诺依曼（Von Neumann）架构正在成为限制AI加速...

2026-02-09andy阅读(76)评论(0)

Megatron-LM是由NVIDIA开发的一套用于训练超大规模语言模型的框架。随着模型参数量突破万亿级别，任何单一的并行技术都难以高效地在有限的硬件资源上完成训练。Megatron-LM通过巧妙地结合三种主要的并行策略——张量并行（Ten...

2026-02-09andy阅读(89)评论(0)

如何理解和实践Java双亲委派模型的四种“破坏”与修正机制nnJava虚拟机中的双亲委派模型（Parent Delegation Model, DPDM）是保证类加载安全性和唯一性的核心机制。它要求类加载请求首先委派给父加载器，直到顶层的启...

2026-02-06andy阅读(153)评论(0)

许多个人站长在选择公有云或VPS时，都会遇到OpenVZ（简称OVZ）和KVM这两种主流虚拟化架构的选择难题。坊间流传OpenVZ是“超售重灾区”，而KVM才是建站的“安全港”。那么，这种说法在今天是否依然成立？ 1. 理解虚拟化架构的核心...

2026-02-04andy阅读(115)评论(0)

大型语言模型（LLM）的推理过程通常分为两个截然不同的计算阶段：预填充（Pre-fill）和生成（Decode）。这两个阶段的计算和资源需求特性存在巨大差异，如果在同一块GPU上混合执行，往往会导致资源利用率低下，尤其是在高并发的服务环境中...

2026-02-04andy阅读(155)评论(0)

跨集群搜索（Cross-Cluster Search, CCS）是 Elasticsearch 中一项强大的功能，它允许用户在单个请求中查询多个独立运行的 Elasticsearch 集群。这对于需要跨越地理位置、满足数据主权要求（如 GD...

2026-02-02andy阅读(104)评论(0)

在复杂的AI推理加速和模型部署场景中，我们经常需要对自定义的神经网络架构进行修改、融合或适配特定的硬件加速器。PyTorch 2.0生态系统中的核心工具 torch.fx 为我们提供了强大的基础能力——符号追踪（Symbolic Traci...