标签：计算

如何在边缘计算中利用联邦学习进行模型协同训练？

2026-03-30andy阅读(39)评论(0)

如何在边缘计算中利用 Flower 框架实现联邦学习协同训练？在边缘计算场景中，数据通常分散在数以万计的终端设备（如 IoT 网关、智能摄像头）上。由于隐私法规（如 GDPR）和高昂的带宽成本，将所有原始数据汇总到中心云进行训练变得不再可...

2026-02-27andy阅读(110)评论(0)

如何通过分析 Plan 9 汇编优化 Go 语言的高性能计算函数在 Go 语言开发中，绝大多数场景下我们不需要关注底层汇编。但在编写高性能科学计算、加解密算法或底层驱动时，理解 Go 的 Plan 9 汇编能帮助我们洞察编译器的行为，消除...

2026-02-21andy阅读(88)评论(0)

如何解决在线和离线特征计算中的一致性与漂移问题在机器学习系统中，训练-预测偏差（Training-Serving Skew）是最令人头疼的问题之一。其核心矛盾在于：离线训练时我们使用基于批处理（Batch）的 SQL 或 Spark 逻...

2026-02-14andy阅读(112)评论(0)

概述：汽车座舱隐私计算的挑战随着智能汽车的发展，人脸识别、声纹识别等生物特征数据被广泛用于驾驶员身份认证、个性化服务和疲劳监测。然而，这些敏感的生物特征数据一旦泄露，后果不堪设想。在典型的座舱域控制器（Cockpit Domain Con...

2026-02-13andy阅读(82)评论(0)

在传统的操作系统（OS）中，计算的最小单位是进程（Process）或线程（Thread）。应用程序通过调用系统API，由进程负责资源的分配（CPU时间片、内存空间、I/O访问）。这种模型在处理通用计算任务时非常高效，但面对现代AI和大数据的...

2026-02-08andy阅读(133)评论(0)

在深度学习，尤其是大型语言模型（LLM）的面试中，这是一个非常常见且重要的问题。理解计算瓶颈是优化模型部署和推理速度的关键。对于基于 Transformer 架构的大模型，在推理（Inference）阶段，计算瓶颈确实往往落在存储带宽（Me...

2026-02-08andy阅读(128)评论(0)

PyTorch 的 Autograd 机制是其核心竞争力之一。与 TensorFlow 1.x 等框架使用的静态图不同，PyTorch 采用动态计算图（Define-by-Run），这意味着计算图是在前向传播过程中即时构建的。而 backw...

2026-02-07andy阅读(107)评论(0)

在自然语言处理（NLP）或处理其他序列数据时，我们经常遇到批量数据中序列长度不一致的情况（例如句子长短不一）。传统的做法是使用零值（padding）将所有序列填充到批次中的最大长度。这不仅浪费了内存，也导致模型在推理或训练时对这些零值进行不...

2026-02-06andy阅读(170)评论(0)

模型量化是将模型权重和激活值从高精度浮点数（如FP32）转换为低精度定点整数（如INT8）的过程，以减少模型大小和计算延迟。在面试中，理解均匀量化（Uniform Quantization）的基础知识，特别是如何计算 Scale ($S$)...

2026-02-06andy阅读(130)评论(0)

在现代深度学习训练中，GPU 的计算速度往往远远超过传统硬盘 I/O 或 CPU 预处理的速度。如果数据输入管道（Input Pipeline）处理不当，就会导致高性能的 GPU 不得不等待 CPU 完成数据加载和预处理，这种情况被称为“G...