andy的文章

第8页

怎样利用Arrow Flight或gRPC优化模型服务中的数据传输效率？

2025-11-14andy阅读(62)评论(0)

引言：模型服务中的数据传输瓶颈在高性能AI模型部署的场景中，我们通常将注意力集中在模型本身的推理速度（如使用TensorRT、OpenVINO等优化器）。然而，一个常被忽视的性能杀手是数据输入和输出（I/O）的效率。当处理大批量请求、高维...

2025-11-13andy阅读(72)评论(0)

如何使用 PyRIT 框架进行大模型安全评测的架构解析与实战随着大型语言模型（LLMs）的广泛应用，对其进行严格的安全性和鲁棒性评估变得至关重要。微软开发的 Python Risk Identification Toolkit (PyRI...

2025-11-13andy阅读(58)评论(0)

Elkeid是由字节跳动开源的高性能终端安全响应（EDR）平台。对于希望定制化安全功能、集成私有检测逻辑或优化性能的开发者来说，搭建高效的二次开发环境至关重要。本文将详细指导如何配置开发工具、克隆代码库并成功编译Elkeid的核心组件。 1...

2025-11-13andy阅读(68)评论(0)

导语：从脚本小子到AI驱动的渗透工程师传统的渗透测试（Pentest）高度依赖工程师的经验和手册流程。然而，随着大型语言模型（LLMs）能力的飞速提升，我们正进入LLM-driven Pentest时代。这种新范式要求工具不仅能执行命令，...

2025-11-13andy阅读(60)评论(0)

在现代推荐系统和实时决策系统中，特征工程必须从传统的批处理模式转向低延迟的实时服务。特征提取的延迟是影响整个模型服务（Serving）链路的关键瓶颈。本文将深入探讨如何利用 Ray 强大的分布式计算能力和Actor模型，构建一个能够实现毫秒...

2025-11-13andy阅读(69)评论(0)

在现代AI训练中，数据访问速度往往成为GPU利用率的瓶颈，尤其是在处理TB甚至PB级数据集时。传统的HDD存储或低速网络存储无法满足大规模模型（如LLMs或高分辨率CV模型）对高吞吐量和低延迟I/O的需求。基于NVMe All-Flash阵...

2025-11-12andy阅读(58)评论(0)

1. AI训练中的I/O挑战与高性能存储需求在大规模AI训练，特别是LLMs和大型视觉模型的训练场景中，数据加载速度往往成为限制GPU利用率的瓶颈。当数千个GPU同时从存储系统读取数百TB甚至PB级的数据时，传统的网络文件系统（如NFS）...

2025-11-12andy阅读(64)评论(0)

如何优化多GPU数据传输，利用GPUDirect P2P彻底消除PCIe带宽瓶颈在深度学习模型训练和高性能计算中，多GPU并行是提高吞吐量和处理大型模型的关键。然而，当数据需要在GPU之间频繁交换（例如在梯度同步或集体通信中）时，系统互联...

2025-11-11andy阅读(73)评论(0)

在现代AI基础设施中，除了标准的GPU，FPGA（现场可编程门阵列）和NPU（神经网络处理器）等异构计算设备扮演着越来越重要的角色。这些设备提供了更高的能效比和定制化的计算能力。然而，Kubernetes原生只支持基本的CPU和内存调度。要...

2025-11-11andy阅读(77)评论(0)

在构建和维护大规模AI基础设施时，GPU的稳定性和可靠性至关重要。GPU硬件故障，尤其是静默的内存错误（ECC errors）或过热导致的降频，可能导致模型训练结果不一致甚至系统崩溃。NVIDIA Data Center GPU Manag...