andy的文章

第4页

京东FATE框架技术原理与应用

2025-11-21andy阅读(38)评论(0)

深入理解FATE：联邦学习基础设施的核心实践 FATE (Federated AI Technology Enabler) 是由京东/微众银行开源的一套联邦学习框架，旨在实现数据隐私保护下的多方联合建模。对于AI基础设施工程师而言，理解如何...

2025-11-21andy阅读(32)评论(0)

导语：模型部署中的“隐形炸弹”——Python Pickle 在AI模型的生态系统中，特别是PyTorch模型，通常使用Python内置的pickle模块进行序列化和反序列化。尽管其使用方便，但pickle长期以来都是一个巨大的安全隐患。p...

2025-11-21andy阅读(39)评论(0)

简介：Ollama与SafeTensors的兼容性挑战 Ollama是一个强大的本地化LLM运行环境，极大地简化了模型部署。然而，Ollama主要依赖于GGUF (GPT-GEnerated Unified Format) 格式的模型，该格...

2025-11-21andy阅读(34)评论(0)

在AI模型部署领域，性能是决定服务质量的关键因素。尽管PyTorch提供了灵活的Eager模式和JIT（TorchScript），但其运行时仍可能存在解释器开销和次优的计算图融合。为了将PyTorch模型的推理速度推向极致，我们需要引入专业...

2025-11-21andy阅读(34)评论(0)

模型剪枝（Pruning）和量化（Quantization）是AI基础设施优化的两大核心手段。它们能显著减少模型的内存占用和计算复杂度，尤其对于边缘设备和高并发推理服务至关重要。虽然早期有像Distiller这样的专用工具包，但在现代PyT...

2025-11-20andy阅读(28)评论(0)

在AI模型部署的后端服务中，代码安全是至关重要的一环。许多AI服务使用Python（如Flask/FastAPI）和Go等语言编写，它们往往需要处理用户输入、加载模型文件，这些操作如果不加注意，很容易引入如不安全的反序列化（例如著名的“Pi...

2025-11-20andy阅读(22)评论(0)

在部署高性能的AI模型服务时，每一个微小的性能优化都至关重要。许多基于Python Flask框架构建的RESTful API服务，尤其是那些使用Flask-SQLAlchemy进行数据持久化（例如记录推理日志、存储模型元数据）的服务，经常...

2025-11-20andy阅读(32)评论(0)

在构建基于Flask的AI服务或元数据存储后端时，性能和资源效率是至关重要的。许多开发者在使用Flask-SQLAlchemy时，常常忽略了一个重要的配置项：SQLALCHEMY_TRACK_MODIFICATIONS。这个看似简单的布尔值...

2025-11-20andy阅读(25)评论(0)

引言：为什么KV Cache是LLM推理的生命线？对于自回归（Autoregressive）的Transformer模型，特别是大型语言模型（LLMs），推理延迟主要发生在解码阶段。每生成一个新的Token，模型必须回顾所有历史Token...

2025-11-20andy阅读(38)评论(0)

在边缘计算（Edge AI）场景中，模型部署面临着严苛的资源限制，包括低功耗、低延迟以及有限的计算能力。直接部署训练好的PyTorch或TensorFlow模型往往效率低下。本文将聚焦于Intel的OpenVINO™工具链，详细介绍如何通过...