京东FATE框架技术原理与应用
深入理解FATE:联邦学习基础设施的核心实践 FATE (Federated AI Technology Enabler) 是由京东/微众银行开源的一套联邦学习框架,旨在实现数据隐私保护下的多方联合建模。对于AI基础设施工程师而言,理解如何...
深入理解FATE:联邦学习基础设施的核心实践 FATE (Federated AI Technology Enabler) 是由京东/微众银行开源的一套联邦学习框架,旨在实现数据隐私保护下的多方联合建模。对于AI基础设施工程师而言,理解如何...
导语:模型部署中的“隐形炸弹”——Python Pickle 在AI模型的生态系统中,特别是PyTorch模型,通常使用Python内置的pickle模块进行序列化和反序列化。尽管其使用方便,但pickle长期以来都是一个巨大的安全隐患。p...
简介:Ollama与SafeTensors的兼容性挑战 Ollama是一个强大的本地化LLM运行环境,极大地简化了模型部署。然而,Ollama主要依赖于GGUF (GPT-GEnerated Unified Format) 格式的模型,该格...
在AI模型部署领域,性能是决定服务质量的关键因素。尽管PyTorch提供了灵活的Eager模式和JIT(TorchScript),但其运行时仍可能存在解释器开销和次优的计算图融合。为了将PyTorch模型的推理速度推向极致,我们需要引入专业...
模型剪枝(Pruning)和量化(Quantization)是AI基础设施优化的两大核心手段。它们能显著减少模型的内存占用和计算复杂度,尤其对于边缘设备和高并发推理服务至关重要。虽然早期有像Distiller这样的专用工具包,但在现代PyT...
在AI模型部署的后端服务中,代码安全是至关重要的一环。许多AI服务使用Python(如Flask/FastAPI)和Go等语言编写,它们往往需要处理用户输入、加载模型文件,这些操作如果不加注意,很容易引入如不安全的反序列化(例如著名的“Pi...
在部署高性能的AI模型服务时,每一个微小的性能优化都至关重要。许多基于Python Flask框架构建的RESTful API服务,尤其是那些使用Flask-SQLAlchemy进行数据持久化(例如记录推理日志、存储模型元数据)的服务,经常...
在构建基于Flask的AI服务或元数据存储后端时,性能和资源效率是至关重要的。许多开发者在使用Flask-SQLAlchemy时,常常忽略了一个重要的配置项:SQLALCHEMY_TRACK_MODIFICATIONS。这个看似简单的布尔值...
引言:为什么KV Cache是LLM推理的生命线? 对于自回归(Autoregressive)的Transformer模型,特别是大型语言模型(LLMs),推理延迟主要发生在解码阶段。每生成一个新的Token,模型必须回顾所有历史Token...
在边缘计算(Edge AI)场景中,模型部署面临着严苛的资源限制,包括低功耗、低延迟以及有限的计算能力。直接部署训练好的PyTorch或TensorFlow模型往往效率低下。本文将聚焦于Intel的OpenVINO™工具链,详细介绍如何通过...