标签：格式

llama.cpp 移动端移植详解：从 GGUF 格式看如何通过多线程优化实现 10 tokens/s

2026-03-18andy阅读(105)评论(0)

前言随着大语言模型（LLM）的普及，将模型部署在手机端（端侧推理）成为了趋势。llama.cpp 作为一个高性能的 C++ 推理库，通过极致的指令集优化和轻量级的 GGUF 格式，让在手机上流畅运行 Llama-3 成为可能。本文将重点介...

2026-03-15andy阅读(85)评论(0)

如何利用 FP8 量化突破端侧 LLM 推理瓶颈：对比 INT8 的精度优势在将大语言模型（LLM）部署到手机、边缘网关或国产 NPU 等端侧设备时，显存带宽和容量通常是最大的制约因素。为了压缩模型，INT8 量化曾是主流方案。然而，随着...

2026-02-09andy阅读(95)评论(0)

SavedModel 格式详解：为什么它是 TensorFlow 生产环境下模型持久化的唯一真神在 TensorFlow 生态系统中，模型持久化有两种常见方式：Keras H5 格式（.h5）和 SavedModel 格式。虽然 H5 格...

2026-02-06andy阅读(155)评论(0)

在工业级AI项目中，数据I/O效率往往是训练速度的瓶颈。标准的CSV或Parquet文件在处理大规模、异构数据（如包含大量稀疏特征、图像或高维向量）时，性能往往不佳。TensorFlow的官方数据格式TFRecord，结合其核心协议tf.t...

2026-01-30andy阅读(183)评论(0)

PyTorch 默认使用 NCHW (Batch, Channels, Height, Width) 内存布局，这是一种从科学计算历史遗留下来的传统格式。然而，对于现代视觉模型，尤其是在利用 NVIDIA Tensor Core 或其他高度...

2025-11-23andy阅读(249)评论(0)

在AI模型部署，尤其是涉及到生产环境的HTTPS或gRPC/TLS安全通信时，证书管理是至关重要的一环。许多企业级部署环境（如特定的Kubernetes Ingress Controllers、Java KeyStores或低级网络库）可能...