人工智能和大数据

第16页

如何针对非对称搜索场景优化 Faiss 的查询性能与内存访问局部性特征

2026-02-09andy阅读(70)评论(0)

在构建大规模向量搜索系统时，我们经常面临“非对称搜索”场景：查询向量（Query Vector）通常保持高精度（浮点型），而数据库中的索引向量（Database Vector）为了节省存储和提高I/O效率，会使用量化压缩技术（如Produc...

2026-02-09andy阅读(64)评论(0)

引言在训练大型深度学习模型时，显存（VRAM）往往是最大的瓶颈之一。TensorFlow 2.x 引入了强大的混合精度训练（Mixed Precision Training）功能，允许我们在不牺牲模型精度的情况下，大幅减少显存占用并提高训...

2026-02-09andy阅读(50)评论(0)

SavedModel 格式详解：为什么它是 TensorFlow 生产环境下模型持久化的唯一真神在 TensorFlow 生态系统中，模型持久化有两种常见方式：Keras H5 格式（.h5）和 SavedModel 格式。虽然 H5 格...

2026-02-09andy阅读(61)评论(0)

在进行大规模模型训练时，我们通常采用分布式数据并行（DDP）来加速训练过程。然而，如果不恰当地处理数据加载，很容易导致不同工作节点（GPU/进程）之间的数据读取任务不均衡，进而造成GPU等待I/O，降低整体训练效率。本文将聚焦于 PyTo...

2026-02-09andy阅读(72)评论(0)

在现代深度学习分布式训练中，NVIDIA Collective Communications Library (NCCL) 是实现高性能 GPU 间通信的核心工具。NCCL 提供了多种通信算法来优化 All-Reduce、Broadcast...

2026-02-09andy阅读(64)评论(0)

在企业数字化转型中，引入第三方AI服务商（如SaaS模型、定制化ML解决方案）已成为常态。然而，这些合作关系带来了巨大的数据安全、模型偏见和监管合规风险。作为AI基础设施和部署的负责人，我们必须将技术尽职调查（Technical DDQ）与...

2026-02-08andy阅读(80)评论(0)

在深度学习和高性能计算领域，算子（Kernel）的性能往往是模型推理速度的瓶颈。虽然像 cuBLAS 和 cuDNN 这样的厂商原生库已经高度优化，但它们是通用性的。当面对特定维度、数据类型或计算模式时，通过像 Triton 这样的领域特定...

2026-02-08andy阅读(58)评论(0)

在深度学习，尤其是大型语言模型（LLM）的面试中，这是一个非常常见且重要的问题。理解计算瓶颈是优化模型部署和推理速度的关键。对于基于 Transformer 架构的大模型，在推理（Inference）阶段，计算瓶颈确实往往落在存储带宽（Me...

2026-02-08andy阅读(85)评论(0)

简介：为什么批量提交是写入的关键？在Elasticsearch (ES) 中，批量（Bulk）写入是实现高吞吐量数据索引的唯一方法。如果每次只提交一个文档，网络延迟和HTTP/TCP握手开销将导致性能急剧下降。然而，Bulk请求也不是越大...

2026-02-08andy阅读(76)评论(0)

谷歌的张量处理单元（TPU）是专为加速深度学习工作负载而设计的硬件，尤其擅长处理大规模的矩阵乘法和卷积操作。然而，要充分发挥TPU的性能，我们必须确保计算图能够被高效地编译和分发。在TensorFlow中，这主要通过 tf.distribu...