人工智能和大数据

第21页

详解 TensorFlow 虚拟设备配置：如何在单物理 GPU 上模拟多卡并行测试环境

2026-02-05andy阅读(72)评论(0)

在进行深度学习模型开发时，特别是在测试分布式训练策略（如 tf.distribute.MirroredStrategy）时，我们往往需要多块 GPU。然而，并非所有开发环境都具备多卡资源。TensorFlow 提供了一种强大的解决方案：虚拟...

2026-02-05andy阅读(75)评论(0)

在深度学习优化和不确定性估计中，二阶导数（曲率信息）扮演着至关重要的角色，尤其是在牛顿法或拟牛顿法（如BFGS）中。TensorFlow 2.x 的 Eager 模式提供了灵活的自动微分机制 tf.GradientTape。虽然它主要用于计...

2026-02-05andy阅读(70)评论(0)

在分布式训练，尤其是深度学习模型的分布式训练中，高效的节点间通信是性能的关键。All-Reduce、All-Gather 和 Reduce-Scatter 是最核心的三种集体通信原语（Collective Communication Pri...

2026-02-05andy阅读(68)评论(0)

导语：从政策到基础设施的落地 AI治理框架（AIGF）不再是仅仅停留在法律或伦理层面的抽象文档。对于AI基础设施和模型部署团队而言，AIGF必须转化为可执行、可审计、可追溯的技术流程。这意味着，我们必须利用现有的MLOps工具链（如MLfl...

2026-02-04andy阅读(88)评论(0)

如何利用RDMA/RoCE v2实现大模型训练的极致加速：深度解析‘零拷贝’网络通信随着AI模型规模（如LLM）的爆炸式增长，分布式训练已成为常态。然而，传统的网络通信方式（基于TCP/IP）在多GPU节点间传输海量梯度和参数时，会造成严...

2026-02-04andy阅读(69)评论(0)

大型语言模型（LLM）的推理过程通常分为两个截然不同的计算阶段：预填充（Pre-fill）和生成（Decode）。这两个阶段的计算和资源需求特性存在巨大差异，如果在同一块GPU上混合执行，往往会导致资源利用率低下，尤其是在高并发的服务环境中...

2026-02-04andy阅读(98)评论(0)

跨集群搜索（Cross-Cluster Search, CCS）是 Elasticsearch 中一项强大的功能，它允许用户在单个请求中查询多个独立运行的 Elasticsearch 集群。这对于需要跨越地理位置、满足数据主权要求（如 GD...

2026-02-04andy阅读(100)评论(0)

在AI模型部署和推理加速过程中，理解模型内部操作的执行时间至关重要。TensorFlow提供了一套强大的分析工具，其中 tf.summary.trace_on 是捕捉计算图级别性能数据，并利用TensorBoard Profiler进行深度...

2026-02-04andy阅读(78)评论(0)

大规模语言模型（LLM）的推理性能是部署成功的关键。在推理过程中，模型通常经历两个截然不同的阶段：Prefill（预填充/上下文处理）和Decode（解码/生成）。理解这两个阶段的资源需求和冲突，是优化吞吐量（Throughput）和首字节...

2026-02-04andy阅读(74)评论(0)

在现代MLOps实践中，模型性能监控（如准确率、延迟、数据漂移）已成为标配。然而，仅仅知道模型表现不好是不够的，我们更需要知道为什么。这时，模型可解释性（Explainable AI, XAI）的持续监控就显得尤为重要。本文将深入探讨如何...