如何利用Zarr或TileDB等数组存储格式加速多维数据访问？

Contents

1 引言：为什么传统格式在云原生时代不再适用？
2 Zarr核心原理：块存储与并行访问
3 实操：使用Python和Zarr加速数据访问
- 3.1 步骤一：创建并写入Zarr数组
- 3.2 步骤二：验证高效的随机访问
4 部署考量：Zarr与AI训练管线
- 4.1 相关

引言：为什么传统格式在云原生时代不再适用？

在现代AI和科学计算领域，数据集的规模正在爆炸式增长，尤其是在遥感、医学影像、气候模拟和高维传感器数据等场景中，PB级数据已是常态。传统的HDF5或NetCDF文件格式虽然能够存储多维数组，但它们通常是基于单一文件（monolithic）的结构。当这些大文件被放置在云存储（如Amazon S3, Azure Blob Storage）上时，随机访问和分布式并行读取效率极低，因为即使只是读取一个很小的子集，系统也可能需要下载整个文件的头部信息甚至大片连续的数据块。

Zarr（Zero-Array）格式正是为了解决这一痛点而设计的。Zarr将多维数组切分成固定大小的“块”（chunks），并独立地存储这些块。每个块都经过压缩和独立寻址，使其天然适应云存储和分布式计算环境。

Zarr核心原理：块存储与并行访问

Zarr的核心优势在于其数据模型允许高效的并行I/O和子集访问：

分块（Chunking）： 数组被逻辑上和物理上分割成小块。这些块可以被视为独立的对象或文件。
存储后端（Store Backend）： Zarr不强制使用特定的文件系统。它可以存储在内存、本地磁盘、网络文件系统，或通过专门的后端（如
1
s3fs

）直接存储在云对象存储中。
压缩与编码： 每个块都可以独立地应用不同的压缩算法（如Blosc, GZip, Zstd），从而实现优化的存储空间和读取速度。

当AI模型需要读取数据时，分布式训练节点可以只请求和下载它们所需的数据块，而不是整个原始文件，这极大地减少了延迟和网络带宽消耗。

实操：使用Python和Zarr加速数据访问

我们将使用Python中的

zarr

库来演示如何创建和访问一个优化的多维数组。为了方便处理带标签的多维数据，我们通常将其与

xarray

结合使用。

首先，确保安装了必要的库：


1
pip install zarr numpy xarray 'numcodecs[blosc]'

步骤一：创建并写入Zarr数组

关键在于定义合适的

chunks

。如果你的模型主要沿着时间轴进行迭代，那么时间维度上的块大小应该相对较小，而在空间维度上可以保持较大，以确保局部访问的效率。


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
import zarr

import numpy as np

import time



# 模拟一个大型数据集 (例如：10万个时间步，1000个传感器，50个特征)

shape = (100000, 1000, 50)

# 定义分块策略：主要在时间维度(0)上进行切片访问

chunk_size = (1000, 1000, 50) 



# 1. 创建一个内存存储（In-memory Store）

# 在生产环境中，这里会替换成 S3Store 或 DirectoryStore

store = zarr.MemoryStore()



start_creation = time.time()

z_array = zarr.create(

    shape=shape,

    chunks=chunk_size,

    dtype='float32',

    store=store,

    # 使用Blosc压缩，高效且支持多线程解压

    compressor=zarr.Blosc(cname='lz4', clevel=5, shuffle=zarr.Blosc.BITSHUFFLE)

)



# 填充数据

print("Populating data...")

z_array[:] = np.random.rand(*shape).astype('float32')

end_creation = time.time()



print(f"Zarr数组创建耗时: {end_creation - start_creation:.2f} 秒")

print(f"数组总大小: {z_array.nbytes / (1024**3):.2f} GB")

print(f"块总数: {z_array.nchunks}")

步骤二：验证高效的随机访问

现在，我们测试从这个大型数组中仅读取一个很小的子集（例如，仅读取时间维度上的100个切片）。

如果数据是连续存储的，读取这100个切片可能需要加载大量不相关的数据。但由于Zarr的分块策略，它只会定位并解压对应的100个块。


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
# 场景：模型需要读取时间步 50000 到 50100 的所有数据



# 检查这次访问会涉及到多少个块

start_chunk_index = 50000 // chunk_size[0]

end_chunk_index = 50100 // chunk_size[0]

# 在本例中，因为 100个时间步 (50000-50100) 位于同一个 1000 大小的块内，所以只访问了一个块。



start_access = time.time()

# Zarr的切片操作是懒惰的（Lazy），数据只在需要时才被加载

subset = z_array[50000:50100, :, :]

end_access = time.time()



print(f"请求的子集形状: {subset.shape}")

print(f"Zarr高效访问耗时: {end_access - start_access:.6f} 秒")



# 如果我们进行一个跨越多个块的访问 (例如，从 500 到 2500，共跨越 3 个块)

start_access_multi = time.time()

subset_multi = z_array[500:2500, :, :]

end_access_multi = time.time()

print(f"请求的子集形状: {subset_multi.shape}")

print(f"Zarr多块访问耗时: {end_access_multi - start_access_multi:.6f} 秒")



# 注意：在云存储环境中，这些访问耗时主要受限于网络延迟和并发读取能力，但Zarr确保只传输必要的数据量。

部署考量：Zarr与AI训练管线

数据湖集成： Zarr非常适合作为AI数据湖的基础格式，特别是与Apache Spark或Dask等分布式计算框架结合时。Dask可以直接在Zarr数组上创建延迟计算图，实现对PB级数据集的透明并行处理。
优化块大小： 选择块大小是性能调优的关键。块不能太小（增加元数据开销）也不能太大（降低随机访问效益）。理想的块大小通常在几MB到几十MB之间，应与模型的批处理大小和访问模式保持一致。
云原生部署： 将Zarr数组存储到S3后，训练节点无需挂载文件系统，直接通过HTTP/HTTPS协议和
1
s3fs

库访问数据块，这极大地简化了Kubernetes等容器化部署环境下的数据访问路径。

通过采用Zarr，AI工程师可以避免传统存储瓶颈，实现真正的云原生、高并发、高效的数据加载和训练流程，从而显著缩短模型的迭代周期。

如何利用Zarr或TileDB等数组存储格式加速多维数据访问？

引言：为什么传统格式在云原生时代不再适用？

Zarr核心原理：块存储与并行访问

实操：使用Python和Zarr加速数据访问

步骤一：创建并写入Zarr数组

步骤二：验证高效的随机访问

部署考量：Zarr与AI训练管线

相关

相关推荐

评论抢沙发

引言：为什么传统格式在云原生时代不再适用？

Zarr核心原理：块存储与并行访问

实操：使用Python和Zarr加速数据访问

步骤一：创建并写入Zarr数组

步骤二：验证高效的随机访问

部署考量：Zarr与AI训练管线

相关

相关推荐

评论 抢沙发

评论抢沙发