文章目录gcsfs把 Google Cloud Storage 当成本地目录来用1、这工具是干嘛的2、新特性HNS 和 Rapid Buckets3、安装和认证4、适合谁用gcsfs把 Google Cloud Storage 当成本地目录来用gcsfs 在 GitHub 上已经有 391 Star。这是一个 Python 库给 Google Cloud Storage 套了一层文件系统接口。基于 fsspec 构建用法和操作本地目录几乎一样。数据科学家和工程师用它读写云端文件不需要关心底层存储细节。1、这工具是干嘛的gcsfs 只做一件事让 GCS 的 bucket 用起来像本地文件系统。importgcsfs fsgcsfs.GCSFileSystem(projectmy-google-project)filesfs.ls(my-bucket)withfs.open(my-bucket/data.txt,rb)asf:contentf.read()三行代码就能列出 bucket 内容、读取文件。熟悉 Python 文件操作的人不需要额外学习成本。它深度集成 fsspec 生态pandas、xarray、dask 这些库都能直接通过 gcsfs 读写云端数据。你不需要手动下载文件到本地分析流程直接跑在云上。2、新特性HNS 和 Rapid Buckets最近的版本加入了对 Google Cloud Storage 高级特性的支持。Hierarchical NamespaceHNS传统 GCS 是扁平结构目录只是对象前缀的模拟。HNS 提供了真正的逻辑目录带来了三个好处原子重命名移动或重命名目录是 O(1) 的元数据操作不需要慢速的复制再删除高吞吐读写操作的初始 QPS 提升最多 8 倍适合 AI 场景管理数百万小文件、频繁存取 checkpoint 时性能更稳Rapid BucketsZonal Storage这是为低延迟场景设计的区域存储数据可以和 GPU/TPU 集群放在同一个 zone网络延迟更低支持向已有对象追加数据不需要完整重写针对高速模型加载和实时日志做了优化这些特性让 gcsfs 从单纯的接口封装变成了能发挥 GCS 全部能力的工具。3、安装和认证安装很简单pipinstallgcsfs# 或者condainstall-cconda-forge gcsfs认证支持四种模式默认模式读取本地 gcloud 凭证或环境变量里的服务账号Cloud 模式显式使用 Google Metadata 服务匿名模式访问公开数据不需要登录服务账号模式传入 JSON 密钥文件路径大多数用户用默认模式就够了。配置了 gcloud CLI 的机器gcsfs 会自动读取凭证。如果项目有高并发需求gcsfs 提供了异步 API。初始化时传asynchronousTrue底层基于 aiohttp适合批量读写场景。4、适合谁用在 GCS 上存数据、用 pandas/dask 做分析的数据工程师训练模型需要频繁读写 checkpoint 的机器学习开发者做 ETL 流程、需要把云存储当文件系统操作的工程师这个项目由 Anaconda 赞助维护和 fsspec 生态保持同步更新。如果你已经在用 Google Cloud Storagegcsfs 几乎是必装的工具。由 Anaconda 赞助维护和 fsspec 生态保持同步更新。如果你已经在用 Google Cloud Storagegcsfs 几乎是必装的工具。
gcsfs:把 Google Cloud Storage 当成本地目录来用
发布时间:2026/6/9 7:48:13
文章目录gcsfs把 Google Cloud Storage 当成本地目录来用1、这工具是干嘛的2、新特性HNS 和 Rapid Buckets3、安装和认证4、适合谁用gcsfs把 Google Cloud Storage 当成本地目录来用gcsfs 在 GitHub 上已经有 391 Star。这是一个 Python 库给 Google Cloud Storage 套了一层文件系统接口。基于 fsspec 构建用法和操作本地目录几乎一样。数据科学家和工程师用它读写云端文件不需要关心底层存储细节。1、这工具是干嘛的gcsfs 只做一件事让 GCS 的 bucket 用起来像本地文件系统。importgcsfs fsgcsfs.GCSFileSystem(projectmy-google-project)filesfs.ls(my-bucket)withfs.open(my-bucket/data.txt,rb)asf:contentf.read()三行代码就能列出 bucket 内容、读取文件。熟悉 Python 文件操作的人不需要额外学习成本。它深度集成 fsspec 生态pandas、xarray、dask 这些库都能直接通过 gcsfs 读写云端数据。你不需要手动下载文件到本地分析流程直接跑在云上。2、新特性HNS 和 Rapid Buckets最近的版本加入了对 Google Cloud Storage 高级特性的支持。Hierarchical NamespaceHNS传统 GCS 是扁平结构目录只是对象前缀的模拟。HNS 提供了真正的逻辑目录带来了三个好处原子重命名移动或重命名目录是 O(1) 的元数据操作不需要慢速的复制再删除高吞吐读写操作的初始 QPS 提升最多 8 倍适合 AI 场景管理数百万小文件、频繁存取 checkpoint 时性能更稳Rapid BucketsZonal Storage这是为低延迟场景设计的区域存储数据可以和 GPU/TPU 集群放在同一个 zone网络延迟更低支持向已有对象追加数据不需要完整重写针对高速模型加载和实时日志做了优化这些特性让 gcsfs 从单纯的接口封装变成了能发挥 GCS 全部能力的工具。3、安装和认证安装很简单pipinstallgcsfs# 或者condainstall-cconda-forge gcsfs认证支持四种模式默认模式读取本地 gcloud 凭证或环境变量里的服务账号Cloud 模式显式使用 Google Metadata 服务匿名模式访问公开数据不需要登录服务账号模式传入 JSON 密钥文件路径大多数用户用默认模式就够了。配置了 gcloud CLI 的机器gcsfs 会自动读取凭证。如果项目有高并发需求gcsfs 提供了异步 API。初始化时传asynchronousTrue底层基于 aiohttp适合批量读写场景。4、适合谁用在 GCS 上存数据、用 pandas/dask 做分析的数据工程师训练模型需要频繁读写 checkpoint 的机器学习开发者做 ETL 流程、需要把云存储当文件系统操作的工程师这个项目由 Anaconda 赞助维护和 fsspec 生态保持同步更新。如果你已经在用 Google Cloud Storagegcsfs 几乎是必装的工具。由 Anaconda 赞助维护和 fsspec 生态保持同步更新。如果你已经在用 Google Cloud Storagegcsfs 几乎是必装的工具。