Track external files

W&B の外部に保存されたファイル (Amazon S3 バケット、GCS バケット、HTTP ファイルサーバー、NFS 共有など) を追跡します。

4 minute read

参照 Artifacts を使用して、W&Bシステム外に保存されたファイル（例えば、Amazon S3 バケット、GCS バケット、Azure Blob、HTTP ファイルサーバー、あるいは NFS 共有など）を追跡します。W&B CLIを使用し、W&B Runの外で Artifacts をログ記録します。

run の外で Artifacts をログ記録する

run の外で Artifact をログ記録すると、W&B は run を作成します。各 Artifact は run に属し、その run はプロジェクトに属します。Artifact（バージョン）はコレクションにも属し、タイプを持ちます。

wandb artifact put コマンドを使用すると、W&B run の外で Artifact を W&B サーバーにアップロードできます。Artifact が属するプロジェクトの名前と Artifact の名前（project/artifact_name）を指定します。オプションで、タイプ（TYPE）を指定します。以下のコードスニペットの PATH を、アップロードする Artifact のファイルパスに置き換えます。

$ wandb artifact put --name project/artifact_name --type TYPE PATH

指定したプロジェクトが存在しない場合、W&B は新しいプロジェクトを作成します。Artifact のダウンロード方法については、Artifacts のダウンロードと使用を参照してください。

W&B の外で Artifacts を追跡する

W&B Artifacts を使用して、データセットのバージョン管理とモデルリネージを行い、参照 Artifacts を使用して W&B サーバーの外に保存されたファイルを追跡します。このモードでは、Artifact は URL、サイズ、チェックサムなどのファイルに関するメタデータのみを保存します。基になるデータがシステムから離れることはありません。ファイルを W&B サーバーに保存する方法については、クイックスタートを参照してください。

以下では、参照 Artifacts を構築する方法と、ワークフローに組み込む最適な方法について説明します。

Amazon S3 / GCS / Azure Blob Storage 参照

W&B Artifacts を使用して、データセットとモデルのバージョン管理を行い、クラウドストレージバケット内の参照を追跡します。Artifact の参照を使用すると、既存のストレージレイアウトを変更することなく、シームレスに追跡をバケットの上に重ねることができます。

Artifacts は、基盤となるクラウドストレージベンダー（AWS、GCP、Azure など）を抽象化します。以下のセクションで説明する情報は、Amazon S3、Google Cloud Storage、Azure Blob Storage に均一に適用されます。

W&B Artifacts は、MinIO を含む、Amazon S3 互換のインターフェースをサポートします。AWS_S3_ENDPOINT_URL 環境変数を MinIO サーバーを指すように設定すると、以下のスクリプトはそのまま動作します。

次の構造のバケットがあると仮定します。

s3://my-bucket
+-- datasets/
| +-- mnist/
+-- models/
 +-- cnn/

mnist/ の下には、画像のコレクションであるデータセットがあります。これを Artifact で追跡してみましょう。

import wandb

run = wandb.init()
artifact = wandb.Artifact("mnist", type="dataset")
artifact.add_reference("s3://my-bucket/datasets/mnist")
run.log_artifact(artifact)

デフォルトでは、W&B はオブジェクトプレフィックスを追加する際に 10,000 オブジェクトの制限を課します。この制限は、add_reference の呼び出しで max_objects= を指定することで調整できます。

新しい参照 Artifact mnist:latest は、通常の Artifact と同様に見え、動作します。唯一の違いは、Artifact が S3/GCS/Azure オブジェクトに関するメタデータ（ETag、サイズ、オブジェクトのバージョン管理がバケットで有効になっている場合はバージョン ID など）のみで構成されていることです。

W&B は、使用しているクラウドプロバイダーに基づいて、認証情報を検索するためのデフォルトのメカニズムを使用します。使用する認証情報の詳細については、クラウドプロバイダーのドキュメントを参照してください。

クラウドプロバイダー	認証情報のドキュメント
AWS	Boto3 documentation
GCP	Google Cloud documentation
Azure	Azure documentation

AWS の場合、バケットが設定されたユーザーのデフォルトリージョンにない場合は、AWS_REGION 環境変数をバケットリージョンと一致するように設定する必要があります。

この Artifact は、通常の Artifact と同様に操作します。App UI では、ファイルブラウザーを使用して参照 Artifact のコンテンツを調べたり、完全な依存関係グラフを調べたり、Artifact のバージョン管理された履歴をスキャンしたりできます。

画像、オーディオ、ビデオ、ポイントクラウドなどのリッチメディアは、バケットの CORS 設定によっては、App UI でレンダリングされない場合があります。バケットの CORS 設定で app.wandb.ai のリストを許可すると、App UI でそのようなリッチメディアを適切にレンダリングできます。

会社の VPN がある場合、プライベートバケットのパネルが App UI でレンダリングされない場合があります。VPN 内の IP をホワイトリストに登録するようにバケットのアクセスポリシーを更新できます。

参照 Artifact をダウンロードする

import wandb

run = wandb.init()
artifact = run.use_artifact("mnist:latest", type="dataset")
artifact_dir = artifact.download()

W&B は、参照 Artifact をダウンロードする際に、Artifact がログ記録されたときに記録されたメタデータを使用して、基盤となるバケットからファイルを取得します。バケットでオブジェクトのバージョン管理が有効になっている場合、W&B は Artifact がログ記録された時点でのファイルの状態に対応するオブジェクトバージョンを取得します。これは、バケットのコンテンツを進化させても、特定のモデルがトレーニングされたデータの正確なイテレーションを指すことができることを意味します。Artifact はトレーニング時のバケットのスナップショットとして機能するためです。

ワークフローの一部としてファイルを上書きする場合は、ストレージバケットで「オブジェクトのバージョン管理」を有効にすることをお勧めします。バケットでバージョン管理が有効になっている場合、上書きされたファイルへの参照を持つ Artifacts は、古いオブジェクトバージョンが保持されるため、そのまま残ります。

ユースケースに基づいて、オブジェクトのバージョン管理を有効にする手順を読んでください：AWS, GCP, Azure.

統合する

次のコード例は、Amazon S3、GCS、または Azure でデータセットを追跡するために使用できる簡単なワークフローを示しています。

import wandb

run = wandb.init()

artifact = wandb.Artifact("mnist", type="dataset")
artifact.add_reference("s3://my-bucket/datasets/mnist")

# Artifact を追跡し、この run への入力としてマークします。
# バケット 内のファイル が変更された場合にのみ、新しい Artifact バージョン がログ記録されます。
run.use_artifact(artifact)

artifact_dir = artifact.download()

# ここで トレーニング を実行します...

モデルを追跡するために、トレーニングスクリプトがモデルファイルをバケットにアップロードした後、モデル Artifact をログ記録できます。

import boto3
import wandb

run = wandb.init()

# トレーニング はこちら...

s3_client = boto3.client("s3")
s3_client.upload_file("my_model.h5", "my-bucket", "models/cnn/my_model.h5")

model_artifact = wandb.Artifact("cnn", type="model")
model_artifact.add_reference("s3://my-bucket/models/cnn/")
run.log_artifact(model_artifact)

GCP または Azure の参照によって Artifacts を追跡する方法のエンドツーエンドのチュートリアルについては、次のレポートを参照してください。

ファイルシステム参照

データセットに高速にアクセスするためのもう 1 つの一般的なパターンは、すべてのトレーニングジョブを実行しているマシンでリモートファイルシステムに NFS マウントポイントを公開することです。トレーニングスクリプトの観点から見ると、ファイルがローカルファイルシステムにあるように見えるため、これはクラウドストレージバケットよりもさらに簡単なソリューションになる可能性があります。幸いなことに、その使いやすさは、ファイルシステムへの参照を追跡するために Artifacts を使用することにも拡張されます（マウントされているかどうかに関係なく）。

次の構造のファイルシステムが /mount にマウントされていると仮定します。

mount
+-- datasets/
| +-- mnist/
+-- models/
 +-- cnn/

mnist/ の下には、画像のコレクションであるデータセットがあります。これを Artifact で追跡してみましょう。

import wandb

run = wandb.init()
artifact = wandb.Artifact("mnist", type="dataset")
artifact.add_reference("file:///mount/datasets/mnist/")
run.log_artifact(artifact)

デフォルトでは、W&B はディレクトリーへの参照を追加する際に 10,000 ファイルの制限を課します。この制限は、add_reference の呼び出しで max_objects= を指定することで調整できます。

URL には 3 つのスラッシュがあることに注意してください。最初のコンポーネントは、ファイルシステム参照の使用を示す file:// プレフィックスです。2 番目のコンポーネントは、データセットへのパス /mount/datasets/mnist/ です。

結果として得られる Artifact mnist:latest は、通常の Artifact と同じように見え、動作します。唯一の違いは、Artifact がファイルに関するメタデータ（サイズや MD5 チェックサムなど）のみで構成されていることです。ファイル自体がシステムから離れることはありません。

この Artifact は、通常の Artifact と同じように操作できます。UI では、ファイルブラウザーを使用して参照 Artifact のコンテンツを参照したり、完全な依存関係グラフを調べたり、Artifact のバージョン管理された履歴をスキャンしたりできます。ただし、データ自体が Artifact に含まれていないため、UI は画像やオーディオなどのリッチメディアをレンダリングできません。

参照 Artifact のダウンロードは簡単です。

import wandb

run = wandb.init()
artifact = run.use_artifact("entity/project/mnist:latest", type="dataset")
artifact_dir = artifact.download()

ファイルシステム参照の場合、download() 操作は参照されたパスからファイルをコピーして Artifact ディレクトリーを構築します。上記の例では、/mount/datasets/mnist のコンテンツがディレクトリー artifacts/mnist:v0/ にコピーされます。Artifact に上書きされたファイルへの参照が含まれている場合、Artifact を再構築できなくなるため、download() はエラーをスローします。

すべてをまとめると、マウントされたファイルシステムの下にあるデータセットを追跡するために使用できる簡単なワークフローを次に示します。

import wandb

run = wandb.init()

artifact = wandb.Artifact("mnist", type="dataset")
artifact.add_reference("file:///mount/datasets/mnist/")

# Artifact を追跡し、この run への入力としてマークします。
# ディレクトリー の下のファイル が変更された場合にのみ、新しい Artifact バージョン がログ記録されます。
run.use_artifact(artifact)

artifact_dir = artifact.download()

# ここで トレーニング を実行します...

モデルを追跡するために、トレーニングスクリプトがモデルファイルをマウントポイントに書き込んだ後、モデル Artifact をログ記録できます。

import wandb

run = wandb.init()

# トレーニング はこちら...

# モデル を ディスク に書き込みます

model_artifact = wandb.Artifact("cnn", type="model")
model_artifact.add_reference("file:///mount/cnn/my_model.h5")
run.log_artifact(model_artifact)

[i18n] feedback_title

[i18n] feedback_question

Glad to hear it! Please tell us how we can improve.

Sorry to hear that. Please tell us how we can improve.

最終更新 April 3, 2025

ページの編集ドキュメントのissueを作成セクション全体を印刷