PyTorch

7 minute read

Weights & Biases を使用して、機械学習の実験管理、データセットのバージョン管理、およびプロジェクトのコラボレーションを行います。

このノートブックの内容

このノートブックでは、 Weights & Biases を PyTorch コードに統合して、実験管理をパイプラインに追加する方法を紹介します。

# ライブラリをインポート
import wandb

# 新しい 実験 を開始
wandb.init(project="new-sota-model")

#  config で ハイパーパラメーター の 辞書 をキャプチャ
wandb.config = {"learning_rate": 0.001, "epochs": 100, "batch_size": 128}

# モデル と データ をセットアップ
model, dataloader = get_model(), get_data()

# オプション: 勾配 を追跡
wandb.watch(model)

for batch in dataloader:
  metrics = model.training_step()
  #  トレーニング ループ 内で メトリクス を ログ に記録して、 モデル の パフォーマンス を視覚化します。
  wandb.log(metrics)

# オプション: 最後に モデル を保存
model.to_onnx()
wandb.save("model.onnx")

ビデオチュートリアルをご覧ください。

注: Step で始まるセクションは、既存のパイプラインに W&B を統合するために必要なすべてです。残りの部分は、データをロードし、モデルを定義するだけです。

インストール、インポート、およびログイン

import os
import random

import numpy as np
import torch
import torch.nn as nn
import torchvision
import torchvision.transforms as transforms
from tqdm.auto import tqdm

# 決定論的な 振る舞い を確認
torch.backends.cudnn.deterministic = True
random.seed(hash("setting random seeds") % 2**32 - 1)
np.random.seed(hash("improves reproducibility") % 2**32 - 1)
torch.manual_seed(hash("by removing stochasticity") % 2**32 - 1)
torch.cuda.manual_seed_all(hash("so runs are repeatable") % 2**32 - 1)

# デバイス の 設定
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

# MNIST ミラー の リスト から 低速 ミラー を削除
torchvision.datasets.MNIST.mirrors = [mirror for mirror in torchvision.datasets.MNIST.mirrors
                                      if not mirror.startswith("http://yann.lecun.com")]

Step 0: W&B のインストール

まず、ライブラリを取得する必要があります。 wandb は pip を使用して簡単にインストールできます。

!pip install wandb onnx -Uq

Step 1: W&B のインポートとログイン

データを Web サービスにログに記録するには、ログインする必要があります。

W&B を初めて使用する場合は、表示されるリンクで無料アカウントにサインアップする必要があります。

import wandb

wandb.login()

実験とパイプラインを定義

`wandb.init` を使用してメタデータとハイパーパラメーターを追跡

プログラムで、最初に行うことは実験を定義することです。ハイパーパラメーターは何ですか? どのようなメタデータがこの run に関連付けられていますか?

この情報を config 辞書 (または同様のオブジェクト ) に保存し、必要に応じてアクセスするのは非常に一般的なワークフローです。

この例では、いくつかのハイパーパラメーターのみを変えることができ、残りは手動でコーディングしています。ただし、モデルの任意の部分を config の一部にすることができます。

また、いくつかのメタデータも含めます。MNIST データセットと畳み込みアーキテクチャーを使用しています。たとえば、後で同じプロジェクトで CIFAR 上の完全に接続されたアーキテクチャーを使用する場合、これは run を分離するのに役立ちます。

config = dict(
    epochs=5,
    classes=10,
    kernels=[16, 32],
    batch_size=128,
    learning_rate=0.005,
    dataset="MNIST",
    architecture="CNN")

次に、モデルトレーニングに非常に一般的な全体的なパイプラインを定義しましょう。

まず、モデル、関連データ、およびオプティマイザーを make し、次に
モデルをそれに応じて train し、最後に
test して、トレーニングの結果を確認します。

これらの関数を以下に実装します。

def model_pipeline(hyperparameters):

    # wandb に 開始 するように指示
    with wandb.init(project="pytorch-demo", config=hyperparameters):
      # wandb.config を介してすべての HPs に アクセス して、 ログ が 実行 と一致するようにします。
      config = wandb.config

      # モデル 、 データ 、および 最適化 の 問題 を作成
      model, train_loader, test_loader, criterion, optimizer = make(config)
      print(model)

      # それらを使用して モデル を トレーニング
      train(model, train_loader, criterion, optimizer, config)

      # 最終的な パフォーマンス を テスト
      test(model, test_loader)

    return model

標準的なパイプラインとの唯一の違いは、それがすべて wandb.init のコンテキスト内で発生することです。この関数を呼び出すと、コードとサーバー間の通信回線が設定されます。

config 辞書を wandb.init に渡すと、その情報がすべてすぐにログに記録されるため、実験で使用するように設定したハイパーパラメーターの値を常に把握できます。

選択およびログに記録した値がモデルで常に使用されるようにするために、オブジェクトの wandb.config コピーを使用することをお勧めします。いくつかの例を参照するには、以下の make の定義を確認してください。

サイドノート: コードを個別のプロセスで実行するように注意してください。これにより、こちら側の問題 (巨大な海のモンスターがデータセンターを攻撃するなど) によってコードがクラッシュしないようにします。クラーケンが深海に戻るなど、問題が解決されたら、 wandb sync でデータをログに記録できます。

def make(config):
    # データ を作成
    train, test = get_data(train=True), get_data(train=False)
    train_loader = make_loader(train, batch_size=config.batch_size)
    test_loader = make_loader(test, batch_size=config.batch_size)

    # モデル を作成
    model = ConvNet(config.kernels, config.classes).to(device)

    # 損失 と オプティマイザー を作成
    criterion = nn.CrossEntropyLoss()
    optimizer = torch.optim.Adam(
        model.parameters(), lr=config.learning_rate)
    
    return model, train_loader, test_loader, criterion, optimizer

データのロードとモデルを定義

次に、データのロード方法とモデルの外観を指定する必要があります。

この部分は非常に重要ですが、wandb がなくても同じであるため、詳しく説明しません。

def get_data(slice=5, train=True):
    full_dataset = torchvision.datasets.MNIST(root=".",
                                              train=train, 
                                              transform=transforms.ToTensor(),
                                              download=True)
    #  [::slice] で スライス するのと同等
    sub_dataset = torch.utils.data.Subset(
      full_dataset, indices=range(0, len(full_dataset), slice))
    
    return sub_dataset


def make_loader(dataset, batch_size):
    loader = torch.utils.data.DataLoader(dataset=dataset,
                                         batch_size=batch_size, 
                                         shuffle=True,
                                         pin_memory=True, num_workers=2)
    return loader

モデルを定義するのは通常楽しい部分です。

しかし、wandb では何も変わらないため、標準的な ConvNet アーキテクチャーを使用します。

これをいじって実験を試すことを恐れないでください。すべての結果は wandb.ai にログ記録されます。

# 従来の畳み込み ニューラルネットワーク

class ConvNet(nn.Module):
    def __init__(self, kernels, classes=10):
        super(ConvNet, self).__init__()
        
        self.layer1 = nn.Sequential(
            nn.Conv2d(1, kernels[0], kernel_size=5, stride=1, padding=2),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2))
        self.layer2 = nn.Sequential(
            nn.Conv2d(16, kernels[1], kernel_size=5, stride=1, padding=2),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2))
        self.fc = nn.Linear(7 * 7 * kernels[-1], classes)
        
    def forward(self, x):
        out = self.layer1(x)
        out = self.layer2(out)
        out = out.reshape(out.size(0), -1)
        out = self.fc(out)
        return out

トレーニングロジックを定義

model_pipeline で進めて、train 方法を指定します。

ここでは、2 つの wandb 関数が役立ちます。watch と log です。

`wandb.watch` で勾配を追跡し、`wandb.log` でその他すべてを追跡

wandb.watch は、トレーニングのすべての log_freq ステップで、モデルの勾配とパラメータをログに記録します。

必要なのは、トレーニングを開始する前にそれを呼び出すことだけです。

残りのトレーニングコードは同じままです。エポックとバッチを反復処理し、 forward pass と backward pass を実行し、オプティマイザー を適用します。

def train(model, loader, criterion, optimizer, config):
    # モデル が 実行 する 内容 ( 勾配 、 重み など) を wandb に 監視 させる。
    wandb.watch(model, criterion, log="all", log_freq=10)

    # トレーニング を 実行 し、wandb で 追跡
    total_batches = len(loader) * config.epochs
    example_ct = 0  # 確認された 例 の 数
    batch_ct = 0
    for epoch in tqdm(range(config.epochs)):
        for _, (images, labels) in enumerate(loader):

            loss = train_batch(images, labels, model, optimizer, criterion)
            example_ct +=  len(images)
            batch_ct += 1

            # 25 回目の バッチ ごとに メトリクス を レポート
            if ((batch_ct + 1) % 25) == 0:
                train_log(loss, example_ct, epoch)


def train_batch(images, labels, model, optimizer, criterion):
    images, labels = images.to(device), labels.to(device)
    
    # Forward pass ➡
    outputs = model(images)
    loss = criterion(outputs, labels)
    
    # Backward pass ⬅
    optimizer.zero_grad()
    loss.backward()

    # オプティマイザー で ステップ
    optimizer.step()

    return loss

唯一の違いはログコードにあります。以前はターミナルに出力してメトリクスをレポートしていた可能性がありますが、同じ情報を wandb.log に渡すようになりました。

wandb.log は、キーとして文字列を持つ辞書を想定しています。これらの文字列は、ログに記録されるオブジェクトを識別します。これらが値を構成します。オプションで、トレーニングのどの step にいるかをログに記録することもできます。

サイドノート: バッチサイズ全体で比較しやすくするために、モデルが確認した例の数を使用するのが好きですが、生のステップまたはバッチカウントを使用できます。より長いトレーニング run の場合、エポック ごとにログに記録することも理にかなっています。

def train_log(loss, example_ct, epoch):
    # 魔法が起こる場所
    wandb.log({"epoch": epoch, "loss": loss}, step=example_ct)
    print(f"Loss after {str(example_ct).zfill(5)} examples: {loss:.3f}")

テストロジックを定義

モデルのトレーニングが完了したら、それをテストします。たとえば、プロダクションからの新鮮なデータに対して実行したり、手作業でキュレーションされた例に適用したりします。

(オプション) `wandb.save` を呼び出す

これは、モデルのアーキテクチャーと最終的なパラメータをディスクに保存する絶好の機会でもあります。最大限の互換性を得るために、Open Neural Network eXchange (ONNX) 形式でモデルを エクスポート します。

そのファイル名を wandb.save に渡すと、モデルのパラメータが W&B のサーバーに保存されます。どの .h5 または .pb がどのトレーニング run に対応するかを追跡できなくなることはありません。

モデルを保存、バージョン管理、および配布するための、より高度な wandb 機能については、Artifacts ツールをご覧ください。

def test(model, test_loader):
    model.eval()

    # いくつかの テスト 例 で モデル を 実行
    with torch.no_grad():
        correct, total = 0, 0
        for images, labels in test_loader:
            images, labels = images.to(device), labels.to(device)
            outputs = model(images)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

        print(f"Accuracy of the model on the {total} " +
              f"test images: {correct / total:%}")
        
        wandb.log({"test_accuracy": correct / total})

    # 交換可能な ONNX 形式 で モデル を保存
    torch.onnx.export(model, images, "model.onnx")
    wandb.save("model.onnx")

トレーニングを実行し、wandb.ai でメトリクスをライブで監視

パイプライン全体を定義し、いくつかの W&B コードを挿入したので、完全に追跡された実験を実行する準備ができました。

ドキュメント、プロジェクトページ ( プロジェクト内のすべての run を整理します)、およびこの run の結果が保存される Run ページへのリンクがいくつかレポートされます。

Run ページに移動し、これらのタブを確認してください。

Charts: トレーニング全体でモデルの勾配、パラメータ値、および損失がログに記録されます。
System: ディスク I/O 使用率、 CPU および GPU メトリクス (温度が急上昇するのを監視します) などのさまざまなシステムメトリクスが含まれています。
Logs: トレーニング中に標準出力にプッシュされたすべてのもののコピーがあります。
Files: トレーニングが完了すると、model.onnx をクリックして、Netron モデルビューアーでネットワークを表示できます。

run が終了すると、with wandb.init ブロックが終了するときに、セルの出力に結果の概要も出力されます。

# パイプライン を使用して モデル を 構築、 トレーニング 、および 分析
model = model_pipeline(config)

Sweeps でハイパーパラメーターをテスト

この例では、単一のハイパーパラメーターセットのみを調べました。しかし、ほとんどの ML ワークフローの重要な部分は、多くのハイパーパラメーターを反復処理することです。

Weights & Biases Sweeps を使用すると、ハイパーパラメーターのテストを自動化し、可能なモデルと最適化戦略のスペースを探索できます。

W&B Sweeps を使用した PyTorch でのハイパーパラメーターの最適化を確認

Weights & Biases でハイパーパラメーター sweep を実行するのは非常に簡単です。簡単な 3 つのステップがあります。

sweep を定義: 検索するパラメータ、検索戦略、最適化メトリクスなどを指定する辞書または YAML ファイルを作成して、これを行います。
sweep を初期化: sweep_id = wandb.sweep(sweep_config)
sweep agent を実行: wandb.agent(sweep_id, function=train)

これで、ハイパーパラメーター sweep の実行はすべて完了です。

例ギャラリー

ギャラリー →で W&B で追跡および視覚化されたプロジェクトの例をご覧ください

高度な設定

環境変数: 管理対象クラスターでトレーニングを実行できるように、環境変数で APIキーを設定します。
オフラインモード: dryrun モードを使用してオフラインでトレーニングし、後で結果を同期します。
オンプレミス: プライベートクラウドまたはお客様のインフラストラクチャー内のエアギャップサーバーに W&B をインストールします。学術関係者からエンタープライズチームまで、あらゆるユーザー向けのローカルインストールがあります。
Sweeps: チューニング用の軽量ツールを使用して、ハイパーパラメーター検索を迅速に設定します。

[i18n] feedback_title

[i18n] feedback_question

Glad to hear it! Please tell us how we can improve.

Sorry to hear that. Please tell us how we can improve.

最終更新 April 3, 2025

ページの編集ドキュメントのissueを作成セクション全体を印刷

PyTorch

この ノートブック の内容

インストール、インポート、および ログイン

Step 0: W&B の インストール

Step 1: W&B の インポート と ログイン

実験 と パイプライン を定義

wandb.init を使用して メタデータ と ハイパーパラメーター を追跡

データ の ロード と モデル を定義

トレーニング ロジック を定義

wandb.watch で 勾配 を追跡し、wandb.log で その他 すべてを追跡

テスト ロジック を定義

(オプション) wandb.save を 呼び出す

トレーニング を 実行 し、wandb.ai で メトリクス を ライブ で 監視

Sweeps で ハイパーパラメーター を テスト

W&B Sweeps を使用した PyTorch での ハイパーパラメーター の 最適化 を確認

例 ギャラリー

高度な 設定