XGBoost Sweeps

3 minute read

Weights & Biases を使用して、機械学習の実験管理、データセットのバージョン管理、プロジェクトのコラボレーションを行いましょう。

ツリーベースのモデルから最高のパフォーマンスを引き出すには、適切なハイパーパラメーターを選択する必要があります。 early_stopping_rounds はいくつにするべきでしょうか？ツリーの max_depth はどのくらいにすべきでしょうか？

高次元のハイパーパラメーター空間を検索して、最もパフォーマンスの高いモデルを見つけるのは、非常に扱いにくくなる可能性があります。ハイパーパラメーター Sweeps は、モデルのバトルロイヤルを実施し、勝者を決定するための、組織的かつ効率的な方法を提供します。これは、最適な値を見つけるために、ハイパーパラメーター値の組み合わせを自動的に検索することによって実現されます。

このチュートリアルでは、Weights & Biases を使用して、XGBoost モデルで高度なハイパーパラメーター Sweeps を 3 つの簡単なステップで実行する方法を説明します。

まず、以下のプロットを確認してください。

Sweeps: 概要

Weights & Biases でハイパーパラメーター sweep を実行するのは非常に簡単です。簡単な 3 つのステップがあります。

sweep の定義: sweep を指定する辞書のようなオブジェクトを作成してこれを行います。検索するパラメーター、使用する検索戦略、最適化するメトリクスを指定します。
sweep の初期化: 1 行のコードで sweep を初期化し、sweep 設定の辞書を渡します。 sweep_id = wandb.sweep(sweep_config)
sweep agent の実行: これも 1 行のコードで実行できます。wandb.agent() を呼び出し、sweep_id とモデルのアーキテクチャーを定義してトレーニングする関数を渡します。 wandb.agent(sweep_id, function=train)

以上がハイパーパラメーター sweep の実行に必要なすべてです。

以下のノートブックでは、これら 3 つのステップについてさらに詳しく説明します。

このノートブックをフォークして、パラメーターを調整したり、独自のデータセットでモデルを試したりすることを強くお勧めします。

リソース

!pip install wandb -qU


import wandb
wandb.login()

1. Sweep を定義する

Weights & Biases の Sweeps は、わずか数行のコードで、必要な方法で Sweeps を正確に設定するための強力なレバーを提供します。sweep の設定は、辞書または YAML ファイルとして定義できます。

一緒にいくつか見ていきましょう。

メトリクス: これは、Sweeps が最適化しようとしているメトリクスです。メトリクスは、name（このメトリクスはトレーニングスクリプトによってログに記録される必要があります）と goal（maximize または minimize）を受け取ることができます。
検索戦略: "method" キーを使用して指定します。Sweeps では、いくつかの異なる検索戦略をサポートしています。
グリッド検索: ハイパーパラメーター値のすべての組み合わせを反復処理します。
ランダム検索: ハイパーパラメーター値のランダムに選択された組み合わせを反復処理します。
ベイズ探索: ハイパーパラメーターをメトリクススコアの確率にマッピングする確率モデルを作成し、メトリクスを改善する可能性が高いパラメーターを選択します。ベイズ最適化の目的は、ハイパーパラメーター値の選択により多くの時間を費やすことですが、そうすることで、試すハイパーパラメーター値を少なくすることです。
パラメーター: ハイパーパラメーター名、離散値、範囲、または各反復でその値を抽出する分布を含む辞書。

詳細については、すべての sweep 設定オプションのリストを参照してください。

sweep_config = {
    "method": "random", # try grid or random
    "metric": {
      "name": "accuracy",
      "goal": "maximize"   
    },
    "parameters": {
        "booster": {
            "values": ["gbtree","gblinear"]
        },
        "max_depth": {
            "values": [3, 6, 9, 12]
        },
        "learning_rate": {
            "values": [0.1, 0.05, 0.2]
        },
        "subsample": {
            "values": [1, 0.5, 0.3]
        }
    }
}

2. Sweep の初期化

wandb.sweep を呼び出すと、Sweep Controller が起動します。これは、クエリを実行するすべてのユーザーに parameters の設定を提供し、wandb ログを介して metrics のパフォーマンスが返されることを期待する集中化されたプロセスです。

sweep_id = wandb.sweep(sweep_config, project="XGBoost-sweeps")

トレーニングプロセスを定義する

sweep を実行する前に、モデルを作成してトレーニングする関数を定義する必要があります。これは、ハイパーパラメーター値を受け取り、メトリクスを出力する関数です。

また、wandb をスクリプトに統合する必要があります。主なコンポーネントは 3 つあります。

wandb.init(): 新しい W&B run を初期化します。各 run は、トレーニングスクリプトの単一の実行です。
wandb.config: すべてのハイパーパラメーターを設定オブジェクトに保存します。これにより、アプリを使用して、ハイパーパラメーター値で run をソートして比較できます。
wandb.log(): メトリクスと、画像、ビデオ、オーディオファイル、HTML、プロット、ポイントクラウドなどのカスタムオブジェクトをログに記録します。

また、データをダウンロードする必要があります。

!wget https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv

# XGBoost model for Pima Indians dataset
from numpy import loadtxt
from xgboost import XGBClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# load data
def train():
  config_defaults = {
    "booster": "gbtree",
    "max_depth": 3,
    "learning_rate": 0.1,
    "subsample": 1,
    "seed": 117,
    "test_size": 0.33,
  }

  wandb.init(config=config_defaults)  # defaults are over-ridden during the sweep
  config = wandb.config

  # load data and split into predictors and targets
  dataset = loadtxt("pima-indians-diabetes.data.csv", delimiter=",")
  X, Y = dataset[:, :8], dataset[:, 8]

  # split data into train and test sets
  X_train, X_test, y_train, y_test = train_test_split(X, Y,
                                                      test_size=config.test_size,
                                                      random_state=config.seed)

  # fit model on train
  model = XGBClassifier(booster=config.booster, max_depth=config.max_depth,
                        learning_rate=config.learning_rate, subsample=config.subsample)
  model.fit(X_train, y_train)

  # make predictions on test
  y_pred = model.predict(X_test)
  predictions = [round(value) for value in y_pred]

  # evaluate predictions
  accuracy = accuracy_score(y_test, predictions)
  print(f"Accuracy: {accuracy:.0%}")
  wandb.log({"accuracy": accuracy})

3. agent で Sweep を実行する

次に、wandb.agent を呼び出して sweep を起動します。

W&B にログインしているすべてのマシンで wandb.agent を呼び出すことができます。

sweep_id、
データセットと train 関数

があり、そのマシンが sweep に参加します。

注: random sweep は、デフォルトで永久に実行され、牛が家に帰るまで、またはアプリ UI から sweep をオフにするまで、新しいパラメーターの組み合わせを試します。 agent が完了する run の合計 count を指定することで、これを防ぐことができます。

wandb.agent(sweep_id, train, count=25)

結果を可視化する

sweep が完了したので、結果を見てみましょう。

Weights & Biases は、多くの役立つプロットを自動的に生成します。

並列座標プロット

このプロットは、ハイパーパラメーター値をモデルメトリクスにマッピングします。これは、最高のモデルパフォーマンスにつながったハイパーパラメーターの組み合わせを絞り込むのに役立ちます。

このプロットは、学習者としてツリーを使用すると、単純な線形モデルを学習者として使用するよりもわずかに、しかし驚くほどではありませんが、パフォーマンスが向上することを示しているようです。

ハイパーパラメーターのインポータンスプロット

ハイパーパラメーターのインポータンスプロットは、どのハイパーパラメーター値がメトリクスに最も大きな影響を与えたかを示します。

線形予測子として扱い、相関関係と特徴量の重要度（結果に対してランダムフォレストをトレーニングした後）の両方を報告し、どのパラメーターが最大の影響を与えたか、そしてその影響がプラスかマイナスかを確認できるようにします。

このチャートを読むと、上記の並列座標チャートで気付いた傾向が定量的に確認できます。検証精度への最大の影響は、学習者の選択によるものであり、gblinear 学習者は一般的に gbtree 学習者よりも劣っていました。

これらの可視化は、最も重要なパラメーター（および値の範囲）に焦点を当てることで、時間とリソースを節約し、高価なハイパーパラメーター最適化を実行するのに役立ち、それによってさらに調査する価値があります。

[i18n] feedback_title

[i18n] feedback_question

Glad to hear it! Please tell us how we can improve.

Sorry to hear that. Please tell us how we can improve.

最終更新 April 3, 2025

ページの編集ドキュメントのissueを作成セクション全体を印刷