Manage job inputs

4 minute read

Launch のコアな体験は、ハイパーパラメーターやデータセットのような様々なジョブ入力を容易に実験し、これらのジョブを適切なハードウェアにルーティングすることです。ジョブが作成されると、最初の作成者以外のユーザーは、W&B GUIまたはCLIを介してこれらの入力を調整できます。CLIまたはUIから起動する際にジョブ入力を設定する方法については、ジョブをエンキューするガイドを参照してください。

このセクションでは、ジョブで調整できる入力をプログラムで制御する方法について説明します。

デフォルトでは、W&B ジョブは Run.config 全体をジョブへの入力としてキャプチャしますが、 Launch SDK は、run config 内の選択したキーを制御したり、JSONまたはYAMLファイルを入力として指定したりする機能を提供します。

Launch SDK 関数には wandb-core が必要です。詳細については、wandb-core README を参照してください。

`Run` オブジェクトの再構成

ジョブ内の wandb.init によって返される Run オブジェクトは、デフォルトで再構成できます。 Launch SDK は、ジョブの起動時に Run.config オブジェクトのどの部分を再構成できるかをカスタマイズする方法を提供します。

import wandb
from wandb.sdk import launch

# Required for launch sdk use.
wandb.require("core")

config = {
    "trainer": {
        "learning_rate": 0.01,
        "batch_size": 32,
        "model": "resnet",
        "dataset": "cifar10",
        "private": {
            "key": "value",
        },
    },
    "seed": 42,
}


with wandb.init(config=config):
    launch.manage_wandb_config(
        include=["trainer"], 
        exclude=["trainer.private"],
    )
    # Etc.

関数 launch.manage_wandb_config は、Run.config オブジェクトの入力値を受け入れるようにジョブを構成します。オプションの include および exclude オプションは、ネストされた config オブジェクト内のパスのプレフィックスを受け取ります。これは、たとえば、ジョブがエンドユーザーに公開したくないオプションを持つライブラリを使用する場合に役立ちます。

include プレフィックスが指定されている場合、include プレフィックスに一致する config 内のパスのみが入力値を受け入れます。exclude プレフィックスが指定されている場合、exclude リストに一致するパスは入力値から除外されません。パスが include と exclude の両方のプレフィックスに一致する場合、exclude プレフィックスが優先されます。

上記の例では、パス ["trainer.private"] は private キーを trainer オブジェクトから除外し、パス ["trainer"] は trainer オブジェクトにないすべてのキーを除外します。

\ でエスケープされた . を使用して、名前に . が付いたキーを除外します。

たとえば、r"trainer\.private" は、trainer オブジェクトの下の private キーではなく、trainer.private キーを除外します。

上記の r プレフィックスは、raw 文字列を表すことに注意してください。

上記のコードがパッケージ化され、ジョブとして実行される場合、ジョブの入力タイプは次のようになります。

{
    "trainer": {
        "learning_rate": "float",
        "batch_size": "int",
        "model": "str",
        "dataset": "str",
    },
}

W&B CLI または UI からジョブを起動すると、ユーザーは4つの trainer パラメータのみをオーバーライドできます。

run config 入力へのアクセス

run config 入力で起動されたジョブは、Run.config を介して入力値にアクセスできます。ジョブコードの wandb.init によって返される Run には、入力値が自動的に設定されます。ジョブコードの任意の場所で run config 入力値をロードするには、

from wandb.sdk import launch

run_config_overrides = launch.load_wandb_config()

を使用します。

ファイルの再構成

Launch SDK は、ジョブコードの config ファイルに保存されている入力値を管理する方法も提供します。これは、この torchtune の例やこの Axolotl config のように、多くのディープラーニングおよび大規模言語モデルのユースケースで一般的なパターンです。

Launch での Sweeps は、 sweep パラメータとして config ファイル入力の使用をサポートしていません。 Sweep パラメータは、Run.config オブジェクトを介して制御する必要があります。

launch.manage_config_file 関数を使用すると、config ファイルを Launch ジョブへの入力として追加できるため、ジョブの起動時に config ファイル内の値を編集できます。

デフォルトでは、launch.manage_config_file が使用されている場合、run config 入力はキャプチャされません。launch.manage_wandb_config を呼び出すと、この振る舞いがオーバーライドされます。

次の例を考えてみましょう。

import yaml
import wandb
from wandb.sdk import launch

# Required for launch sdk use.
wandb.require("core")

launch.manage_config_file("config.yaml")

with open("config.yaml", "r") as f:
    config = yaml.safe_load(f)

with wandb.init(config=config):
    # Etc.
    pass

コードが隣接するファイル config.yaml で実行されると想像してください。

learning_rate: 0.01
batch_size: 32
model: resnet
dataset: cifar10

launch.manage_config_file の呼び出しは、config.yaml ファイルをジョブへの入力として追加し、W&B CLI または UI から起動するときに再構成できるようにします。

include および exclude キーワード arg は、launch.manage_wandb_config と同じ方法で、config ファイルの許容される入力キーをフィルタリングするために使用できます。

config ファイル入力へのアクセス

Launch によって作成された run で launch.manage_config_file が呼び出されると、launch は config ファイルの内容を入力値でパッチします。パッチされた config ファイルは、ジョブ環境で使用できます。

入力値が使用されるようにするには、ジョブコードで config ファイルを読み取る前に launch.manage_config_file を呼び出してください。

ジョブの Launch ドロワー UI のカスタマイズ

ジョブの入力のスキーマを定義すると、ジョブを起動するためのカスタム UI を作成できます。ジョブのスキーマを定義するには、launch.manage_wandb_config または launch.manage_config_file の呼び出しに含めます。スキーマは、JSON Schema の形式の python 辞書、または Pydantic モデルクラスのいずれかになります。

ジョブ入力スキーマは、入力の検証には使用されません。これらは、 Launch ドロワーで UI を定義するためにのみ使用されます。

次の例は、次のプロパティを持つスキーマを示しています。

seed 、整数
trainer 、いくつかのキーが指定された辞書 :
- trainer.learning_rate 、ゼロより大きい float
- trainer.batch_size 、16、64、または256のいずれかである必要がある整数
- trainer.dataset 、cifar10 または cifar100 のいずれかである必要がある文字列

schema = {
    "type": "object",
    "properties": {
        "seed": {
          "type": "integer"
        }
        "trainer": {
            "type": "object",
            "properties": {
                "learning_rate": {
                    "type": "number",
                    "description": "Learning rate of the model",
                    "exclusiveMinimum": 0,
                },
                "batch_size": {
                    "type": "integer",
                    "description": "Number of samples per batch",
                    "enum": [16, 64, 256]
                },
                "dataset": {
                    "type": "string",
                    "description": "Name of the dataset to use",
                    "enum": ["cifar10", "cifar100"]
                }
            }
        }
    }
}

launch.manage_wandb_config(
    include=["seed", "trainer"], 
    exclude=["trainer.private"],
    schema=schema,
)

一般に、次の JSON Schema 属性がサポートされています。

属性	必須	注記
`type`	はい	`number` 、 `integer` 、 `string` 、または `object` のいずれかである必要があります。
`title`	いいえ	プロパティの表示名をオーバーライドします
`description`	いいえ	プロパティヘルパーテキストを指定します
`enum`	いいえ	フリーフォームテキスト入力の代わりにドロップダウン選択を作成します
`minimum`	いいえ	`type` が `number` または `integer` の場合にのみ許可されます
`maximum`	いいえ	`type` が `number` または `integer` の場合にのみ許可されます
`exclusiveMinimum`	いいえ	`type` が `number` または `integer` の場合にのみ許可されます
`exclusiveMaximum`	いいえ	`type` が `number` または `integer` の場合にのみ許可されます
`properties`	いいえ	`type` が `object` の場合、ネストされた構成を定義するために使用されます

次の例は、次のプロパティを持つスキーマを示しています。

seed 、整数
trainer 、いくつかのサブ属性が指定されたスキーマ :
- trainer.learning_rate 、ゼロより大きい float
- trainer.batch_size 、1〜256（両端を含む）の範囲の整数
- trainer.dataset 、cifar10 または cifar100 のいずれかである必要がある文字列

class DatasetEnum(str, Enum):
    cifar10 = "cifar10"
    cifar100 = "cifar100"

class Trainer(BaseModel):
    learning_rate: float = Field(gt=0, description="Learning rate of the model")
    batch_size: int = Field(ge=1, le=256, description="Number of samples per batch")
    dataset: DatasetEnum = Field(title="Dataset", description="Name of the dataset to use")

class Schema(BaseModel):
    seed: int
    trainer: Trainer

launch.manage_wandb_config(
    include=["seed", "trainer"],
    exclude=["trainer.private"],
    schema=Schema,
)

クラスのインスタンスを使用することもできます。

t = Trainer(learning_rate=0.01, batch_size=32, dataset=DatasetEnum.cifar10)
s = Schema(seed=42, trainer=t)
launch.manage_wandb_config(
    include=["seed", "trainer"],
    exclude=["trainer.private"],
    input_schema=s,
)

ジョブ入力スキーマを追加すると、 Launch ドロワーに構造化されたフォームが作成され、ジョブの起動が容易になります。

[i18n] feedback_title

[i18n] feedback_question

Glad to hear it! Please tell us how we can improve.

Sorry to hear that. Please tell us how we can improve.

最終更新 April 3, 2025

ページの編集ドキュメントのissueを作成セクション全体を印刷

Manage job inputs

Run オブジェクト の再構成

run config 入力 へのアクセス

ファイル の再構成