Log media and objects

3D ポイントクラウドや分子から、HTML やヒストグラムまで、リッチメディアをログに記録します。

8 minute read

画像、動画、音声など、様々な形式のメディアに対応しています。リッチメディアをログに記録して、結果を調査し、 run 、 model 、 dataset を視覚的に比較できます。例やハウツーガイドについては、以下をお読みください。

メディアタイプのリファレンスドキュメントをお探しですか？こちらのページをご覧ください。

事前準備

W&B SDK でメディアオブジェクトをログに記録するには、追加の依存関係をインストールする必要がある場合があります。これらの依存関係をインストールするには、次のコマンドを実行します。

pip install wandb[media]

画像

画像をログに記録して、入力、出力、フィルターの重み、アクティベーションなどを追跡します。

Inputs and outputs of an autoencoder network performing in-painting.

画像は、NumPy 配列から、PIL 画像として、またはファイルシステムから直接ログに記録できます。

ステップから画像をログに記録するたびに、UI に表示するために保存されます。画像パネルを展開し、ステップスライダーを使用して、異なるステップの画像を確認します。これにより、 model の出力がトレーニング中にどのように変化するかを簡単に比較できます。

トレーニング中にログ記録がボトルネックになるのを防ぐため、また結果を表示する際に画像の読み込みがボトルネックになるのを防ぐため、ステップごとに 50 枚未満の画像をログに記録することをお勧めします。

torchvision の make_grid を使用するなどして、画像を手動で構築する場合は、配列を直接指定します。

配列は Pillow を使用して png に変換されます。

images = wandb.Image(image_array, caption="Top: Output, Bottom: Input")

wandb.log({"examples": images})

最後の次元が 1 の場合はグレースケール画像、3 の場合は RGB、4 の場合は RGBA であると想定されます。配列に float が含まれている場合は、0 から 255 までの整数に変換します。画像の正規化方法を変更する場合は、mode を手動で指定するか、このパネルの「PIL 画像のログ記録」タブで説明されているように、PIL.Image を指定します。

配列から画像への変換を完全に制御するには、PIL.Image を自分で構築し、直接指定します。

images = [PIL.Image.fromarray(image) for image in image_array]

wandb.log({"examples": [wandb.Image(image) for image in images]})

さらに細かく制御するには、好きな方法で画像を作成し、ディスクに保存して、ファイルパスを指定します。

im = PIL.fromarray(...)
rgb_im = im.convert("RGB")
rgb_im.save("myimage.jpg")

wandb.log({"example": wandb.Image("myimage.jpg")})

画像オーバーレイ

セマンティックセグメンテーションマスクをログに記録し、W&B UI で (不透明度を変更したり、経時的な変化を表示したりするなど) 操作します。

オーバーレイをログに記録するには、次のキーと値を持つ辞書を wandb.Image の masks キーワード引数に指定する必要があります。

画像マスクを表す 2 つのキーのいずれか 1 つ。
- "mask_data": 各ピクセルの整数クラスラベルを含む 2D NumPy 配列
- "path": (string) 保存された画像マスクファイルへのパス
"class_labels": (オプション) 画像マスク内の整数クラスラベルを読み取り可能なクラス名にマッピングする辞書

複数のマスクをログに記録するには、次のコードスニペットのように、複数のキーを持つマスク辞書をログに記録します。

ライブ例を見る

サンプルコード

mask_data = np.array([[1, 2, 2, ..., 2, 2, 1], ...])

class_labels = {1: "tree", 2: "car", 3: "road"}

mask_img = wandb.Image(
    image,
    masks={
        "predictions": {"mask_data": mask_data, "class_labels": class_labels},
        "ground_truth": {
            # ...
        },
        # ...
    },
)

画像と共にバウンディングボックスをログに記録し、フィルターとトグルを使用して、UI でさまざまなボックスセットを動的に可視化します。

ライブ例を見る

バウンディングボックスをログに記録するには、次のキーと値を持つ辞書を wandb.Image の boxes キーワード引数に指定する必要があります。

box_data: 各ボックスに対して 1 つの辞書のリスト。ボックス辞書の形式については、以下で説明します。
- position: 以下で説明するように、2 つの形式のいずれかでボックスの位置とサイズを表す辞書。ボックスはすべて同じ形式を使用する必要はありません。
  - オプション 1: {"minX", "maxX", "minY", "maxY"}。各ボックスの次元の上限と下限を定義する座標セットを指定します。
  - オプション 2: {"middle", "width", "height"}。[x,y] として middle 座標を指定する座標セットと、スカラーとして width と height を指定します。
- class_id: ボックスのクラス ID を表す整数。以下の class_labels キーを参照してください。
- scores: スコアの文字列ラベルと数値の値の辞書。UI でボックスをフィルタリングするために使用できます。
- domain: ボックス座標の単位/形式を指定します。ボックス座標が画像の次元の範囲内の整数など、ピクセル空間で表される場合は、これを「pixel」に設定します。デフォルトでは、 domain は画像の分数/パーセンテージであると見なされ、0 から 1 の間の浮動小数点数として表されます。
- box_caption: (オプション) このボックスのラベルテキストとして表示される文字列
class_labels: (オプション) class_id を文字列にマッピングする辞書。デフォルトでは、クラスラベル class_0、class_1 などを生成します。

この例をご覧ください。

class_id_to_label = {
    1: "car",
    2: "road",
    3: "building",
    # ...
}

img = wandb.Image(
    image,
    boxes={
        "predictions": {
            "box_data": [
                {
                    # one box expressed in the default relative/fractional domain
                    "position": {"minX": 0.1, "maxX": 0.2, "minY": 0.3, "maxY": 0.4},
                    "class_id": 2,
                    "box_caption": class_id_to_label[2],
                    "scores": {"acc": 0.1, "loss": 1.2},
                    # another box expressed in the pixel domain
                    # (for illustration purposes only, all boxes are likely
                    # to be in the same domain/format)
                    "position": {"middle": [150, 20], "width": 68, "height": 112},
                    "domain": "pixel",
                    "class_id": 3,
                    "box_caption": "a building",
                    "scores": {"acc": 0.5, "loss": 0.7},
                    # ...
                    # Log as many boxes an as needed
                }
            ],
            "class_labels": class_id_to_label,
        },
        # Log each meaningful group of boxes with a unique key name
        "ground_truth": {
            # ...
        },
    },
)

wandb.log({"driving_scene": img})

テーブルの画像オーバーレイ

Interactive Segmentation Masks in Tables

テーブルにセグメンテーションマスクをログ記録するには、テーブルの各行に wandb.Image オブジェクトを指定する必要があります。

コードスニペットに例を示します。

table = wandb.Table(columns=["ID", "Image"])

for id, img, label in zip(ids, images, labels):
    mask_img = wandb.Image(
        img,
        masks={
            "prediction": {"mask_data": label, "class_labels": class_labels}
            # ...
        },
    )

    table.add_data(id, img)

wandb.log({"Table": table})

テーブルにバウンディングボックスを持つ画像をログ記録するには、テーブルの各行に wandb.Image オブジェクトを指定する必要があります。

コードスニペットに例を示します。

table = wandb.Table(columns=["ID", "Image"])

for id, img, boxes in zip(ids, images, boxes_set):
    box_img = wandb.Image(
        img,
        boxes={
            "prediction": {
                "box_data": [
                    {
                        "position": {
                            "minX": box["minX"],
                            "minY": box["minY"],
                            "maxX": box["maxX"],
                            "maxY": box["maxY"],
                        },
                        "class_id": box["class_id"],
                        "box_caption": box["caption"],
                        "domain": "pixel",
                    }
                    for box in boxes
                ],
                "class_labels": class_labels,
            }
        },
    )

ヒストグラム

リスト、配列、テンソルなどの数値のシーケンスが最初の引数として指定された場合、np.histogram を呼び出すことでヒストグラムを自動的に構築します。すべての配列/ テンソルはフラット化されます。オプションの num_bins キーワード引数を使用して、デフォルトの 64 ビンをオーバーライドできます。サポートされているビンの最大数は 512 です。

UI では、ヒストグラムは x 軸にトレーニングステップ、y 軸にメトリック値、色で表されるカウントでプロットされ、トレーニング全体でログ記録されたヒストグラムの比較が容易になります。1 回限りのヒストグラムのログ記録の詳細については、このパネルの「概要のヒストグラム」タブを参照してください。

wandb.log({"gradients": wandb.Histogram(grads)})

Gradients for the discriminator in a GAN.

さらに詳細に制御する場合は、np.histogram を呼び出し、返されたタプルを np_histogram キーワード引数に渡します。

np_hist_grads = np.histogram(grads, density=True, range=(0.0, 1.0))
wandb.log({"gradients": wandb.Histogram(np_hist_grads)})

wandb.run.summary.update(  # if only in summary, only visible on overview tab
    {"final_logits": wandb.Histogram(logits)}
)

'obj'、'gltf'、'glb'、'babylon'、'stl'、'pts.json' 形式のファイルをログ記録すると、 run 終了時に UI でレンダリングされます。

wandb.log(
    {
        "generated_samples": [
            wandb.Object3D(open("sample.obj")),
            wandb.Object3D(open("sample.gltf")),
            wandb.Object3D(open("sample.glb")),
        ]
    }
)

Ground truth and prediction of a headphones point cloud

ライブ例を見る

ヒストグラムが概要にある場合、Run Page の Overviewタブに表示されます。履歴にある場合、Chartsタブに時間の経過に伴うビンのヒートマップをプロットします。

3D 可視化

バウンディングボックスを持つ 3D ポイントクラウドと Lidar シーンをログ記録します。レンダリングするポイントの座標と色を含む NumPy 配列を渡します。

point_cloud = np.array([[0, 0, 0, COLOR]])

wandb.log({"point_cloud": wandb.Object3D(point_cloud)})

:::info W&B UI はデータを 300,000 ポイントで切り捨てます。 :::

NumPy 配列形式

柔軟な配色に対応するため、3 つの異なる形式の NumPy 配列がサポートされています。

[[x, y, z], ...] nx3
[[x, y, z, c], ...] nx4 | c は[1, 14]` の範囲のカテゴリです (セグメンテーションに役立ちます)。
[[x, y, z, r, g, b], ...] nx6 | r,g,b は赤、緑、青のカラーチャンネルの [0,255] の範囲の値です。

Python オブジェクト

このスキーマを使用すると、Python オブジェクトを定義し、以下に示すように from_point_cloud メソッドに渡すことができます。

points は、上記の単純なポイントクラウドレンダラーと同じ形式を使用してレンダリングするポイントの座標と色を含む NumPy 配列です。
boxes は、3 つの属性を持つ Python 辞書の NumPy 配列です。
- corners- 8 つの角のリスト
- label- ボックスにレンダリングされるラベルを表す文字列 (オプション)
- color- ボックスの色を表す RGB 値
- score - バウンディングボックスに表示される数値。表示されるバウンディングボックスをフィルタリングするために使用できます (たとえば、score > 0.75 のバウンディングボックスのみを表示する場合)。(オプション)
type は、レンダリングするシーンタイプを表す文字列です。現在、サポートされている値は lidar/beta のみです。

point_list = [
    [
        2566.571924017235, # x
        746.7817289698219, # y
        -15.269245470863748,# z
        76.5, # red
        127.5, # green
        89.46617199365393 # blue
    ],
    [ 2566.592983606823, 746.6791987335685, -15.275803826279521, 76.5, 127.5, 89.45471117247024 ],
    [ 2566.616361739416, 746.4903185513501, -15.28628929674075, 76.5, 127.5, 89.41336375503832 ],
    [ 2561.706014951675, 744.5349468458361, -14.877496818222781, 76.5, 127.5, 82.21868245418283 ],
    [ 2561.5281847916694, 744.2546118233013, -14.867862032341005, 76.5, 127.5, 81.87824684536432 ],
    [ 2561.3693562897465, 744.1804761656741, -14.854129178142523, 76.5, 127.5, 81.64137897587152 ],
    [ 2561.6093071504515, 744.0287526628543, -14.882135189841177, 76.5, 127.5, 81.89871499537098 ],
    # ... and so on
]

run.log({"my_first_point_cloud": wandb.Object3D.from_point_cloud(
     points = point_list,
     boxes = [{
         "corners": [
                [ 2601.2765123137915, 767.5669506323393, -17.816764802288663 ],
                [ 2599.7259021588347, 769.0082337923552, -17.816764802288663 ],
                [ 2599.7259021588347, 769.0082337923552, -19.66876480228866 ],
                [ 2601.2765123137915, 767.5669506323393, -19.66876480228866 ],
                [ 2604.8684867834395, 771.4313904894723, -17.816764802288663 ],
                [ 2603.3178766284827, 772.8726736494882, -17.816764802288663 ],
                [ 2603.3178766284827, 772.8726736494882, -19.66876480228866 ],
                [ 2604.8684867834395, 771.4313904894723, -19.66876480228866 ]
        ],
         "color": [0, 0, 255], # color in RGB of the bounding box
         "label": "car", # string displayed on the bounding box
         "score": 0.6 # numeric displayed on the bounding box
     }],
     vectors = [
        {"start": [0, 0, 0], "end": [0.1, 0.2, 0.5], "color": [255, 0, 0]}, # color is optional
     ],
     point_cloud_type = "lidar/beta",
)})

ポイントクラウドを表示するときは、control キーを押しながらマウスを使用すると、スペース内を移動できます。

ポイントクラウドファイル

the from_file メソッドを使用して、ポイントクラウドデータがいっぱいの JSON ファイルをロードできます。

run.log({"my_cloud_from_file": wandb.Object3D.from_file(
     "./my_point_cloud.pts.json"
)})

ポイントクラウドデータの形式設定方法の例を以下に示します。

{
    "boxes": [
        {
            "color": [
                0,
                255,
                0
            ],
            "score": 0.35,
            "label": "My label",
            "corners": [
                [
                    2589.695869075582,
                    760.7400443552185,
                    -18.044831294622487
                ],
                [
                    2590.719039645323,
                    762.3871153874499,
                    -18.044831294622487
                ],
                [
                    2590.719039645323,
                    762.3871153874499,
                    -19.54083129462249
                ],
                [
                    2589.695869075582,
                    760.7400443552185,
                    -19.54083129462249
                ],
                [
                    2594.9666662674313,
                    757.4657929961453,
                    -18.044831294622487
                ],
                [
                    2595.9898368371723,
                    759.1128640283766,
                    -18.044831294622487
                ],
                [
                    2595.9898368371723,
                    759.1128640283766,
                    -19.54083129462249
                ],
                [
                    2594.9666662674313,
                    757.4657929961453,
                    -19.54083129462249
                ]
            ]
        }
    ],
    "points": [
        [
            2566.571924017235,
            746.7817289698219,
            -15.269245470863748,
            76.5,
            127.5,
            89.46617199365393
        ],
        [
            2566.592983606823,
            746.6791987335685,
            -15.275803826279521,
            76.5,
            127.5,
            89.45471117247024
        ],
        [
            2566.616361739416,
            746.4903185513501,
            -15.28628929674075,
            76.5,
            127.5,
            89.41336375503832
        ]
    ],
    "type": "lidar/beta"
}

NumPy 配列

上記で定義されている同じ配列形式を使用して、 from_numpy メソッドで numpy 配列を直接使用して、ポイントクラウドを定義できます。

run.log({"my_cloud_from_numpy_xyz": wandb.Object3D.from_numpy(
     np.array(
        [
            [0.4, 1, 1.3], # x, y, z
            [1, 1, 1],
            [1.2, 1, 1.2]
        ]
    )
)})

run.log({"my_cloud_from_numpy_cat": wandb.Object3D.from_numpy(
     np.array(
        [
            [0.4, 1, 1.3, 1], # x, y, z, category
            [1, 1, 1, 1],
            [1.2, 1, 1.2, 12],
            [1.2, 1, 1.3, 12],
            [1.2, 1, 1.4, 12],
            [1.2, 1, 1.5, 12],
            [1.2, 1, 1.6, 11],
            [1.2, 1, 1.7, 11],
        ]
    )
)})

run.log({"my_cloud_from_numpy_rgb": wandb.Object3D.from_numpy(
     np.array(
        [
            [0.4, 1, 1.3, 255, 0, 0], # x, y, z, r, g, b
            [1, 1, 1, 0, 255, 0],
            [1.2, 1, 1.3, 0, 255, 255],
            [1.2, 1, 1.4, 0, 255, 255],
            [1.2, 1, 1.5, 0, 0, 255],
            [1.2, 1, 1.1, 0, 0, 255],
            [1.2, 1, 0.9, 0, 0, 255],
        ]
    )
)})

wandb.log({"protein": wandb.Molecule("6lu7.pdb")})

10 個のファイルタイプ ( pdb、pqr、mmcif、mcif、cif、sdf、sd、gro、mol2、または mmtf) のいずれかで分子データをログ記録します。

W&B は、SMILES 文字列、rdkit mol ファイル、および rdkit.Chem.rdchem.Mol オブジェクトからの分子データのログ記録もサポートしています。

resveratrol = rdkit.Chem.MolFromSmiles("Oc1ccc(cc1)C=Cc1cc(O)cc(c1)O")

wandb.log(
    {
        "resveratrol": wandb.Molecule.from_rdkit(resveratrol),
        "green fluorescent protein": wandb.Molecule.from_rdkit("2b3p.mol"),
        "acetaminophen": wandb.Molecule.from_smiles("CC(=O)Nc1ccc(O)cc1"),
    }
)

run が終了すると、UI で分子の 3D 可視化を操作できるようになります。

AlphaFold を使用したライブ例を見る

PNG 画像

wandb.Image は、デフォルトで numpy 配列または PILImage のインスタンスを PNG に変換します。

wandb.log({"example": wandb.Image(...)})
# Or multiple images
wandb.log({"example": [wandb.Image(...) for img in images]})

動画

動画は、wandb.Video データ型を使用してログ記録されます。

wandb.log({"example": wandb.Video("myvideo.mp4")})

これで、メディアブラウザーで動画を表示できます。プロジェクトワークスペース、 run ワークスペース、またはレポートに移動し、[可視化を追加] をクリックして、リッチメディアパネルを追加します。

分子の 2D 表示

wandb.Image データ型と rdkit を使用して、分子の 2D 表示をログ記録できます。

molecule = rdkit.Chem.MolFromSmiles("CC(=O)O")
rdkit.Chem.AllChem.Compute2DCoords(molecule)
rdkit.Chem.AllChem.GenerateDepictionMatching2DStructure(molecule, molecule)
pil_image = rdkit.Chem.Draw.MolToImage(molecule, size=(300, 300))

wandb.log({"acetic_acid": wandb.Image(pil_image)})

その他のメディア

W&B は、さまざまなその他のメディアタイプのログ記録もサポートしています。

音声

wandb.log({"whale songs": wandb.Audio(np_array, caption="OooOoo", sample_rate=32)})

ステップごとに最大 100 個のオーディオクリップをログ記録できます。詳細な使用方法については、audio-fileを参照してください。

動画

wandb.log({"video": wandb.Video(numpy_array_or_path_to_video, fps=4, format="gif")})

numpy 配列が指定されている場合、次元は時間、チャンネル、幅、高さの順であると想定されます。デフォルトでは、4 fps の gif 画像を作成します (ffmpeg および moviepy python ライブラリは、numpy オブジェクトを渡す場合に必要です)。サポートされている形式は、"gif"、"mp4"、"webm"、および "ogg" です。文字列を wandb.Video に渡すと、ファイルが存在し、サポートされている形式であることをアサートしてから、wandb にアップロードします。BytesIO オブジェクトを渡すと、指定された形式を拡張子として持つ一時ファイルが作成されます。

W&B Run ページと Project ページでは、[メディア] セクションに動画が表示されます。

詳細な使用方法については、video-fileを参照してください。

テキスト

wandb.Table を使用して、UI に表示されるテーブルにテキストをログ記録します。デフォルトでは、列ヘッダーは ["Input", "Output", "Expected"] です。最適な UI パフォーマンスを確保するために、デフォルトの最大行数は 10,000 に設定されています。ただし、ユーザーは wandb.Table.MAX_ROWS = {DESIRED_MAX} を使用して、最大値を明示的にオーバーライドできます。

columns = ["Text", "Predicted Sentiment", "True Sentiment"]
# Method 1
data = [["I love my phone", "1", "1"], ["My phone sucks", "0", "-1"]]
table = wandb.Table(data=data, columns=columns)
wandb.log({"examples": table})

# Method 2
table = wandb.Table(columns=columns)
table.add_data("I love my phone", "1", "1")
table.add_data("My phone sucks", "0", "-1")
wandb.log({"examples": table})

pandas DataFrame オブジェクトを渡すこともできます。

table = wandb.Table(dataframe=my_dataframe)

詳細な使用方法については、stringを参照してください。

HTML

wandb.log({"custom_file": wandb.Html(open("some.html"))})
wandb.log({"custom_string": wandb.Html('<a href="https://mysite">Link</a>')})

カスタム HTML は任意のキーでログ記録でき、これにより、 run ページに HTML パネルが表示されます。デフォルトでは、デフォルトのスタイルが挿入されます。inject=False を渡すことで、デフォルトのスタイルをオフにすることができます。

wandb.log({"custom_file": wandb.Html(open("some.html"), inject=False)})

詳細な使用方法については、html-fileを参照してください。

[i18n] feedback_title

[i18n] feedback_question

Glad to hear it! Please tell us how we can improve.

Sorry to hear that. Please tell us how we can improve.

最終更新 April 3, 2025

ページの編集ドキュメントのissueを作成セクション全体を印刷

Log media and objects

事前準備

画像

画像 オーバーレイ

テーブル の画像 オーバーレイ

ヒストグラム

3D 可視化

NumPy 配列形式

Python オブジェクト

ポイントクラウド ファイル

NumPy 配列

PNG 画像

動画

分子の 2D 表示

その他のメディア

音声

動画

テキスト

HTML

[i18n] feedback_title

画像オーバーレイ

テーブルの画像オーバーレイ

ポイントクラウドファイル