これは、このセクションの複数ページの印刷可能なビューです。印刷するには、ここをクリックしてください.

Query panels

このページのいくつかの機能はベータ版で、機能フラグの背後に隠されています。関連するすべての機能をアンロックするには、プロフィールページの自己紹介に weave-plot を追加してください。

1: Embed objects

W&B Weave をお探しですか? 生成 AI アプリケーション構築のための W&B のツールスイートですか? Weave のドキュメントはこちらにあります: wandb.me/weave。

クエリーパネルを使用して、データをクエリーし、インタラクティブに視覚化します。

クエリーパネルの作成

ワークスペースまたはレポート内にクエリーを追加します。

プロジェクトのワークスペースに移動します。
右上隅にある「Add panel（パネルを追加）」をクリックします。
ドロップダウンから「Query panel（クエリーパネル）」を選択します。

「/Query panel（/クエリーパネル）」と入力して選択します。

または、クエリーを一連の Runs に関連付けることもできます。

レポート内で、「/Panel grid（/ パネルグリッド）」と入力して選択します。
「Add panel（パネルを追加）」ボタンをクリックします。
ドロップダウンから「Query panel（クエリーパネル）」を選択します。

クエリーのコンポーネント

式

クエリー式を使用して、Runs、Artifacts、Models、Tables など、W&B に保存されているデータをクエリーします。

例: テーブルのクエリー

W&B Table をクエリーするとします。トレーニングコードで、"cifar10_sample_table"というテーブルをログに記録します。

import wandb
wandb.log({"cifar10_sample_table":<MY_TABLE>})

クエリーパネル内では、次のコードでテーブルをクエリーできます。

runs.summary["cifar10_sample_table"]

これを分解すると次のようになります。

runs は、クエリーパネルがワークスペースにある場合、クエリーパネル式に自動的に挿入される変数です。その「値」は、特定のワークスペースで表示できる Runs のリストです。 run で使用できるさまざまな属性については、こちらをお読みください。
summary は、Run の Summary オブジェクトを返す op です。 Op は mapped です。つまり、この op はリスト内の各 Run に適用され、Summary オブジェクトのリストが生成されます。
["cifar10_sample_table"] は、predictions というパラメータを持つ Pick op（角かっこで示されます）です。 Summary オブジェクトはディクショナリーまたはマップのように動作するため、この操作は各 Summary オブジェクトから predictions フィールドを選択します。

独自のクエリーをインタラクティブに作成する方法については、このレポートを参照してください。

設定

パネルの左上隅にある歯車アイコンを選択して、クエリー設定を展開します。これにより、ユーザーはパネルのタイプと、結果パネルのパラメータを設定できます。

結果パネル

最後に、クエリー結果パネルは、選択したクエリーパネルを使用して、クエリー式の結果をレンダリングし、データをインタラクティブな形式で表示するように設定によって設定されます。次の画像は、同じデータの Table とプロットを示しています。

基本操作

クエリーパネル内で実行できる一般的な操作を次に示します。

並べ替え

列オプションから並べ替えを行います。

フィルター

クエリーで直接フィルターするか、左上隅にあるフィルターボタンを使用できます（2 番目の画像）。

マップ

マップ操作はリストを反復処理し、データ内の各要素に関数を適用します。これは、パネルクエリーで直接行うか、列オプションから新しい列を挿入して行うことができます。

グループ化

クエリーまたは列オプションを使用してグループ化できます。

連結

連結操作を使用すると、2 つのテーブルを連結し、パネル設定から連結または結合できます。

結合

クエリーでテーブルを直接結合することも可能です。次のクエリー式を検討してください。

project("luis_team_test", "weave_example_queries").runs.summary["short_table_0"].table.rows.concat.join(\
project("luis_team_test", "weave_example_queries").runs.summary["short_table_1"].table.rows.concat,\
(row) => row["Label"],(row) => row["Label"], "Table1", "Table2",\
"false", "false")

左側のテーブルは、次のように生成されます。

project("luis_team_test", "weave_example_queries").\
runs.summary["short_table_0"].table.rows.concat.join

右側のテーブルは、次のように生成されます。

project("luis_team_test", "weave_example_queries").\
runs.summary["short_table_1"].table.rows.concat

説明:

(row) => row["Label"] は各テーブルのセレクターであり、結合する列を決定します
"Table1" と "Table2" は、結合時の各テーブルの名前です
true と false は、左側の内部/外部結合設定用です

Runs オブジェクト

クエリーパネルを使用して runs オブジェクトにアクセスします。 Run オブジェクトは、 Experiments のレコードを保存します。詳細については、レポートのこのセクションを参照してください。簡単にまとめると、runs オブジェクトには次のものが含まれます。

summary: Run の結果をまとめた情報のディクショナリー。これは、精度や損失などのスカラー、または大きなファイルにすることができます。デフォルトでは、wandb.log() は Summary をログに記録された時系列の最終値に設定します。 Summary の内容を直接設定できます。 Summary を Run の出力として考えてください。
history: 損失など、モデルのトレーニング中に変化する値を保存するためのディクショナリーのリスト。コマンド wandb.log() はこのオブジェクトに追加されます。
config: トレーニング Run のハイパーパラメーターや、データセット Artifact を作成する Run の前処理メソッドなど、Run の設定情報のディクショナリー。これらを Run の「入力」と考えてください。

Artifacts へのアクセス

Artifacts は W&B の中核となる概念です。これらは、バージョン管理された名前付きのファイルとディレクトリーのコレクションです。 Artifacts を使用して、モデルの重み、データセット、およびその他のファイルまたはディレクトリーを追跡します。 Artifacts は W&B に保存され、ダウンロードしたり、他の Runs で使用したりできます。詳細と例については、レポートのこのセクションを参照してください。 Artifacts には通常、project オブジェクトからアクセスします。

project.artifactVersion(): プロジェクト内の指定された名前とバージョンの特定の Artifact バージョンを返します。
project.artifact(""): プロジェクト内の指定された名前の Artifact を返します。次に、.versions を使用して、この Artifact のすべてのバージョンのリストを取得できます。
project.artifactType(): プロジェクト内の指定された名前の artifactType を返します。次に、.artifacts を使用して、このタイプのすべての Artifacts のリストを取得できます。
project.artifactTypes: プロジェクト下にあるすべての Artifact タイプのリストを返します。

1 - Embed objects

W&B の Embedding Projector を使用すると、PCA、UMAP、t-SNE などの一般的な次元削減アルゴリズムを使用して、多次元埋め込みを 2D 平面にプロットできます。

埋め込みは、オブジェクト（人、画像、投稿、単語など）を数値のリスト、つまり ベクトル で表現するために使用されます。機械学習とデータサイエンスのユースケースでは、埋め込みは、さまざまなアプリケーションでさまざまなアプローチを使用して生成できます。このページでは、読者が埋め込みについてよく理解しており、W&B 内で視覚的に分析することに関心があることを前提としています。

埋め込みの例

Hello World

W&B を使用すると、wandb.Table クラスを使用して埋め込みをログに記録できます。それぞれが 5 次元で構成される 3 つの埋め込みの次の例を考えてみましょう。

import wandb

wandb.init(project="embedding_tutorial")
embeddings = [
    # D1   D2   D3   D4   D5
    [0.2, 0.4, 0.1, 0.7, 0.5],  # 埋め込み 1
    [0.3, 0.1, 0.9, 0.2, 0.7],  # 埋め込み 2
    [0.4, 0.5, 0.2, 0.2, 0.1],  # 埋め込み 3
]
wandb.log(
    {"embeddings": wandb.Table(columns=["D1", "D2", "D3", "D4", "D5"], data=embeddings)}
)
wandb.finish()

上記のコードを実行すると、W&B ダッシュボードにデータを含む新しい Table が表示されます。右上のパネルセレクターから [2D Projection] を選択して、埋め込みを 2 次元でプロットできます。スマートデフォルトが自動的に選択されます。これは、歯車アイコンをクリックしてアクセスできる設定メニューで簡単にオーバーライドできます。この例では、利用可能な 5 つの数値次元すべてを自動的に使用します。

Digits MNIST

上記の例は、埋め込みをログに記録する基本的なメカニズムを示していますが、通常はより多くの次元とサンプルを扱っています。 MNIST Digits データセット(UCI ML 手書き数字データセット s) について考えてみましょう。SciKit-Learn 経由で利用できます。このデータセットには 1797 件のレコードがあり、それぞれに 64 の次元があります。この問題は、10 クラス分類のユースケースです。入力データを画像に変換して、可視化することもできます。

import wandb
from sklearn.datasets import load_digits

wandb.init(project="embedding_tutorial")

# データセットをロードする
ds = load_digits(as_frame=True)
df = ds.data

# 「target」列を作成する
df["target"] = ds.target.astype(str)
cols = df.columns.tolist()
df = df[cols[-1:] + cols[:-1]]

# 「image」列を作成する
df["image"] = df.apply(
    lambda row: wandb.Image(row[1:].values.reshape(8, 8) / 16.0), axis=1
)
cols = df.columns.tolist()
df = df[cols[-1:] + cols[:-1]]

wandb.log({"digits": df})
wandb.finish()

上記のコードを実行すると、再び UI に Table が表示されます。 [2D Projection] を選択すると、埋め込みの定義、色付け、アルゴリズム (PCA、UMAP、t-SNE)、アルゴリズムのパラメータ、さらにはオーバーレイ (この場合は、ポイントにカーソルを合わせると画像が表示されます) を設定できます。この特定のケースでは、これらはすべて「スマートデフォルト」であり、[2D Projection] を 1 回クリックすると、非常によく似たものが表示されます。 (ここをクリックして操作この例を参照してください)。

ログ記録のオプション

埋め込みは、さまざまな形式でログに記録できます。

単一の埋め込み列: 多くの場合、データはすでに「マトリックス」のような形式になっています。この場合、単一の埋め込み列を作成できます。ここで、セル値のデータ型は list[int]、list[float]、または np.ndarray になります。
複数の数値列: 上記の 2 つの例では、このアプローチを使用し、次元ごとに列を作成します。現在、セルには python int または float を使用できます。

Single Embedding Column Many Numeric Columns

さらに、すべてのテーブルと同様に、テーブルの構築方法に関して多くのオプションがあります。

wandb.Table(dataframe=df) を使用して dataframe から直接
wandb.Table(data=[...], columns=[...]) を使用して データのリスト から直接
テーブルを 行ごとに (コードにループがある場合に最適) 段階的に構築 します。 table.add_data(...) を使用してテーブルに行を追加します
テーブルに 埋め込み列 を追加します (埋め込み形式の予測のリストがある場合に最適)。 table.add_col("col_name", ...)
計算された列 を追加します (テーブルにマップする関数または model がある場合に最適)。 table.add_computed_columns(lambda row, ndx: {"embedding": model.predict(row)})

プロットオプション

[2D Projection] を選択した後、歯車アイコンをクリックしてレンダリング設定を編集できます。目的の列を選択することに加えて (上記を参照)、目的のアルゴリズム (および目的のパラメータ) を選択できます。以下に、それぞれ UMAP と t-SNE のパラメータを示します。

注: 現在、3 つのアルゴリズムすべてで、ランダムなサブセットの 1000 行と 50 次元にダウンサンプリングしています。