This is the multi-page printable view of this section.
Click here to print.
Return to the regular view of this page.
Artifacts
W&B Artifacts 에 대한 개요, 작동 방식, Artifacts 사용 시작 방법
W&B Artifacts를 사용하여 데이터를 W&B Runs의 입력 및 출력으로 추적하고 버전을 관리하세요. 예를 들어, 모델 트레이닝 run은 데이터셋을 입력으로 사용하고 트레이닝된 모델을 출력으로 생성할 수 있습니다. 하이퍼파라미터, 메타데이터, 메트릭을 run에 기록하고, 아티팩트를 사용하여 모델 트레이닝에 사용된 데이터셋을 입력으로, 결과 모델 체크포인트를 출력으로 기록, 추적 및 버전 관리할 수 있습니다.
유스 케이스
runs의 입력 및 출력으로 전체 ML 워크플로우에서 아티팩트를 사용할 수 있습니다. 데이터셋, 모델 또는 기타 아티팩트를 처리 입력으로 사용할 수 있습니다.
유스 케이스 |
입력 |
출력 |
모델 트레이닝 |
데이터셋 (트레이닝 및 검증 데이터) |
트레이닝된 모델 |
데이터셋 전처리 |
데이터셋 (raw 데이터) |
데이터셋 (전처리된 데이터) |
모델 평가 |
모델 + 데이터셋 (테스트 데이터) |
W&B Table |
모델 최적화 |
모델 |
최적화된 모델 |
다음 코드 조각은 순서대로 실행해야 합니다.
아티팩트 만들기
다음 네 줄의 코드로 아티팩트를 만드세요:
- W&B run을 만듭니다.
wandb.Artifact
API로 아티팩트 오브젝트를 만듭니다.
- 모델 파일 또는 데이터셋과 같은 파일을 아티팩트 오브젝트에 하나 이상 추가합니다.
- 아티팩트를 W&B에 기록합니다.
예를 들어, 다음 코드 조각은 dataset.h5
파일을 example_artifact
라는 아티팩트에 기록하는 방법을 보여줍니다:
import wandb
run = wandb.init(project="artifacts-example", job_type="add-dataset")
artifact = wandb.Artifact(name="example_artifact", type="dataset")
artifact.add_file(local_path="./dataset.h5", name="training_dataset")
artifact.save()
# "my_data" 아티팩트 버전을 dataset.h5의 데이터와 함께 데이터셋으로 기록합니다.
Amazon S3 버킷과 같은 외부 오브젝트 스토리지에 저장된 파일 또는 디렉토리에 대한 참조를 추가하는 방법에 대한 자세한 내용은
외부 파일 추적 페이지를 참조하십시오.
아티팩트 다운로드
use_artifact
메소드를 사용하여 run에 대한 입력으로 표시할 아티팩트를 지정합니다.
이전 코드 조각에 따라 다음 코드 블록은 training_dataset
아티팩트를 사용하는 방법을 보여줍니다.
artifact = run.use_artifact(
"training_dataset:latest"
) # "my_data" 아티팩트를 사용하여 run 오브젝트를 반환합니다.
이것은 아티팩트 오브젝트를 반환합니다.
다음으로, 반환된 오브젝트를 사용하여 아티팩트의 모든 내용을 다운로드합니다.
datadir = (
artifact.download()
) # `my_data` 아티팩트 전체를 기본 디렉토리에 다운로드합니다.
root
파라미터에 사용자 지정 경로를 전달하여 특정 디렉토리에 아티팩트를 다운로드할 수 있습니다. 아티팩트를 다운로드하는 다른 방법과 추가 파라미터를 보려면
아티팩트 다운로드 및 사용 가이드를 참조하세요.
다음 단계
- 아티팩트 버전 관리 및 업데이트 방법에 대해 알아보세요.
- 자동화를 통해 아티팩트 변경에 대한 응답으로 다운스트림 워크플로우를 트리거하거나 Slack 채널에 알리는 방법에 대해 알아보세요.
- 트레이닝된 모델을 보관하는 공간인 레지스트리에 대해 알아보세요.
- Python SDK 및 CLI 참조 가이드를 살펴보세요.
1 - Create an artifact
W&B 아티팩트를 생성하고 구축합니다. 아티팩트에 하나 이상의 파일 또는 URI 참조를 추가하는 방법을 알아봅니다.
W&B Python SDK를 사용하여 W&B Runs에서 Artifacts를 구성합니다. 파일, 디렉토리, URI 및 병렬 Runs의 파일을 Artifacts에 추가할 수 있습니다. Artifact에 파일을 추가한 후 Artifact를 W&B 서버 또는 자체 개인 서버에 저장합니다.
Amazon S3에 저장된 파일과 같은 외부 파일을 추적하는 방법에 대한 자세한 내용은 외부 파일 추적 페이지를 참조하세요.
Artifact를 구성하는 방법
다음 세 단계로 W&B Artifact를 구성합니다.
1. wandb.Artifact()
로 아티팩트 Python 오브젝트를 생성합니다.
wandb.Artifact()
클래스를 초기화하여 아티팩트 오브젝트를 생성합니다. 다음 파라미터를 지정합니다.
- 이름: Artifact 이름을 지정합니다. 이름은 고유하고, 설명적이며, 기억하기 쉬워야 합니다. Artifact 이름을 사용하여 W&B App UI에서 Artifact를 식별하고, 해당 Artifact를 사용하려는 경우에도 Artifact 이름을 사용합니다.
- 유형: 유형을 제공합니다. 유형은 간단하고 설명적이어야 하며, 기계 학습 파이프라인의 단일 단계를 나타내야 합니다. 일반적인 Artifact 유형에는
'dataset'
또는 'model'
이 있습니다.
제공하는 “이름"과 “유형"은 방향성 비순환 그래프를 만드는 데 사용됩니다. 즉, W&B App에서 Artifact의 계보를 볼 수 있습니다.
자세한 내용은 Artifact 그래프 탐색 및 트래버스를 참조하세요.
Artifacts는 types 파라미터에 대해 다른 유형을 지정하더라도 동일한 이름을 가질 수 없습니다. 즉, dataset
유형의 cats
라는 Artifact와 model
유형의 동일한 이름을 가진 다른 Artifact를 만들 수 없습니다.
Artifact 오브젝트를 초기화할 때 선택적으로 설명과 메타데이터를 제공할 수 있습니다. 사용 가능한 속성 및 파라미터에 대한 자세한 내용은 Python SDK 참조 가이드에서 wandb.Artifact
클래스 정의를 참조하세요.
다음 예제는 데이터셋 Artifact를 만드는 방법을 보여줍니다.
import wandb
artifact = wandb.Artifact(name="<replace>", type="<replace>")
이전 코드 조각에서 문자열 인수를 자신의 이름과 유형으로 바꿉니다.
2. Artifact에 파일을 하나 이상 추가합니다.
Artifact 메소드를 사용하여 파일, 디렉토리, 외부 URI 참조 (예: Amazon S3) 등을 추가합니다. 예를 들어, 단일 텍스트 파일을 추가하려면 add_file
메소드를 사용합니다.
artifact.add_file(local_path="hello_world.txt", name="optional-name")
add_dir
메소드를 사용하여 여러 파일을 추가할 수도 있습니다. 파일을 추가하는 방법에 대한 자세한 내용은 Artifact 업데이트를 참조하세요.
3. Artifact를 W&B 서버에 저장합니다.
마지막으로, Artifact를 W&B 서버에 저장합니다. Artifacts는 Run과 연결되어 있습니다. 따라서 Run 오브젝트의 log_artifact()
메소드를 사용하여 Artifact를 저장합니다.
# W&B Run을 생성합니다. 'job-type'을 바꿉니다.
run = wandb.init(project="artifacts-example", job_type="job-type")
run.log_artifact(artifact)
선택적으로 W&B Run 외부에서 Artifact를 구성할 수 있습니다. 자세한 내용은 외부 파일 추적을 참조하세요.
log_artifact
에 대한 호출은 성능이 좋은 업로드를 위해 비동기적으로 수행됩니다. 이로 인해 루프에서 Artifacts를 로깅할 때 예기치 않은 동작이 발생할 수 있습니다. 예를 들어:
for i in range(10):
a = wandb.Artifact(
"race",
type="dataset",
metadata={
"index": i,
},
)
# ... artifact a에 파일 추가 ...
run.log_artifact(a)
Artifact 버전 v0은 Artifacts가 임의의 순서로 로깅될 수 있으므로 메타데이터에 인덱스 0이 있다고 보장되지 않습니다.
Artifact에 파일 추가
다음 섹션에서는 다양한 파일 형식과 병렬 Runs에서 Artifacts를 구성하는 방법을 보여줍니다.
다음 예제에서는 여러 파일과 디렉토리 구조가 있는 프로젝트 디렉토리가 있다고 가정합니다.
project-directory
|-- images
| |-- cat.png
| +-- dog.png
|-- checkpoints
| +-- model.h5
+-- model.h5
단일 파일 추가
다음 코드 조각은 단일 로컬 파일을 Artifact에 추가하는 방법을 보여줍니다.
# 단일 파일 추가
artifact.add_file(local_path="path/file.format")
예를 들어, 작업 로컬 디렉토리에 'file.txt'
라는 파일이 있다고 가정합니다.
artifact.add_file("path/file.txt") # `file.txt`로 추가됨
이제 Artifact에 다음 콘텐츠가 있습니다.
file.txt
선택적으로 name
파라미터에 대해 Artifact 내에서 원하는 경로를 전달합니다.
artifact.add_file(local_path="path/file.format", name="new/path/file.format")
Artifact는 다음과 같이 저장됩니다.
new/path/file.txt
API 호출 |
결과 Artifact |
artifact.add_file('model.h5') |
model.h5 |
artifact.add_file('checkpoints/model.h5') |
model.h5 |
artifact.add_file('model.h5', name='models/mymodel.h5') |
models/mymodel.h5 |
여러 파일 추가
다음 코드 조각은 전체 로컬 디렉토리를 Artifact에 추가하는 방법을 보여줍니다.
# 디렉토리를 재귀적으로 추가합니다.
artifact.add_dir(local_path="path/file.format", name="optional-prefix")
다음 API 호출은 다음 Artifact 콘텐츠를 생성합니다.
API 호출 |
결과 Artifact |
artifact.add_dir('images') |
cat.png
dog.png
|
artifact.add_dir('images', name='images') |
images/cat.png
images/dog.png
|
artifact.new_file('hello.txt') |
hello.txt |
URI 참조 추가
Artifacts는 W&B 라이브러리가 처리 방법을 알고 있는 스키마가 URI에 있는 경우 재현성을 위해 체크섬 및 기타 정보를 추적합니다.
add_reference
메소드를 사용하여 외부 URI 참조를 Artifact에 추가합니다. 'uri'
문자열을 자신의 URI로 바꿉니다. 선택적으로 name 파라미터에 대해 Artifact 내에서 원하는 경로를 전달합니다.
# URI 참조 추가
artifact.add_reference(uri="uri", name="optional-name")
Artifacts는 현재 다음 URI 스키마를 지원합니다.
http(s)://
: HTTP를 통해 액세스할 수 있는 파일의 경로입니다. Artifact는 HTTP 서버가 ETag
및 Content-Length
응답 헤더를 지원하는 경우 etag 형식의 체크섬과 크기 메타데이터를 추적합니다.
s3://
: S3의 오브젝트 또는 오브젝트 접두사의 경로입니다. Artifact는 참조된 오브젝트에 대해 체크섬 및 버전 관리 정보(버킷에 오브젝트 버전 관리가 활성화된 경우)를 추적합니다. 오브젝트 접두사는 최대 10,000개의 오브젝트까지 접두사 아래의 오브젝트를 포함하도록 확장됩니다.
gs://
: GCS의 오브젝트 또는 오브젝트 접두사의 경로입니다. Artifact는 참조된 오브젝트에 대해 체크섬 및 버전 관리 정보(버킷에 오브젝트 버전 관리가 활성화된 경우)를 추적합니다. 오브젝트 접두사는 최대 10,000개의 오브젝트까지 접두사 아래의 오브젝트를 포함하도록 확장됩니다.
다음 API 호출은 다음 Artifacts를 생성합니다.
API 호출 |
결과 Artifact 콘텐츠 |
artifact.add_reference('s3://my-bucket/model.h5') |
model.h5 |
artifact.add_reference('s3://my-bucket/checkpoints/model.h5') |
model.h5 |
artifact.add_reference('s3://my-bucket/model.h5', name='models/mymodel.h5') |
models/mymodel.h5 |
artifact.add_reference('s3://my-bucket/images') |
cat.png
dog.png
|
artifact.add_reference('s3://my-bucket/images', name='images') |
images/cat.png
images/dog.png
|
병렬 Runs에서 Artifacts에 파일 추가
대규모 데이터셋 또는 분산 트레이닝의 경우 여러 병렬 Runs가 단일 Artifact에 기여해야 할 수 있습니다.
import wandb
import time
# 데모 목적으로 ray를 사용하여 Runs를 병렬로 시작합니다.
# 원하는 방식으로 병렬 Runs를 오케스트레이션할 수 있습니다.
import ray
ray.init()
artifact_type = "dataset"
artifact_name = "parallel-artifact"
table_name = "distributed_table"
parts_path = "parts"
num_parallel = 5
# 병렬 작성기의 각 배치는 자체 고유한 그룹 이름을 가져야 합니다.
group_name = "writer-group-{}".format(round(time.time()))
@ray.remote
def train(i):
"""
작성기 작업입니다. 각 작성기는 Artifact에 이미지를 하나 추가합니다.
"""
with wandb.init(group=group_name) as run:
artifact = wandb.Artifact(name=artifact_name, type=artifact_type)
# 데이터를 wandb 테이블에 추가합니다. 이 경우 예제 데이터를 사용합니다.
table = wandb.Table(columns=["a", "b", "c"], data=[[i, i * 2, 2**i]])
# Artifact의 폴더에 테이블을 추가합니다.
artifact.add(table, "{}/table_{}".format(parts_path, i))
# Artifact를 업서트하면 Artifact에 데이터를 만들거나 추가합니다.
run.upsert_artifact(artifact)
# 병렬로 Runs를 시작합니다.
result_ids = [train.remote(i) for i in range(num_parallel)]
# 모든 작성기가 완료되었는지 확인하기 위해 모든 작성기에 조인합니다.
# Artifact를 완료하기 전에 파일이 추가되었습니다.
ray.get(result_ids)
# 모든 작성기가 완료되면 Artifact를 완료합니다.
# 준비되었음을 표시합니다.
with wandb.init(group=group_name) as run:
artifact = wandb.Artifact(artifact_name, type=artifact_type)
# 테이블 폴더를 가리키는 "PartitionTable"을 만듭니다.
# Artifact에 추가합니다.
artifact.add(wandb.data_types.PartitionedTable(parts_path), table_name)
# Finish artifact는 Artifact를 완료하고 향후 "upserts"를 허용하지 않습니다.
# 이 버전으로.
run.finish_artifact(artifact)
2 - Download and use artifacts
여러 프로젝트에서 아티팩트 를 다운로드하고 사용하세요.
W&B 서버에 이미 저장된 Artifacts를 다운로드하여 사용하거나, 필요에 따라 중복 제거를 위해 Artifact 오브젝트를 생성하여 전달합니다.
보기 전용 권한을 가진 팀 멤버는 Artifacts를 다운로드할 수 없습니다.
W&B에 저장된 Artifacts 다운로드 및 사용
W&B Run 내부 또는 외부에서 W&B에 저장된 Artifacts를 다운로드하여 사용합니다. W&B에 이미 저장된 데이터를 내보내거나 업데이트하려면 퍼블릭 API (wandb.Api
)를 사용하세요. 자세한 내용은 W&B 퍼블릭 API 레퍼런스 가이드를 참조하세요.
먼저 W&B Python SDK를 임포트합니다. 다음으로 W&B Run을 생성합니다.
import wandb
run = wandb.init(project="<example>", job_type="<job-type>")
use_artifact
메서드를 사용하여 사용하려는 Artifact를 지정합니다. 그러면 run 오브젝트가 반환됩니다. 다음 코드 조각은 에일리어스 'latest'
를 가진 'bike-dataset'
이라는 Artifact를 지정합니다.
artifact = run.use_artifact("bike-dataset:latest")
반환된 오브젝트를 사용하여 Artifact의 모든 내용을 다운로드합니다.
datadir = artifact.download()
선택적으로 root
파라미터에 경로를 전달하여 Artifact의 내용을 특정 디렉토리로 다운로드할 수 있습니다. 자세한 내용은 Python SDK 레퍼런스 가이드를 참조하세요.
파일의 서브셋만 다운로드하려면 get_path
메서드를 사용하세요.
path = artifact.get_path(name)
이것은 name
경로에 있는 파일만 가져옵니다. 다음과 같은 메서드를 가진 Entry
오브젝트를 반환합니다.
Entry.download
: name
경로에 있는 Artifact에서 파일을 다운로드합니다.
Entry.ref
: add_reference
가 항목을 참조로 저장한 경우 URI를 반환합니다.
W&B가 처리하는 방법을 아는 스키마가 있는 참조는 Artifact 파일처럼 다운로드됩니다. 자세한 내용은 외부 파일 추적을 참조하세요.
먼저 W&B SDK를 임포트합니다. 다음으로 퍼블릭 API 클래스에서 Artifact를 생성합니다. 해당 Artifact와 연결된 엔티티, 프로젝트, Artifact 및 에일리어스를 제공합니다.
import wandb
api = wandb.Api()
artifact = api.artifact("entity/project/artifact:alias")
반환된 오브젝트를 사용하여 Artifact의 내용을 다운로드합니다.
선택적으로 root
파라미터에 경로를 전달하여 Artifact의 내용을 특정 디렉토리로 다운로드할 수 있습니다. 자세한 내용은 API 레퍼런스 가이드를 참조하세요.
wandb artifact get
코맨드를 사용하여 W&B 서버에서 Artifact를 다운로드합니다.
$ wandb artifact get project/artifact:alias --root mnist/
Artifact 부분 다운로드
선택적으로 접두사를 기반으로 Artifact의 일부를 다운로드할 수 있습니다. path_prefix
파라미터를 사용하면 단일 파일 또는 하위 폴더의 콘텐츠를 다운로드할 수 있습니다.
artifact = run.use_artifact("bike-dataset:latest")
artifact.download(path_prefix="bike.png") # bike.png만 다운로드
또는 특정 디렉토리에서 파일을 다운로드할 수 있습니다.
artifact.download(path_prefix="images/bikes/") # images/bikes 디렉토리의 파일 다운로드
다른 프로젝트의 Artifact 사용
Artifact 이름과 함께 프로젝트 이름을 지정하여 Artifact를 참조합니다. Artifact 이름과 함께 엔티티 이름을 지정하여 엔티티 간에 Artifacts를 참조할 수도 있습니다.
다음 코드 예제는 다른 프로젝트의 Artifact를 현재 W&B run에 대한 입력으로 쿼리하는 방법을 보여줍니다.
import wandb
run = wandb.init(project="<example>", job_type="<job-type>")
# 다른 프로젝트의 Artifact에 대해 W&B를 쿼리하고 다음으로 표시합니다.
# 이 run에 대한 입력입니다.
artifact = run.use_artifact("my-project/artifact:alias")
# 다른 엔티티의 Artifact를 사용하고 이를 입력으로 표시합니다.
# 이 run에.
artifact = run.use_artifact("my-entity/my-project/artifact:alias")
Artifact를 동시에 구성하고 사용
Artifact를 동시에 구성하고 사용합니다. Artifact 오브젝트를 생성하고 use_artifact에 전달합니다. 이렇게 하면 아직 존재하지 않는 경우 W&B에 Artifact가 생성됩니다. use_artifact
API는 idempotent이므로 원하는 만큼 여러 번 호출할 수 있습니다.
import wandb
artifact = wandb.Artifact("reference model")
artifact.add_file("model.h5")
run.use_artifact(artifact)
Artifact 구성에 대한 자세한 내용은 Artifact 구성을 참조하세요.
3 - Update an artifact
W&B Run 안팎에서 기존 아티팩트 를 업데이트합니다.
원하는 값을 전달하여 아티팩트의 description
, metadata
, 그리고 alias
를 업데이트하세요. W&B 서버에서 아티팩트를 업데이트하려면 save()
메서드를 호출하세요. W&B Run 도중 또는 Run 외부에서 아티팩트를 업데이트할 수 있습니다.
Run 외부에서 아티팩트를 업데이트하려면 W&B Public API(wandb.Api
)를 사용하세요. Run 도중에 아티팩트를 업데이트하려면 Artifact API(wandb.Artifact
)를 사용하세요.
Model Registry의 모델에 연결된 아티팩트의 에일리어스 는 업데이트할 수 없습니다.
다음 코드 예제는 wandb.Artifact
API를 사용하여 아티팩트의 설명을 업데이트하는 방법을 보여줍니다:
import wandb
run = wandb.init(project="<example>")
artifact = run.use_artifact("<artifact-name>:<alias>")
artifact.description = "<description>"
artifact.save()
다음 코드 예제는 wandb.Api
API를 사용하여 아티팩트의 설명을 업데이트하는 방법을 보여줍니다:
import wandb
api = wandb.Api()
artifact = api.artifact("entity/project/artifact:alias")
# Update the description
artifact.description = "My new description"
# Selectively update metadata keys
artifact.metadata["oldKey"] = "new value"
# Replace the metadata entirely
artifact.metadata = {"newKey": "new value"}
# Add an alias
artifact.aliases.append("best")
# Remove an alias
artifact.aliases.remove("latest")
# Completely replace the aliases
artifact.aliases = ["replaced"]
# Persist all artifact modifications
artifact.save()
자세한 내용은 Weights and Biases Artifact API를 참조하십시오.
단일 아티팩트와 같은 방식으로 Artifact 컬렉션을 업데이트할 수도 있습니다:
import wandb
run = wandb.init(project="<example>")
api = wandb.Api()
artifact = api.artifact_collection(type="<type-name>", collection="<collection-name>")
artifact.name = "<new-collection-name>"
artifact.description = "<This is where you'd describe the purpose of your collection.>"
artifact.save()
자세한 내용은 Artifacts Collection 레퍼런스를 참조하십시오.
4 - Create an artifact alias
W&B Artifacts에 대한 사용자 지정 에일리어스를 만드세요.
에일리어스를 특정 버전의 포인터로 사용하세요. 기본적으로 Run.log_artifact
는 기록된 버전에 latest
에일리어스를 추가합니다.
아티팩트를 처음 기록할 때 아티팩트 버전 v0
가 생성되어 아티팩트에 연결됩니다. W&B는 동일한 아티팩트에 다시 기록할 때 콘텐츠의 체크섬을 계산합니다. 아티팩트가 변경되면 W&B는 새 버전 v1
을 저장합니다.
예를 들어, 트레이닝 스크립트가 데이터셋의 최신 버전을 가져오도록 하려면 해당 아티팩트를 사용할 때 latest
를 지정하세요. 다음 코드 예제는 latest
라는 에일리어스가 있는 bike-dataset
이라는 최신 데이터셋 아티팩트를 다운로드하는 방법을 보여줍니다.
import wandb
run = wandb.init(project="<example-project>")
artifact = run.use_artifact("bike-dataset:latest")
artifact.download()
사용자 지정 에일리어스를 아티팩트 버전에 적용할 수도 있습니다. 예를 들어, 해당 모델 체크포인트가 AP-50 메트릭에서 가장 좋다고 표시하려면 모델 아티팩트를 기록할 때 문자열 'best-ap50'
을 에일리어스로 추가하면 됩니다.
artifact = wandb.Artifact("run-3nq3ctyy-bike-model", type="model")
artifact.add_file("model.h5")
run.log_artifact(artifact, aliases=["latest", "best-ap50"])
5 - Create an artifact version
단일 run 또는 분산된 process 에서 새로운 아티팩트 버전을 만드세요.
단일 run에서 또는 분산된 run과 협업하여 새로운 아티팩트 버전을 만드세요. 선택적으로 증분 아티팩트라고 알려진 이전 버전에서 새로운 아티팩트 버전을 만들 수 있습니다.
원래 아티팩트의 크기가 상당히 큰 경우 아티팩트에서 파일의 서브셋에 변경 사항을 적용해야 할 때 증분 아티팩트를 만드는 것이 좋습니다.
처음부터 새로운 아티팩트 버전 만들기
새로운 아티팩트 버전을 만드는 방법에는 단일 run에서 만드는 방법과 분산된 run에서 만드는 두 가지 방법이 있습니다. 이들은 다음과 같이 정의됩니다.
- 단일 run: 단일 run은 새로운 버전에 대한 모든 데이터를 제공합니다. 이것은 가장 일반적인 경우이며, run이 필요한 데이터를 완전히 재 생성할 때 가장 적합합니다. 예를 들어, 분석을 위해 테이블에 저장된 모델 또는 모델 예측값을 출력합니다.
- 분산된 run: run 집합이 공동으로 새로운 버전에 대한 모든 데이터를 제공합니다. 이것은 여러 run이 데이터를 생성하는 분산 작업에 가장 적합하며, 종종 병렬로 수행됩니다. 예를 들어, 분산 방식으로 모델을 평가하고 예측값을 출력합니다.
W&B는 프로젝트에 존재하지 않는 이름을 wandb.Artifact
API에 전달하면 새로운 아티팩트를 생성하고 v0
에일리어스를 할당합니다. 동일한 아티팩트에 다시 로그할 때 W&B는 콘텐츠의 체크섬을 계산합니다. 아티팩트가 변경되면 W&B는 새 버전 v1
을 저장합니다.
W&B는 프로젝트에 있는 기존 아티팩트와 일치하는 이름과 아티팩트 유형을 wandb.Artifact
API에 전달하면 기존 아티팩트를 검색합니다. 검색된 아티팩트의 버전은 1보다 큽니다.
단일 run
아티팩트의 모든 파일을 생성하는 단일 run으로 Artifact의 새 버전을 기록합니다. 이 경우는 단일 run이 아티팩트의 모든 파일을 생성할 때 발생합니다.
유스 케이스에 따라 아래 탭 중 하나를 선택하여 run 내부 또는 외부에서 새로운 아티팩트 버전을 만드세요.
W&B run 내에서 아티팩트 버전을 만듭니다.
wandb.init
으로 run을 만듭니다.
wandb.Artifact
로 새로운 아티팩트를 만들거나 기존 아티팩트를 검색합니다.
.add_file
로 아티팩트에 파일을 추가합니다.
.log_artifact
로 아티팩트를 run에 기록합니다.
with wandb.init() as run:
artifact = wandb.Artifact("artifact_name", "artifact_type")
# `.add`, `.add_file`, `.add_dir`, and `.add_reference`를 사용하여
# 아티팩트에 파일 및 에셋을 추가합니다.
artifact.add_file("image1.png")
run.log_artifact(artifact)
W&B run 외부에서 아티팩트 버전을 만듭니다.
wanb.Artifact
로 새로운 아티팩트를 만들거나 기존 아티팩트를 검색합니다.
.add_file
로 아티팩트에 파일을 추가합니다.
.save
로 아티팩트를 저장합니다.
artifact = wandb.Artifact("artifact_name", "artifact_type")
# `.add`, `.add_file`, `.add_dir`, and `.add_reference`를 사용하여
# 아티팩트에 파일 및 에셋을 추가합니다.
artifact.add_file("image1.png")
artifact.save()
분산된 run
커밋하기 전에 run 컬렉션이 버전에서 공동 작업할 수 있도록 합니다. 이는 하나의 run이 새 버전에 대한 모든 데이터를 제공하는 위에서 설명한 단일 run 모드와 대조됩니다.
- 컬렉션의 각 run은 동일한 버전에 대해 공동 작업하기 위해 동일한 고유 ID (
distributed_id
라고 함)를 인식해야 합니다. 기본적으로 W&B는 있는 경우 wandb.init(group=GROUP)
에 의해 설정된 run의 group
을 distributed_id
로 사용합니다.
- 해당 상태를 영구적으로 잠그는 버전을 “커밋"하는 최종 run이 있어야 합니다.
- 협업 아티팩트에 추가하려면
upsert_artifact
를 사용하고 커밋을 완료하려면 finish_artifact
를 사용하세요.
다음 예제를 고려하십시오. 서로 다른 run (아래에 Run 1, Run 2 및 Run 3으로 표시됨)은 upsert_artifact
를 사용하여 동일한 아티팩트에 다른 이미지 파일을 추가합니다.
Run 1:
with wandb.init() as run:
artifact = wandb.Artifact("artifact_name", "artifact_type")
# `.add`, `.add_file`, `.add_dir`, and `.add_reference`를 사용하여
# 아티팩트에 파일 및 에셋을 추가합니다.
artifact.add_file("image1.png")
run.upsert_artifact(artifact, distributed_id="my_dist_artifact")
Run 2:
with wandb.init() as run:
artifact = wandb.Artifact("artifact_name", "artifact_type")
# `.add`, `.add_file`, `.add_dir`, and `.add_reference`를 사용하여
# 아티팩트에 파일 및 에셋을 추가합니다.
artifact.add_file("image2.png")
run.upsert_artifact(artifact, distributed_id="my_dist_artifact")
Run 3
Run 1과 Run 2가 완료된 후 실행해야 합니다. finish_artifact
를 호출하는 Run은 아티팩트에 파일을 포함할 수 있지만 필요하지는 않습니다.
with wandb.init() as run:
artifact = wandb.Artifact("artifact_name", "artifact_type")
# 아티팩트에 파일 및 에셋을 추가합니다.
# `.add`, `.add_file`, `.add_dir`, and `.add_reference`
artifact.add_file("image3.png")
run.finish_artifact(artifact, distributed_id="my_dist_artifact")
기존 버전에서 새로운 아티팩트 버전 만들기
변경되지 않은 파일을 다시 인덱싱할 필요 없이 이전 아티팩트 버전에서 파일의 서브셋을 추가, 수정 또는 제거합니다. 이전 아티팩트 버전에서 파일의 서브셋을 추가, 수정 또는 제거하면 증분 아티팩트라고 하는 새로운 아티팩트 버전이 생성됩니다.
다음은 발생할 수 있는 각 유형의 증분 변경에 대한 몇 가지 시나리오입니다.
- add: 새로운 배치를 수집한 후 데이터셋에 새로운 파일 서브셋을 주기적으로 추가합니다.
- remove: 여러 중복 파일을 발견했고 아티팩트에서 제거하고 싶습니다.
- update: 파일 서브셋에 대한 주석을 수정했고 이전 파일을 올바른 파일로 바꾸고 싶습니다.
처음부터 아티팩트를 만들어 증분 아티팩트와 동일한 기능을 수행할 수 있습니다. 그러나 처음부터 아티팩트를 만들면 로컬 디스크에 아티팩트의 모든 콘텐츠가 있어야 합니다. 증분 변경을 수행할 때 이전 아티팩트 버전의 파일을 변경하지 않고도 단일 파일을 추가, 제거 또는 수정할 수 있습니다.
단일 run 또는 run 집합 (분산 모드) 내에서 증분 아티팩트를 만들 수 있습니다.
아래 절차에 따라 아티팩트를 증분 방식으로 변경합니다.
- 증분 변경을 수행할 아티팩트 버전을 가져옵니다.
saved_artifact = run.use_artifact("my_artifact:latest")
client = wandb.Api()
saved_artifact = client.artifact("my_artifact:latest")
- 다음으로 초안을 만듭니다.
draft_artifact = saved_artifact.new_draft()
- 다음 버전에서 보고 싶은 증분 변경 사항을 수행합니다. 기존 항목을 추가, 제거 또는 수정할 수 있습니다.
각 변경을 수행하는 방법에 대한 예제는 다음 탭 중 하나를 선택하십시오.
add_file
메소드를 사용하여 기존 아티팩트 버전에 파일을 추가합니다.
draft_artifact.add_file("file_to_add.txt")
add_dir
메소드를 사용하여 디렉토리를 추가하여 여러 파일을 추가할 수도 있습니다.
remove
메소드를 사용하여 기존 아티팩트 버전에서 파일을 제거합니다.
draft_artifact.remove("file_to_remove.txt")
디렉토리 경로를 전달하여 remove
메소드로 여러 파일을 제거할 수도 있습니다.
초안에서 이전 콘텐츠를 제거하고 새 콘텐츠를 다시 추가하여 콘텐츠를 수정하거나 바꿉니다.
draft_artifact.remove("modified_file.txt")
draft_artifact.add_file("modified_file.txt")
- 마지막으로 변경 사항을 기록하거나 저장합니다. 다음 탭에서는 W&B run 내부 및 외부에서 변경 사항을 저장하는 방법을 보여줍니다. 유스 케이스에 적합한 탭을 선택하세요.
run.log_artifact(draft_artifact)
모두 합치면 위의 코드 예제는 다음과 같습니다.
with wandb.init(job_type="modify dataset") as run:
saved_artifact = run.use_artifact(
"my_artifact:latest"
) # 아티팩트를 가져와서 run에 입력합니다.
draft_artifact = saved_artifact.new_draft() # 초안 버전을 만듭니다.
# 초안 버전에서 파일의 서브셋을 수정합니다.
draft_artifact.add_file("file_to_add.txt")
draft_artifact.remove("dir_to_remove/")
run.log_artifact(
artifact
) # 변경 사항을 기록하여 새 버전을 만들고 run에 대한 출력으로 표시합니다.
client = wandb.Api()
saved_artifact = client.artifact("my_artifact:latest") # 아티팩트를 로드합니다.
draft_artifact = saved_artifact.new_draft() # 초안 버전을 만듭니다.
# 초안 버전에서 파일의 서브셋을 수정합니다.
draft_artifact.remove("deleted_file.txt")
draft_artifact.add_file("modified_file.txt")
draft_artifact.save() # 초안에 변경 사항을 커밋합니다.
6 - Track external files
Amazon S3 버킷, GCS 버킷, HTTP 파일 서버 또는 NFS 공유와 같이 W&B 외부에 저장된 파일을 추적합니다.
reference artifacts 를 사용하여 W&B 시스템 외부 (예: Amazon S3 버킷, GCS 버킷, Azure Blob, HTTP 파일 서버 또는 NFS 공유)에 저장된 파일을 추적합니다. W&B CLI를 사용하여 W&B Run 외부에서 아티팩트를 기록합니다.
Run 외부에서 아티팩트 기록
W&B는 run 외부에서 아티팩트를 기록할 때 run을 생성합니다. 각 아티팩트는 run에 속하며, run은 프로젝트에 속합니다. 아티팩트 (버전)는 컬렉션에도 속하며, 유형이 있습니다.
wandb artifact put
코맨드를 사용하여 W&B run 외부의 W&B 서버에 아티팩트를 업로드합니다. 아티팩트가 속할 프로젝트 이름과 아티팩트 이름 (project/artifact_name
)을 제공합니다. 선택적으로 유형 (TYPE
)을 제공합니다. 아래 코드 조각에서 PATH
를 업로드할 아티팩트의 파일 경로로 바꿉니다.
$ wandb artifact put --name project/artifact_name --type TYPE PATH
지정한 프로젝트가 존재하지 않으면 W&B가 새 프로젝트를 생성합니다. 아티팩트 다운로드 방법에 대한 자세한 내용은 아티팩트 다운로드 및 사용을 참조하세요.
W&B 외부에서 아티팩트 추적
데이터셋 버전 관리 및 모델 이력에 W&B Artifacts를 사용하고, reference artifacts 를 사용하여 W&B 서버 외부에서 저장된 파일을 추적합니다. 이 모드에서 아티팩트는 URL, 크기 및 체크섬과 같은 파일에 대한 메타데이터만 저장합니다. 기본 데이터는 시스템을 벗어나지 않습니다. 파일을 W&B 서버에 저장하는 방법에 대한 자세한 내용은 빠른 시작을 참조하세요.
다음은 reference artifacts 를 구성하는 방법과 이를 워크플로우에 통합하는 가장 좋은 방법을 설명합니다.
Amazon S3 / GCS / Azure Blob Storage 참조
클라우드 스토리지 버킷에서 참조를 추적하기 위해 데이터셋 및 모델 버전 관리에 W&B Artifacts를 사용합니다. 아티팩트 참조를 사용하면 기존 스토리지 레이아웃을 수정하지 않고도 버킷 위에 원활하게 추적 기능을 레이어링할 수 있습니다.
Artifacts는 기본 클라우드 스토리지 공급 업체 (예: AWS, GCP 또는 Azure)를 추상화합니다. 다음 섹션에 설명된 정보는 Amazon S3, Google Cloud Storage 및 Azure Blob Storage에 균일하게 적용됩니다.
W&B Artifacts는 MinIO를 포함한 모든 Amazon S3 호환 인터페이스를 지원합니다. AWS_S3_ENDPOINT_URL
환경 변수를 MinIO 서버를 가리키도록 설정하면 아래 스크립트가 그대로 작동합니다.
다음과 같은 구조의 버킷이 있다고 가정합니다.
s3://my-bucket
+-- datasets/
| +-- mnist/
+-- models/
+-- cnn/
mnist/
아래에 이미지 모음인 데이터셋이 있습니다. 아티팩트로 추적해 보겠습니다.
import wandb
run = wandb.init()
artifact = wandb.Artifact("mnist", type="dataset")
artifact.add_reference("s3://my-bucket/datasets/mnist")
run.log_artifact(artifact)
기본적으로 W&B는 오브젝트 접두사를 추가할 때 10,000개의 오브젝트 제한을 적용합니다. add_reference
호출에서 max_objects=
를 지정하여 이 제한을 조정할 수 있습니다.
새 reference artifact 인 mnist:latest
는 일반 아티팩트와 유사하게 보이고 작동합니다. 유일한 차이점은 아티팩트가 ETag, 크기 및 버전 ID (오브젝트 버전 관리가 버킷에서 활성화된 경우)와 같은 S3/GCS/Azure 오브젝트에 대한 메타데이터로만 구성된다는 것입니다.
W&B는 기본 메커니즘을 사용하여 사용하는 클라우드 공급자를 기반으로 자격 증명을 찾습니다. 사용된 자격 증명에 대한 자세한 내용은 클라우드 공급자의 문서를 참조하십시오.
AWS의 경우 버킷이 구성된 사용자의 기본 리전에 있지 않으면 AWS_REGION
환경 변수를 버킷 리전과 일치하도록 설정해야 합니다.
일반 아티팩트와 유사하게 이 아티팩트와 상호 작용합니다. App UI에서 파일 브라우저를 사용하여 reference artifact 의 내용을 살펴보고 전체 종속성 그래프를 탐색하고 아티팩트의 버전 관리된 기록을 스캔할 수 있습니다.
이미지, 오디오, 비디오 및 포인트 클라우드와 같은 풍부한 미디어는 버킷의 CORS 구성에 따라 App UI에서 렌더링되지 않을 수 있습니다. 버킷의 CORS 설정에서 app.wandb.ai 목록을 허용하면 App UI가 이러한 풍부한 미디어를 적절하게 렌더링할 수 있습니다.
개인 버킷의 경우 패널이 App UI에서 렌더링되지 않을 수 있습니다. 회사에 VPN이 있는 경우 VPN 내에서 IP를 허용하도록 버킷의 엑세스 정책을 업데이트할 수 있습니다.
reference artifact 다운로드
import wandb
run = wandb.init()
artifact = run.use_artifact("mnist:latest", type="dataset")
artifact_dir = artifact.download()
W&B는 아티팩트가 기록될 때 기록된 메타데이터를 사용하여 reference artifact 를 다운로드할 때 기본 버킷에서 파일을 검색합니다. 버킷에서 오브젝트 버전 관리를 활성화한 경우 W&B는 아티팩트가 기록될 당시의 파일 상태에 해당하는 오브젝트 버전을 검색합니다. 즉, 버킷 내용을 발전시키더라도 아티팩트가 트레이닝 당시 버킷의 스냅샷 역할을 하므로 지정된 모델이 트레이닝된 데이터의 정확한 반복을 계속 가리킬 수 있습니다.
워크플로우의 일부로 파일을 덮어쓰는 경우 스토리지 버킷에서 ‘오브젝트 버전 관리’를 활성화하는 것이 좋습니다. 버킷에서 버전 관리를 활성화하면 덮어쓴 파일에 대한 참조가 있는 아티팩트가 이전 오브젝트 버전이 유지되므로 여전히 손상되지 않습니다.
유스 케이스에 따라 오브젝트 버전 관리를 활성화하는 방법에 대한 지침을 읽으십시오. AWS, GCP, Azure.
함께 묶기
다음 코드 예제는 Amazon S3, GCS 또는 Azure에서 트레이닝 작업에 제공되는 데이터셋을 추적하는 데 사용할 수 있는 간단한 워크플로우를 보여줍니다.
import wandb
run = wandb.init()
artifact = wandb.Artifact("mnist", type="dataset")
artifact.add_reference("s3://my-bucket/datasets/mnist")
# 아티팩트를 추적하고
# 이 run에 대한 입력으로 표시합니다. 새 아티팩트 버전은
# 버킷의 파일이 변경된 경우에만 기록됩니다.
run.use_artifact(artifact)
artifact_dir = artifact.download()
# 여기서 트레이닝을 수행합니다...
모델을 추적하기 위해 트레이닝 스크립트가 모델 파일을 버킷에 업로드한 후 모델 아티팩트를 기록할 수 있습니다.
import boto3
import wandb
run = wandb.init()
# 여기서 트레이닝을 수행합니다...
s3_client = boto3.client("s3")
s3_client.upload_file("my_model.h5", "my-bucket", "models/cnn/my_model.h5")
model_artifact = wandb.Artifact("cnn", type="model")
model_artifact.add_reference("s3://my-bucket/models/cnn/")
run.log_artifact(model_artifact)
GCP 또는 Azure에 대한 참조로 아티팩트를 추적하는 방법에 대한 엔드투엔드 연습은 다음 리포트를 참조하십시오.
파일 시스템 참조
데이터셋에 빠르게 엑세스하기 위한 또 다른 일반적인 패턴은 트레이닝 작업을 실행하는 모든 머신에서 원격 파일 시스템에 대한 NFS 마운트 지점을 노출하는 것입니다. 트레이닝 스크립트의 관점에서 파일이 로컬 파일 시스템에 있는 것처럼 보이기 때문에 클라우드 스토리지 버킷보다 훨씬 더 간단한 솔루션이 될 수 있습니다. 다행히 이러한 사용 편의성은 파일 시스템에 대한 참조를 추적하기 위해 Artifacts를 사용하는 데까지 확장됩니다 (마운트 여부와 관계없이).
다음과 같은 구조로 /mount
에 파일 시스템이 마운트되어 있다고 가정합니다.
mount
+-- datasets/
| +-- mnist/
+-- models/
+-- cnn/
mnist/
아래에 이미지 모음인 데이터셋이 있습니다. 아티팩트로 추적해 보겠습니다.
import wandb
run = wandb.init()
artifact = wandb.Artifact("mnist", type="dataset")
artifact.add_reference("file:///mount/datasets/mnist/")
run.log_artifact(artifact)
기본적으로 W&B는 디렉토리에 대한 참조를 추가할 때 10,000개의 파일 제한을 적용합니다. add_reference
호출에서 max_objects=
를 지정하여 이 제한을 조정할 수 있습니다.
URL에서 슬래시가 세 개 있다는 점에 유의하십시오. 첫 번째 구성 요소는 파일 시스템 참조 사용을 나타내는 file://
접두사입니다. 두 번째는 데이터셋 경로인 /mount/datasets/mnist/
입니다.
결과 아티팩트인 mnist:latest
는 일반 아티팩트와 마찬가지로 보이고 작동합니다. 유일한 차이점은 아티팩트가 크기 및 MD5 체크섬과 같은 파일에 대한 메타데이터로만 구성된다는 것입니다. 파일 자체는 시스템을 벗어나지 않습니다.
일반 아티팩트와 마찬가지로 이 아티팩트와 상호 작용할 수 있습니다. UI에서 파일 브라우저를 사용하여 reference artifact 의 내용을 찾아보고 전체 종속성 그래프를 탐색하고 아티팩트의 버전 관리된 기록을 스캔할 수 있습니다. 그러나 데이터 자체가 아티팩트에 포함되어 있지 않으므로 UI는 이미지, 오디오 등과 같은 풍부한 미디어를 렌더링할 수 없습니다.
reference artifact 를 다운로드하는 것은 간단합니다.
import wandb
run = wandb.init()
artifact = run.use_artifact("entity/project/mnist:latest", type="dataset")
artifact_dir = artifact.download()
파일 시스템 참조의 경우 download()
작업은 참조된 경로에서 파일을 복사하여 아티팩트 디렉토리를 구성합니다. 위의 예에서 /mount/datasets/mnist
의 내용은 artifacts/mnist:v0/
디렉토리에 복사됩니다. 아티팩트에 덮어쓴 파일에 대한 참조가 포함되어 있는 경우 아티팩트를 더 이상 재구성할 수 없으므로 download()
에서 오류가 발생합니다.
모든 것을 함께 놓으면 다음은 마운트된 파일 시스템에서 트레이닝 작업에 제공되는 데이터셋을 추적하는 데 사용할 수 있는 간단한 워크플로우입니다.
import wandb
run = wandb.init()
artifact = wandb.Artifact("mnist", type="dataset")
artifact.add_reference("file:///mount/datasets/mnist/")
# 아티팩트를 추적하고
# 이 run에 대한 입력으로 표시합니다. 새 아티팩트 버전은
# 디렉토리 아래의 파일이
# 변경되었습니다.
run.use_artifact(artifact)
artifact_dir = artifact.download()
# 여기서 트레이닝을 수행합니다...
모델을 추적하기 위해 트레이닝 스크립트가 모델 파일을 마운트 지점에 쓴 후 모델 아티팩트를 기록할 수 있습니다.
import wandb
run = wandb.init()
# 여기서 트레이닝을 수행합니다...
# 디스크에 모델 쓰기
model_artifact = wandb.Artifact("cnn", type="model")
model_artifact.add_reference("file:///mount/cnn/my_model.h5")
run.log_artifact(model_artifact)
7 - Manage data
7.1 - Delete an artifact
App UI를 통해 대화형으로 또는 W&B SDK를 통해 프로그래밍 방식으로 아티팩트 를 삭제합니다.
App UI 또는 W&B SDK를 사용하여 아티팩트를 대화형으로 삭제할 수 있습니다. 아티팩트를 삭제하면 W&B는 해당 아티팩트를 소프트 삭제로 표시합니다. 즉, 아티팩트는 삭제 대상으로 표시되지만 파일은 즉시 스토리지에서 삭제되지 않습니다.
아티팩트의 내용은 정기적으로 실행되는 가비지 수집 프로세스가 삭제 대상으로 표시된 모든 아티팩트를 검토할 때까지 소프트 삭제 또는 삭제 대기 상태로 유지됩니다. 가비지 수집 프로세스는 아티팩트 및 관련 파일이 이전 또는 이후 아티팩트 버전에서 사용되지 않는 경우 스토리지에서 관련 파일을 삭제합니다.
이 페이지의 섹션에서는 특정 아티팩트 버전을 삭제하는 방법, 아티팩트 컬렉션을 삭제하는 방법, 에일리어스가 있거나 없는 아티팩트를 삭제하는 방법 등을 설명합니다. TTL 정책을 사용하여 W&B에서 아티팩트가 삭제되는 시점을 예약할 수 있습니다. 자세한 내용은 아티팩트 TTL 정책으로 데이터 보존 관리을 참조하세요.
TTL 정책으로 삭제 예약된 Artifacts, W&B SDK로 삭제된 Artifacts 또는 W&B App UI로 삭제된 Artifacts는 먼저 소프트 삭제됩니다. 소프트 삭제된 Artifacts는 하드 삭제되기 전에 가비지 수집을 거칩니다.
아티팩트 버전 삭제
아티팩트 버전을 삭제하려면 다음을 수행하세요.
- 아티팩트 이름을 선택합니다. 그러면 아티팩트 보기가 확장되고 해당 아티팩트와 연결된 모든 아티팩트 버전이 나열됩니다.
- 아티팩트 목록에서 삭제할 아티팩트 버전을 선택합니다.
- 워크스페이스 오른쪽에 있는 케밥 드롭다운을 선택합니다.
- 삭제를 선택합니다.
아티팩트 버전은 delete() 메소드를 통해 프로그래밍 방식으로 삭제할 수도 있습니다. 아래 예시를 참조하세요.
에일리어스가 있는 여러 아티팩트 버전 삭제
다음 코드 예제는 에일리어스가 연결된 아티팩트를 삭제하는 방법을 보여줍니다. 아티팩트를 만든 엔터티, 프로젝트 이름 및 run ID를 제공합니다.
import wandb
run = api.run("entity/project/run_id")
for artifact in run.logged_artifacts():
artifact.delete()
아티팩트에 에일리어스가 하나 이상 있는 경우 delete_aliases
파라미터를 부울 값 True
로 설정하여 에일리어스를 삭제합니다.
import wandb
run = api.run("entity/project/run_id")
for artifact in run.logged_artifacts():
# Set delete_aliases=True in order to delete
# artifacts with one more aliases
artifact.delete(delete_aliases=True)
특정 에일리어스가 있는 여러 아티팩트 버전 삭제
다음 코드는 특정 에일리어스가 있는 여러 아티팩트 버전을 삭제하는 방법을 보여줍니다. 아티팩트를 만든 엔터티, 프로젝트 이름 및 run ID를 제공합니다. 삭제 로직을 직접 작성하세요.
import wandb
runs = api.run("entity/project_name/run_id")
# Delete artifact ith alias 'v3' and 'v4
for artifact_version in runs.logged_artifacts():
# Replace with your own deletion logic.
if artifact_version.name[-2:] == "v3" or artifact_version.name[-2:] == "v4":
artifact.delete(delete_aliases=True)
에일리어스가 없는 아티팩트의 모든 버전 삭제
다음 코드 조각은 에일리어스가 없는 아티팩트의 모든 버전을 삭제하는 방법을 보여줍니다. wandb.Api
의 project
및 entity
키에 대한 프로젝트 및 엔터티 이름을 각각 제공합니다. <>
를 아티팩트 이름으로 바꿉니다.
import wandb
# Provide your entity and a project name when you
# use wandb.Api methods.
api = wandb.Api(overrides={"project": "project", "entity": "entity"})
artifact_type, artifact_name = "<>" # provide type and name
for v in api.artifact_versions(artifact_type, artifact_name):
# Clean up versions that don't have an alias such as 'latest'.
# NOTE: You can put whatever deletion logic you want here.
if len(v.aliases) == 0:
v.delete()
아티팩트 컬렉션 삭제
아티팩트 컬렉션을 삭제하려면 다음을 수행하세요.
- 삭제할 아티팩트 컬렉션으로 이동하여 마우스를 올려 놓습니다.
- 아티팩트 컬렉션 이름 옆에 있는 케밥 드롭다운을 선택합니다.
- 삭제를 선택합니다.
delete() 메소드를 사용하여 프로그래밍 방식으로 아티팩트 컬렉션을 삭제할 수도 있습니다. wandb.Api
의 project
및 entity
키에 대한 프로젝트 및 엔터티 이름을 각각 제공합니다.
import wandb
# Provide your entity and a project name when you
# use wandb.Api methods.
api = wandb.Api(overrides={"project": "project", "entity": "entity"})
collection = api.artifact_collection(
"<artifact_type>", "entity/project/artifact_collection_name"
)
collection.delete()
W&B 호스팅 방식에 따라 가비지 수집을 활성화하는 방법
W&B의 공유 클라우드를 사용하는 경우 가비지 수집은 기본적으로 활성화됩니다. W&B를 호스팅하는 방식에 따라 가비지 수집을 활성화하기 위해 추가 단계를 수행해야 할 수 있습니다.
다음 표는 배포 유형에 따라 가비지 수집을 활성화하기 위한 요구 사항을 충족하는 방법을 설명합니다.
X
는 요구 사항을 충족해야 함을 나타냅니다.
note
Secure storage connector는 현재 Google Cloud Platform 및 Amazon Web Services에서만 사용할 수 있습니다.
7.2 - Manage artifact data retention
TTL(Time to live) 정책
W&B Artifact time-to-live (TTL) 정책을 사용하여 Artifacts가 W&B에서 삭제되는 시점을 예약하세요. 아티팩트를 삭제하면 W&B는 해당 아티팩트를 soft-delete 로 표시합니다. 즉, 아티팩트는 삭제 대상으로 표시되지만 파일은 즉시 스토리지에서 삭제되지 않습니다. W&B에서 아티팩트를 삭제하는 방법에 대한 자세한 내용은 아티팩트 삭제 페이지를 참조하세요.
이 비디오 튜토리얼에서 W&B 앱에서 Artifacts TTL로 데이터 보존을 관리하는 방법을 알아보세요.
W&B는 모델 레지스트리에 연결된 모델 아티팩트에 대한 TTL 정책을 설정하는 옵션을 비활성화합니다. 이는 연결된 모델이 프로덕션 워크플로우에서 사용되는 경우 실수로 만료되지 않도록 하기 위함입니다.
- 팀 관리자만 팀 설정을 보고 (1) 누가 TTL 정책을 설정하거나 편집할 수 있는지 허용하거나 (2) 팀 기본 TTL을 설정하는 것과 같은 팀 수준 TTL 설정에 엑세스할 수 있습니다.
- W&B 앱 UI에서 아티팩트 세부 정보에 TTL 정책을 설정하거나 편집하는 옵션이 표시되지 않거나 프로그래밍 방식으로 TTL을 설정해도 아티팩트의 TTL 속성이 성공적으로 변경되지 않으면 팀 관리자가 해당 권한을 부여하지 않은 것입니다.
자동 생성된 Artifacts
사용자가 생성한 아티팩트만 TTL 정책을 사용할 수 있습니다. W&B에서 자동으로 생성된 아티팩트에는 TTL 정책을 설정할 수 없습니다.
다음 아티팩트 유형은 자동 생성된 Artifacts를 나타냅니다.
run_table
code
job
wandb-*
로 시작하는 모든 아티팩트 유형
W&B 플랫폼 또는 프로그래밍 방식으로 아티팩트의 유형을 확인할 수 있습니다.
import wandb
run = wandb.init(project="<my-project-name>")
artifact = run.use_artifact(artifact_or_name="<my-artifact-name>")
print(artifact.type)
<>
로 묶인 값을 자신의 값으로 바꿉니다.
TTL 정책을 편집하고 설정할 수 있는 사람 정의
팀 내에서 TTL 정책을 설정하고 편집할 수 있는 사람을 정의합니다. 팀 관리자에게만 TTL 권한을 부여하거나 팀 관리자와 팀 멤버 모두에게 TTL 권한을 부여할 수 있습니다.
팀 관리자만 TTL 정책을 설정하거나 편집할 수 있는 사람을 정의할 수 있습니다.
- 팀 프로필 페이지로 이동합니다.
- 설정 탭을 선택합니다.
- Artifacts time-to-live (TTL) 섹션으로 이동합니다.
- TTL 권한 드롭다운에서 TTL 정책을 설정하고 편집할 수 있는 사람을 선택합니다.
- 설정 검토 및 저장을 클릭합니다.
- 변경 사항을 확인하고 설정 저장을 선택합니다.
TTL 정책 만들기
아티팩트를 생성할 때 또는 아티팩트가 생성된 후 소급하여 아티팩트에 대한 TTL 정책을 설정합니다.
아래의 모든 코드 조각에서 <>
로 묶인 콘텐츠를 자신의 정보로 바꿔 코드 조각을 사용하세요.
아티팩트를 생성할 때 TTL 정책 설정
W&B Python SDK를 사용하여 아티팩트를 생성할 때 TTL 정책을 정의합니다. TTL 정책은 일반적으로 일 단위로 정의됩니다.
아티팩트를 생성할 때 TTL 정책을 정의하는 것은 일반적으로
아티팩트를 생성하는 방법과 유사합니다. 단, 시간 델타를 아티팩트의
ttl
속성에 전달한다는 점만 다릅니다.
단계는 다음과 같습니다.
- 아티팩트 만들기.
- 파일, 디렉토리 또는 참조와 같은 아티팩트에 콘텐츠 추가.
- Python 표준 라이브러리의 일부인
datetime.timedelta
데이터 유형으로 TTL 시간 제한을 정의합니다.
- 아티팩트 로깅.
다음 코드 조각은 아티팩트를 만들고 TTL 정책을 설정하는 방법을 보여줍니다.
import wandb
from datetime import timedelta
run = wandb.init(project="<my-project-name>", entity="<my-entity>")
artifact = wandb.Artifact(name="<artifact-name>", type="<type>")
artifact.add_file("<my_file>")
artifact.ttl = timedelta(days=30) # TTL 정책 설정
run.log_artifact(artifact)
앞의 코드 조각은 아티팩트의 TTL 정책을 30일로 설정합니다. 즉, W&B는 30일 후에 아티팩트를 삭제합니다.
아티팩트를 만든 후 TTL 정책 설정 또는 편집
W&B App UI 또는 W&B Python SDK를 사용하여 이미 존재하는 아티팩트에 대한 TTL 정책을 정의합니다.
아티팩트의 TTL을 수정하면 아티팩트가 만료되는 시간은 여전히 아티팩트의 createdAt
타임스탬프를 사용하여 계산됩니다.
- 아티팩트 가져오기.
- 시간 델타를 아티팩트의
ttl
속성에 전달합니다.
save
메소드로 아티팩트를 업데이트합니다.
다음 코드 조각은 아티팩트에 대한 TTL 정책을 설정하는 방법을 보여줍니다.
import wandb
from datetime import timedelta
artifact = run.use_artifact("<my-entity/my-project/my-artifact:alias>")
artifact.ttl = timedelta(days=365 * 2) # 2년 후에 삭제
artifact.save()
앞의 코드 예제는 TTL 정책을 2년으로 설정합니다.
- W&B App UI에서 W&B 프로젝트로 이동합니다.
- 왼쪽 패널에서 아티팩트 아이콘을 선택합니다.
- 아티팩트 목록에서 TTL 정책을 편집할 아티팩트 유형을 확장합니다.
- TTL 정책을 편집할 아티팩트 버전을 선택합니다.
- 버전 탭을 클릭합니다.
- 드롭다운에서 TTL 정책 편집을 선택합니다.
- 나타나는 모달 내에서 TTL 정책 드롭다운에서 Custom을 선택합니다.
- TTL duration 필드 내에서 TTL 정책을 일 단위로 설정합니다.
- TTL 업데이트 버튼을 선택하여 변경 사항을 저장합니다.
팀에 대한 기본 TTL 정책 설정
팀 관리자만 팀에 대한 기본 TTL 정책을 설정할 수 있습니다.
팀에 대한 기본 TTL 정책을 설정합니다. 기본 TTL 정책은 각각 생성 날짜를 기준으로 기존 및 향후 모든 아티팩트에 적용됩니다. 기존 버전 수준 TTL 정책이 있는 아티팩트는 팀의 기본 TTL의 영향을 받지 않습니다.
- 팀 프로필 페이지로 이동합니다.
- 설정 탭을 선택합니다.
- Artifacts time-to-live (TTL) 섹션으로 이동합니다.
- 팀의 기본 TTL 정책 설정을 클릭합니다.
- Duration 필드 내에서 TTL 정책을 일 단위로 설정합니다.
- 설정 검토 및 저장을 클릭합니다.
7/ 변경 사항을 확인한 다음 설정 저장을 선택합니다.
run 외부에서 TTL 정책 설정
공용 API를 사용하여 run을 가져오지 않고 아티팩트를 검색하고 TTL 정책을 설정합니다. TTL 정책은 일반적으로 일 단위로 정의됩니다.
다음 코드 샘플은 공용 API를 사용하여 아티팩트를 가져오고 TTL 정책을 설정하는 방법을 보여줍니다.
api = wandb.Api()
artifact = api.artifact("entity/project/artifact:alias")
artifact.ttl = timedelta(days=365) # 1년 후에 삭제
artifact.save()
TTL 정책 비활성화
W&B Python SDK 또는 W&B App UI를 사용하여 특정 아티팩트 버전에 대한 TTL 정책을 비활성화합니다.
- 아티팩트 가져오기.
- 아티팩트의
ttl
속성을 None
으로 설정합니다.
save
메소드로 아티팩트를 업데이트합니다.
다음 코드 조각은 아티팩트에 대한 TTL 정책을 끄는 방법을 보여줍니다.
artifact = run.use_artifact("<my-entity/my-project/my-artifact:alias>")
artifact.ttl = None
artifact.save()
- W&B App UI에서 W&B 프로젝트로 이동합니다.
- 왼쪽 패널에서 아티팩트 아이콘을 선택합니다.
- 아티팩트 목록에서 TTL 정책을 편집할 아티팩트 유형을 확장합니다.
- TTL 정책을 편집할 아티팩트 버전을 선택합니다.
- 버전 탭을 클릭합니다.
- 레지스트리에 연결 버튼 옆에 있는 미트볼 UI 아이콘을 클릭합니다.
- 드롭다운에서 TTL 정책 편집을 선택합니다.
- 나타나는 모달 내에서 TTL 정책 드롭다운에서 비활성화를 선택합니다.
- TTL 업데이트 버튼을 선택하여 변경 사항을 저장합니다.
TTL 정책 보기
Python SDK 또는 W&B App UI를 사용하여 아티팩트에 대한 TTL 정책을 봅니다.
인쇄 문을 사용하여 아티팩트의 TTL 정책을 봅니다. 다음 예제는 아티팩트를 검색하고 TTL 정책을 보는 방법을 보여줍니다.
artifact = run.use_artifact("<my-entity/my-project/my-artifact:alias>")
print(artifact.ttl)
W&B App UI를 사용하여 아티팩트에 대한 TTL 정책을 봅니다.
- https://wandb.ai 에서 W&B 앱으로 이동합니다.
- W&B 프로젝트로 이동합니다.
- 프로젝트 내에서 왼쪽 사이드바에서 Artifacts 탭을 선택합니다.
- 컬렉션을 클릭합니다.
컬렉션 보기 내에서 선택한 컬렉션의 모든 아티팩트를 볼 수 있습니다. Time to Live
열 내에서 해당 아티팩트에 할당된 TTL 정책이 표시됩니다.
7.3 - Manage artifact storage and memory allocation
W&B Artifacts 의 스토리지, 메모리 할당을 관리합니다.
W&B는 기본적으로 미국에 위치한 개인 Google Cloud Storage 버킷에 아티팩트 파일을 저장합니다. 모든 파일은 저장 및 전송 중에 암호화됩니다.
민감한 파일의 경우, Private Hosting을 설정하거나 reference artifacts를 사용하는 것이 좋습니다.
트레이닝 중에 W&B는 로그, 아티팩트 및 설정 파일을 다음 로컬 디렉토리에 로컬로 저장합니다.
파일 |
기본 위치 |
기본 위치를 변경하려면 다음을 설정하십시오: |
logs |
./wandb |
wandb.init 의 dir 또는 WANDB_DIR 환경 변수를 설정하십시오. |
artifacts |
~/.cache/wandb |
WANDB_CACHE_DIR 환경 변수 |
configs |
~/.config/wandb |
WANDB_CONFIG_DIR 환경 변수 |
업로드를 위한 Staging artifacts |
~/.cache/wandb-data/ |
WANDB_DATA_DIR 환경 변수 |
다운로드된 artifacts |
./artifacts |
WANDB_ARTIFACT_DIR 환경 변수 |
환경 변수를 사용하여 W&B를 구성하는 방법에 대한 전체 가이드는 환경 변수 참조를 참조하십시오.
wandb
가 초기화된 머신에 따라 이러한 기본 폴더가 파일 시스템의 쓰기 가능한 부분에 위치하지 않을 수 있습니다. 이로 인해 오류가 발생할 수 있습니다.
로컬 아티팩트 캐시 정리
W&B는 공통 파일을 공유하는 버전 간의 다운로드 속도를 높이기 위해 아티팩트 파일을 캐시합니다. 시간이 지남에 따라 이 캐시 디렉토리가 커질 수 있습니다. wandb artifact cache cleanup
명령을 실행하여 캐시를 정리하고 최근에 사용되지 않은 파일을 제거하십시오.
다음 코드 조각은 캐시 크기를 1GB로 제한하는 방법을 보여줍니다. 코드 조각을 복사하여 터미널에 붙여넣으십시오:
$ wandb artifact cache cleanup 1GB
8 - Explore artifact graphs
자동으로 생성된 직접 비순환 W&B Artifact 그래프를 트래버스합니다.
W&B는 주어진 run이 기록한 Artifacts와 주어진 run이 사용하는 Artifacts를 자동으로 추적합니다. 이러한 Artifacts에는 데이터셋, 모델, 평가 결과 등이 포함될 수 있습니다. Artifact의 계보를 탐색하여 기계 학습 라이프사이클 전반에 걸쳐 생성된 다양한 Artifacts를 추적하고 관리할 수 있습니다.
계보
Artifact의 계보를 추적하면 다음과 같은 주요 이점이 있습니다.
-
재현성: 모든 Artifacts의 계보를 추적함으로써 팀은 실험, 모델 및 결과를 재현할 수 있습니다. 이는 디버깅, 실험 및 기계 학습 모델 검증에 필수적입니다.
-
버전 관리: Artifact 계보는 Artifacts의 버전 관리와 시간 경과에 따른 변경 사항 추적을 포함합니다. 이를 통해 팀은 필요한 경우 이전 버전의 데이터 또는 모델로 롤백할 수 있습니다.
-
감사: Artifacts 및 해당 변환에 대한 자세한 기록을 통해 조직은 규제 및 거버넌스 요구 사항을 준수할 수 있습니다.
-
협업 및 지식 공유: Artifact 계보는 시도에 대한 명확한 기록과 무엇이 작동했고 무엇이 작동하지 않았는지 제공함으로써 팀 멤버 간의 더 나은 협업을 촉진합니다. 이는 노력의 중복을 피하고 개발 프로세스를 가속화하는 데 도움이 됩니다.
Artifact의 계보 찾기
Artifacts 탭에서 Artifact를 선택하면 해당 Artifact의 계보를 볼 수 있습니다. 이 그래프 보기는 파이프라인의 일반적인 개요를 보여줍니다.
Artifact 그래프를 보려면:
- W&B App UI에서 프로젝트로 이동합니다.
- 왼쪽 패널에서 Artifact 아이콘을 선택합니다.
- Lineage를 선택합니다.
계보 그래프 탐색
제공하는 Artifact 또는 job 유형은 이름 앞에 표시되며, Artifacts는 파란색 아이콘으로, runs는 녹색 아이콘으로 표시됩니다. 화살표는 그래프에서 run 또는 Artifact의 입력 및 출력을 자세히 설명합니다.
왼쪽 사이드바와 Lineage 탭에서 Artifact의 유형과 이름을 모두 볼 수 있습니다.
더 자세한 보기를 보려면 개별 Artifact 또는 run을 클릭하여 특정 오브젝트에 대한 자세한 정보를 얻으십시오.
Artifact 클러스터
그래프 수준에 5개 이상의 runs 또는 Artifacts가 있는 경우 클러스터가 생성됩니다. 클러스터에는 특정 버전의 runs 또는 Artifacts를 찾기 위한 검색 창이 있으며 클러스터 내부의 노드 계보를 계속 조사하기 위해 클러스터에서 개별 노드를 가져옵니다.
노드를 클릭하면 노드에 대한 개요가 있는 미리보기가 열립니다. 화살표를 클릭하면 개별 run 또는 Artifact가 추출되어 추출된 노드의 계보를 검사할 수 있습니다.
API를 사용하여 계보 추적
W&B API를 사용하여 그래프를 탐색할 수도 있습니다.
Artifact를 만듭니다. 먼저 wandb.init
으로 run을 만듭니다. 그런 다음 wandb.Artifact
로 새 Artifact를 만들거나 기존 Artifact를 검색합니다. 다음으로 .add_file
로 Artifact에 파일을 추가합니다. 마지막으로 .log_artifact
로 Artifact를 run에 기록합니다. 완성된 코드는 다음과 같습니다.
with wandb.init() as run:
artifact = wandb.Artifact("artifact_name", "artifact_type")
# Add Files and Assets to the artifact using
# `.add`, `.add_file`, `.add_dir`, and `.add_reference`
artifact.add_file("image1.png")
run.log_artifact(artifact)
Artifact 오브젝트의 logged_by
및 used_by
메서드를 사용하여 Artifact에서 그래프를 탐색합니다.
# Walk up and down the graph from an artifact:
producer_run = artifact.logged_by()
consumer_runs = artifact.used_by()
다음 단계
9 - Artifact data privacy and compliance
W&B 파일이 기본적으로 어디에 저장되는지 알아보세요. 민감한 정보를 저장하고 보관하는 방법을 살펴보세요.
Artifacts를 로깅할 때 파일은 W&B에서 관리하는 Google Cloud 버킷에 업로드됩니다. 버킷의 내용은 저장 시와 전송 중에 모두 암호화됩니다. 아티팩트 파일은 해당 프로젝트에 엑세스 권한이 있는 사용자에게만 표시됩니다.
아티팩트 버전을 삭제하면 데이터베이스에서 소프트 삭제로 표시되고 스토리지 비용에서 제거됩니다. 전체 아티팩트를 삭제하면 영구 삭제 대기열에 추가되고 모든 콘텐츠가 W&B 버킷에서 제거됩니다. 파일 삭제와 관련된 특정 요구 사항이 있는 경우 고객 지원에 문의하십시오.
멀티 테넌트 환경에 상주할 수 없는 중요한 데이터셋의 경우 클라우드 버킷에 연결된 프라이빗 W&B 서버 또는 _reference artifacts_를 사용할 수 있습니다. 레퍼런스 아티팩트는 파일 내용을 W&B로 보내지 않고 프라이빗 버킷에 대한 레퍼런스를 추적합니다. 레퍼런스 아티팩트는 버킷 또는 서버의 파일에 대한 링크를 유지 관리합니다. 즉, W&B는 파일 자체가 아닌 파일과 연결된 메타데이터만 추적합니다.
레퍼런스가 아닌 아티팩트를 만드는 방법과 유사하게 레퍼런스 아티팩트를 만듭니다.
import wandb
run = wandb.init()
artifact = wandb.Artifact("animals", type="dataset")
artifact.add_reference("s3://my-bucket/animals")
대안이 필요하면 contact@wandb.com으로 문의하여 프라이빗 클라우드 및 온프레미스 설치에 대해 문의하십시오.
10 - Tutorial: Create, track, and use a dataset artifact
Artifacts 퀵스타트는 W&B를 사용하여 데이터셋 아티팩트를 생성, 추적 및 사용하는 방법을 보여줍니다.
이 가이드는 W&B Runs에서 데이터셋 Artifacts를 생성, 추적 및 사용하는 방법을 설명합니다.
1. W&B에 로그인
W&B 라이브러리를 가져오고 W&B에 로그인합니다. 아직 가입하지 않은 경우 무료 W&B 계정에 가입해야 합니다.
import wandb
wandb.login()
2. run 초기화
wandb.init()
API를 사용하여 W&B Run으로 데이터를 동기화하고 기록하는 백그라운드 프로세스를 생성합니다. project 이름과 job 유형을 제공합니다.
# W&B Run을 만듭니다. 이 예제에서는 데이터셋 Artifact를 만드는 방법을 보여주기 때문에
# 'dataset'을 job 유형으로 지정합니다.
run = wandb.init(project="artifacts-example", job_type="upload-dataset")
3. Artifact 오브젝트 생성
wandb.Artifact()
API를 사용하여 Artifact 오브젝트를 생성합니다. Artifact의 이름과 파일 형식에 대한 설명을 각각 name
및 type
파라미터에 제공합니다.
예를 들어 다음 코드 조각은 ‘bicycle-dataset’
이라는 Artifact를 ‘dataset’
레이블로 만드는 방법을 보여줍니다.
artifact = wandb.Artifact(name="bicycle-dataset", type="dataset")
Artifact를 구성하는 방법에 대한 자세한 내용은 Artifact 구성을 참조하십시오.
Artifact에 데이터셋 추가
Artifact에 파일을 추가합니다. 일반적인 파일 유형에는 모델과 데이터셋이 있습니다. 다음 예제에서는 시스템에 로컬로 저장된 dataset.h5
라는 데이터셋을 Artifact에 추가합니다.
# Artifact 내용에 파일 추가
artifact.add_file(local_path="dataset.h5")
이전 코드 조각에서 파일 이름 dataset.h5
를 Artifact에 추가할 파일의 경로로 바꿉니다.
4. 데이터셋 기록
W&B run 오브젝트 log_artifact()
메소드를 사용하여 Artifact 버전을 저장하고 Artifact를 run의 출력으로 선언합니다.
# Artifact 버전을 W&B에 저장하고 이 run의 출력으로 표시합니다.
run.log_artifact(artifact)
Artifact를 기록할 때 기본적으로 'latest'
에일리어스가 생성됩니다. Artifact 에일리어스 및 버전에 대한 자세한 내용은 사용자 지정 에일리어스 만들기 및 새 Artifact 버전 만들기를 참조하십시오.
5. Artifact 다운로드 및 사용
다음 코드 예제는 W&B 서버에 기록하고 저장한 Artifact를 사용하는 단계를 보여줍니다.
- 먼저 **
wandb.init()
**으로 새 run 오브젝트를 초기화합니다.
- 둘째, run 오브젝트
use_artifact()
메소드를 사용하여 사용할 Artifact를 W&B에 알립니다. 그러면 Artifact 오브젝트가 반환됩니다.
- 셋째, Artifact
download()
메소드를 사용하여 Artifact의 내용을 다운로드합니다.
# W&B Run을 만듭니다. 여기서는 'training'을 'type'으로 지정합니다.
# 이 run을 사용하여 트레이닝을 추적하기 때문입니다.
run = wandb.init(project="artifacts-example", job_type="training")
# Artifact에 대해 W&B를 쿼리하고 이 run에 대한 입력으로 표시합니다.
artifact = run.use_artifact("bicycle-dataset:latest")
# Artifact의 내용 다운로드
artifact_dir = artifact.download()
또는 Public API (wandb.Api
)를 사용하여 Run 외부의 W&B에 이미 저장된 데이터를 내보내거나 (또는 업데이트)할 수 있습니다. 자세한 내용은 외부 파일 추적을 참조하십시오.