This is the multi-page printable view of this section. Click here to print.

Return to the regular view of this page.

Define a sweep configuration

스윕을 위한 설정 파일을 만드는 방법을 배워보세요.

1: Sweep configuration options

W&B Sweep은 하이퍼파라미터 값을 탐색하는 전략과 해당 값을 평가하는 코드를 결합합니다. 이 전략은 모든 옵션을 시도하는 것만큼 간단할 수도 있고, 베이지안 최적화 및 Hyperband(BOHB)만큼 복잡할 수도 있습니다.

Python dictionary 또는 YAML 파일에서 스윕 구성을 정의합니다. 스윕 구성을 정의하는 방법은 스윕을 관리하려는 방식에 따라 다릅니다.

커맨드라인에서 스윕을 초기화하고 스윕 에이전트를 시작하려면 YAML 파일에서 스윕 구성을 정의하십시오. Python 스크립트 또는 Jupyter notebook 내에서 스윕을 초기화하고 완전히 시작하려면 Python dictionary에서 스윕을 정의하십시오.

다음 가이드에서는 스윕 구성의 형식을 지정하는 방법을 설명합니다. 최상위 스윕 구성 키의 전체 목록은 스윕 구성 옵션을 참조하십시오.

기본 구조

두 가지 스윕 구성 형식 옵션(YAML 및 Python dictionary) 모두 키-값 쌍과 중첩 구조를 활용합니다.

스윕 구성 내에서 최상위 키를 사용하여 스윕 이름(name 키), 검색할 파라미터(parameters 키), 파라미터 공간을 검색하는 방법(method 키) 등과 같은 스윕 검색의 품질을 정의합니다.

예를 들어, 다음 코드 조각은 YAML 파일과 Python dictionary 내에서 정의된 동일한 스윕 구성을 보여줍니다. 스윕 구성 내에는 program, name, method, metric 및 parameters의 5가지 최상위 키가 지정되어 있습니다.

커맨드라인 (CLI)에서 스윕을 대화형으로 관리하려면 YAML 파일에서 스윕 구성을 정의하십시오.

program: train.py
name: sweepdemo
method: bayes
metric:
  goal: minimize
  name: validation_loss
parameters:
  learning_rate:
    min: 0.0001
    max: 0.1
  batch_size:
    values: [16, 32, 64]
  epochs:
    values: [5, 10, 15]
  optimizer:
    values: ["adam", "sgd"]

Python 스크립트 또는 Jupyter notebook에서 트레이닝 알고리즘을 정의하는 경우 Python dictionary 데이터 구조에서 스윕을 정의하십시오.

다음 코드 조각은 sweep_configuration이라는 변수에 스윕 구성을 저장합니다.

sweep_configuration = {
    "name": "sweepdemo",
    "method": "bayes",
    "metric": {"goal": "minimize", "name": "validation_loss"},
    "parameters": {
        "learning_rate": {"min": 0.0001, "max": 0.1},
        "batch_size": {"values": [16, 32, 64]},
        "epochs": {"values": [5, 10, 15]},
        "optimizer": {"values": ["adam", "sgd"]},
    },
}

최상위 parameters 키 내에는 learning_rate, batch_size, epoch 및 optimizer 키가 중첩되어 있습니다. 중첩된 각 키에 대해 하나 이상의 값, 분포, 확률 등을 제공할 수 있습니다. 자세한 내용은 스윕 구성 옵션의 파라미터 섹션을 참조하십시오.

이중 중첩 파라미터

스윕 구성은 중첩된 파라미터를 지원합니다. 중첩된 파라미터를 구분하려면 최상위 파라미터 이름 아래에 추가 parameters 키를 사용하십시오. 스윕 구성은 다단계 중첩을 지원합니다.

베이지안 또는 랜덤 하이퍼파라미터 검색을 사용하는 경우 랜덤 변수에 대한 확률 분포를 지정하십시오. 각 하이퍼파라미터에 대해:

스윕 구성에 최상위 parameters 키를 만듭니다.
parameters 키 내에서 다음을 중첩합니다.
1. 최적화하려는 하이퍼파라미터의 이름을 지정합니다.
2. distribution 키에 사용할 분포를 지정합니다. 하이퍼파라미터 이름 아래에 distribution 키-값 쌍을 중첩합니다.
3. 탐색할 하나 이상의 값을 지정합니다. 값은 분포 키와 일치해야 합니다.
  1. (선택 사항) 최상위 파라미터 이름 아래에 추가 parameters 키를 사용하여 중첩된 파라미터를 구분합니다.

스윕 구성에 정의된 중첩된 파라미터는 W&B run 구성에 지정된 키를 덮어씁니다.

예를 들어, train.py Python 스크립트에서 다음 구성으로 W&B run을 초기화한다고 가정합니다 (1-2행 참조). 다음으로 sweep_configuration이라는 dictionary에 스윕 구성을 정의합니다 (4-13행 참조). 그런 다음 스윕 구성 dictionary를 wandb.sweep에 전달하여 스윕 구성을 초기화합니다 (16행 참조).

def main():
    run = wandb.init(config={"nested_param": {"manual_key": 1}})


sweep_configuration = {
    "top_level_param": 0,
    "nested_param": {
        "learning_rate": 0.01,
        "double_nested_param": {"x": 0.9, "y": 0.8},
    },
}

# Initialize sweep by passing in config.
sweep_id = wandb.sweep(sweep=sweep_configuration, project="<project>")

# Start sweep job.
wandb.agent(sweep_id, function=main, count=4)

W&B run이 초기화될 때 전달되는 nested_param.manual_key에는 액세스할 수 없습니다. run.config는 스윕 구성 dictionary에 정의된 키-값 쌍만 보유합니다.

스윕 구성 템플릿

다음 템플릿은 파라미터를 구성하고 검색 제약 조건을 지정하는 방법을 보여줍니다. hyperparameter_name을 하이퍼파라미터 이름으로 바꾸고 <>로 묶인 모든 값을 바꿉니다.

program: <insert>
method: <insert>
parameter:
  hyperparameter_name0:
    value: 0  
  hyperparameter_name1: 
    values: [0, 0, 0]
  hyperparameter_name: 
    distribution: <insert>
    value: <insert>
  hyperparameter_name2:  
    distribution: <insert>
    min: <insert>
    max: <insert>
    q: <insert>
  hyperparameter_name3: 
    distribution: <insert>
    values:
      - <list_of_values>
      - <list_of_values>
      - <list_of_values>
early_terminate:
  type: hyperband
  s: 0
  eta: 0
  max_iter: 0
command:
- ${Command macro}
- ${Command macro}
- ${Command macro}
- ${Command macro}

스윕 구성 예제

program: train.py
method: random
metric:
  goal: minimize
  name: loss
parameters:
  batch_size:
    distribution: q_log_uniform_values
    max: 256 
    min: 32
    q: 8
  dropout: 
    values: [0.3, 0.4, 0.5]
  epochs:
    value: 1
  fc_layer_size: 
    values: [128, 256, 512]
  learning_rate:
    distribution: uniform
    max: 0.1
    min: 0
  optimizer:
    values: ["adam", "sgd"]

sweep_config = {
    "method": "random",
    "metric": {"goal": "minimize", "name": "loss"},
    "parameters": {
        "batch_size": {
            "distribution": "q_log_uniform_values",
            "max": 256,
            "min": 32,
            "q": 8,
        },
        "dropout": {"values": [0.3, 0.4, 0.5]},
        "epochs": {"value": 1},
        "fc_layer_size": {"values": [128, 256, 512]},
        "learning_rate": {"distribution": "uniform", "max": 0.1, "min": 0},
        "optimizer": {"values": ["adam", "sgd"]},
    },
}

Bayes hyperband 예제

program: train.py
method: bayes
metric:
  goal: minimize
  name: val_loss
parameters:
  dropout:
    values: [0.15, 0.2, 0.25, 0.3, 0.4]
  hidden_layer_size:
    values: [96, 128, 148]
  layer_1_size:
    values: [10, 12, 14, 16, 18, 20]
  layer_2_size:
    values: [24, 28, 32, 36, 40, 44]
  learn_rate:
    values: [0.001, 0.01, 0.003]
  decay:
    values: [1e-5, 1e-6, 1e-7]
  momentum:
    values: [0.8, 0.9, 0.95]
  epochs:
    value: 27
early_terminate:
  type: hyperband
  s: 2
  eta: 3
  max_iter: 27

다음 탭은 early_terminate에 대한 최소 또는 최대 반복 횟수를 지정하는 방법을 보여줍니다.

이 예제의 대괄호는 [3, 3*eta, 3*eta*eta, 3*eta*eta*eta]이며, 이는 [3, 9, 27, 81]과 같습니다.

early_terminate:
  type: hyperband
  min_iter: 3

이 예제의 대괄호는 [27/eta, 27/eta/eta]이며, 이는 [9, 3]과 같습니다.

early_terminate:
  type: hyperband
  max_iter: 27
  s: 2

커맨드 예제

program: main.py
metric:
  name: val_loss
  goal: minimize

method: bayes
parameters:
  optimizer.config.learning_rate:
    min: !!float 1e-5
    max: 0.1
  experiment:
    values: [expt001, expt002]
  optimizer:
    values: [sgd, adagrad, adam]

command:
- ${env}
- ${interpreter}
- ${program}
- ${args_no_hyphens}

/usr/bin/env python train.py --param1=value1 --param2=value2

python train.py --param1=value1 --param2=value2

다음 탭은 일반적인 커맨드 매크로를 지정하는 방법을 보여줍니다.

{$interpreter} 매크로를 제거하고 값을 명시적으로 제공하여 Python 인터프리터를 하드 코딩하십시오. 예를 들어, 다음 코드 조각은 이를 수행하는 방법을 보여줍니다.

command:
  - ${env}
  - python3
  - ${program}
  - ${args}

다음은 스윕 구성 파라미터에 의해 지정되지 않은 추가 커맨드라인 인수를 추가하는 방법을 보여줍니다.

command:
  - ${env}
  - ${interpreter}
  - ${program}
  - "--config"
  - "your-training-config.json"
  - ${args}

프로그램이 인수 파싱을 사용하지 않는 경우 인수를 모두 전달하지 않고 wandb.init이 스윕 파라미터를 자동으로 wandb.config에 선택하도록 할 수 있습니다.

command:
  - ${env}
  - ${interpreter}
  - ${program}

Hydra와 같은 툴이 예상하는 방식으로 인수를 전달하도록 커맨드를 변경할 수 있습니다. 자세한 내용은 W&B와 함께 Hydra 사용하기를 참조하십시오.

command:
  - ${env}
  - ${interpreter}
  - ${program}
  - ${args_no_hyphens}

1 - Sweep configuration options

스윕 구성은 중첩된 키-값 쌍으로 구성됩니다. 스윕 구성 내에서 최상위 키를 사용하여 검색할 파라미터 ( parameter 키), 파라미터 공간을 검색하는 방법 ( method 키) 등과 같은 스윕 검색의 특성을 정의합니다.

다음 표는 최상위 스윕 구성 키와 간단한 설명을 나열합니다. 각 키에 대한 자세한 내용은 해당 섹션을 참조하십시오.

최상위 키	설명
`program`	(필수) 실행할 트레이닝 스크립트
`entity`	이 스윕에 대한 엔티티
`project`	이 스윕에 대한 프로젝트
`description`	스윕에 대한 텍스트 설명
`name`	W&B UI에 표시되는 스윕의 이름
`method`	(필수) 검색 전략
`metric`	최적화할 메트릭 (특정 검색 전략 및 중단 조건에만 사용)
`parameters`	(필수) 검색할 파라미터 범위
`early_terminate`	조기 중단 조건
`command`	트레이닝 스크립트를 호출하고 인수를 전달하기 위한 코맨드 구조
`run_cap`	이 스윕의 최대 run 수

스윕 구성을 구성하는 방법에 대한 자세한 내용은 스윕 구성 구조를 참조하십시오.

`metric`

metric 최상위 스윕 구성 키를 사용하여 최적화할 이름, 목표 및 대상 메트릭을 지정합니다.

키	설명
`name`	최적화할 메트릭의 이름입니다.
`goal`	`minimize` 또는 `maximize` (기본값은 `minimize`)입니다.
`target`	최적화하려는 메트릭의 목표 값입니다. 스윕은 run이 지정한 목표 값에 도달하면 새 run을 만들지 않습니다. run을 실행 중인 활성 에이전트는 (run이 목표에 도달하면) 에이전트가 새 run 생성을 중단하기 전에 run이 완료될 때까지 기다립니다.

`parameters`

YAML 파일 또는 Python 스크립트에서 parameters를 최상위 키로 지정합니다. parameters 키 내에서 최적화하려는 하이퍼파라미터의 이름을 제공합니다. 일반적인 하이퍼파라미터에는 학습률, 배치 크기, 에포크, 옵티마이저 등이 있습니다. 스윕 구성에서 정의하는 각 하이퍼파라미터에 대해 하나 이상의 검색 제약 조건을 지정합니다.

다음 표는 지원되는 하이퍼파라미터 검색 제약 조건을 보여줍니다. 하이퍼파라미터 및 유스 케이스에 따라 아래 검색 제약 조건 중 하나를 사용하여 스윕 에이전트에게 검색하거나 사용할 위치 (분포의 경우) 또는 내용 (value, values 등)을 알려줍니다.

검색 제약 조건	설명
`values`	이 하이퍼파라미터에 대한 모든 유효한 값을 지정합니다. `grid`와 호환됩니다.
`value`	이 하이퍼파라미터에 대한 단일 유효한 값을 지정합니다. `grid`와 호환됩니다.
`distribution`	확률 분포를 지정합니다. 기본값에 대한 정보는 이 표 다음에 나오는 참고 사항을 참조하십시오.
`probabilities`	`random`을 사용할 때 `values`의 각 요소를 선택할 확률을 지정합니다.
`min`, `max`	(`int` 또는 `float`) 최대값 및 최소값입니다. `int`인 경우 `int_uniform` 분포된 하이퍼파라미터에 사용됩니다. `float`인 경우 `uniform` 분포된 하이퍼파라미터에 사용됩니다.
`mu`	(`float`) `normal` 또는 `lognormal` 분포된 하이퍼파라미터에 대한 평균 파라미터입니다.
`sigma`	(`float`) `normal` 또는 `lognormal` 분포된 하이퍼파라미터에 대한 표준 편차 파라미터입니다.
`q`	(`float`) 양자화된 하이퍼파라미터에 대한 양자화 단계 크기입니다.
`parameters`	루트 수준 파라미터 내부에 다른 파라미터를 중첩합니다.

W&B는 분포가 지정되지 않은 경우 다음 조건에 따라 다음 분포를 설정합니다.

values를 지정하면 categorical
max 및 min을 정수로 지정하면 int_uniform
max 및 min을 부동 소수점으로 지정하면 uniform
value에 집합을 제공하면 constant

`method`

method 키를 사용하여 하이퍼파라미터 검색 전략을 지정합니다. 선택할 수 있는 세 가지 하이퍼파라미터 검색 전략이 있습니다: 그리드, 랜덤, 베이지안 탐색.

그리드 검색

하이퍼파라미터 값의 모든 조합을 반복합니다. 그리드 검색은 각 반복에서 사용할 하이퍼파라미터 값 집합에 대해 정보에 입각하지 않은 결정을 내립니다. 그리드 검색은 계산 비용이 많이 들 수 있습니다.

그리드 검색은 연속 검색 공간 내에서 검색하는 경우 영원히 실행됩니다.

랜덤 검색

각 반복에서 분포에 따라 임의의, 정보에 입각하지 않은 하이퍼파라미터 값 집합을 선택합니다. 랜덤 검색은 커맨드라인, Python 스크립트 또는 W&B 앱 UI 내에서 프로세스를 중지하지 않는 한 영원히 실행됩니다.

랜덤 (method: random) 검색을 선택하는 경우 메트릭 키를 사용하여 분포 공간을 지정합니다.

베이지안 탐색

랜덤 및 그리드 검색과 달리 베이지안 모델은 정보에 입각한 결정을 내립니다. 베이지안 최적화는 확률 모델을 사용하여 목적 함수를 평가하기 전에 대리 함수에서 값을 테스트하는 반복적인 프로세스를 통해 사용할 값을 결정합니다. 베이지안 탐색은 작은 수의 연속 파라미터에 적합하지만 확장성이 떨어집니다. 베이지안 탐색에 대한 자세한 내용은 Bayesian Optimization Primer 논문을 참조하십시오.

베이지안 탐색은 커맨드라인, Python 스크립트 또는 W&B 앱 UI 내에서 프로세스를 중지하지 않는 한 영원히 실행됩니다.

랜덤 및 베이지안 탐색을 위한 분포 옵션

parameter 키 내에서 하이퍼파라미터의 이름을 중첩합니다. 다음으로 distribution 키를 지정하고 값에 대한 분포를 지정합니다.

다음 표는 W&B가 지원하는 분포를 나열합니다.

`distribution` 키 값	설명
`constant`	상수 분포. 사용할 상수 값 (`value`)을 지정해야 합니다.
`categorical`	범주형 분포. 이 하이퍼파라미터에 대한 모든 유효한 값 (`values`)을 지정해야 합니다.
`int_uniform`	정수에 대한 이산 균등 분포. `max` 및 `min`을 정수로 지정해야 합니다.
`uniform`	연속 균등 분포. `max` 및 `min`을 부동 소수점으로 지정해야 합니다.
`q_uniform`	양자화된 균등 분포. `round(X / q) * q`를 반환합니다. 여기서 X는 균등 분포입니다. `q`의 기본값은 `1`입니다.
`log_uniform`	로그 균등 분포. `exp(min)`과 `exp(max)` 사이의 값 `X`를 반환합니다. 여기서 자연 로그는 `min`과 `max` 사이에서 균등하게 분포됩니다.
`log_uniform_values`	로그 균등 분포. `min`과 `max` 사이의 값 `X`를 반환합니다. 여기서 `log(`X`)`는 `log(min)`과 `log(max)` 사이에서 균등하게 분포됩니다.
`q_log_uniform`	양자화된 로그 균등 분포. `round(X / q) * q`를 반환합니다. 여기서 `X`는 `log_uniform`입니다. `q`의 기본값은 `1`입니다.
`q_log_uniform_values`	양자화된 로그 균등 분포. `round(X / q) * q`를 반환합니다. 여기서 `X`는 `log_uniform_values`입니다. `q`의 기본값은 `1`입니다.
`inv_log_uniform`	역 로그 균등 분포. `X`를 반환합니다. 여기서 `log(1/X)`는 `min`과 `max` 사이에서 균등하게 분포됩니다.
`inv_log_uniform_values`	역 로그 균등 분포. `X`를 반환합니다. 여기서 `log(1/X)`는 `log(1/max)`와 `log(1/min)` 사이에서 균등하게 분포됩니다.
`normal`	정규 분포. 평균 `mu` (기본값 `0`) 및 표준 편차 `sigma` (기본값 `1`)로 정규 분포된 값을 반환합니다.
`q_normal`	양자화된 정규 분포. `round(X / q) * q`를 반환합니다. 여기서 `X`는 `normal`입니다. Q의 기본값은 1입니다.
`log_normal`	로그 정규 분포. 자연 로그 `log(X)`가 평균 `mu` (기본값 `0`) 및 표준 편차 `sigma` (기본값 `1`)로 정규 분포된 값 `X`를 반환합니다.
`q_log_normal`	양자화된 로그 정규 분포. `round(X / q) * q`를 반환합니다. 여기서 `X`는 `log_normal`입니다. `q`의 기본값은 `1`입니다.

`early_terminate`

조기 종료 (early_terminate)를 사용하여 성능이 낮은 run을 중지합니다. 조기 종료가 발생하면 W&B는 새 하이퍼파라미터 값 집합으로 새 run을 만들기 전에 현재 run을 중지합니다.

early_terminate를 사용하는 경우 중지 알고리즘을 지정해야 합니다. 스윕 구성 내에서 early_terminate 내에 type 키를 중첩합니다.

중지 알고리즘

W&B는 현재 Hyperband 중지 알고리즘을 지원합니다.

Hyperband 하이퍼파라미터 최적화는 프로그램을 중지해야 하는지 또는 사전 설정된 하나 이상의 반복 횟수 ( brackets 라고 함)에서 계속해야 하는지 평가합니다.

W&B run이 bracket에 도달하면 스윕은 해당 run의 메트릭을 이전에 보고된 모든 메트릭 값과 비교합니다. 스윕은 run의 메트릭 값이 너무 높으면 (목표가 최소화인 경우) 또는 run의 메트릭 값이 너무 낮으면 (목표가 최대화인 경우) run을 종료합니다.

Brackets는 기록된 반복 횟수를 기반으로 합니다. brackets 수는 최적화하는 메트릭을 기록하는 횟수에 해당합니다. 반복은 단계, 에포크 또는 그 사이의 무언가에 해당할 수 있습니다. 단계 카운터의 숫자 값은 bracket 계산에 사용되지 않습니다.

bracket 일정을 만들려면 min_iter 또는 max_iter를 지정합니다.

키	설명
`min_iter`	첫 번째 bracket에 대한 반복을 지정합니다.
`max_iter`	최대 반복 횟수를 지정합니다.
`s`	총 bracket 수를 지정합니다 (`max_iter`에 필요).
`eta`	bracket 승수 일정을 지정합니다 (기본값: `3`).
`strict`	원본 Hyperband 논문을 더 면밀히 따르면서 실행을 적극적으로 정리하는 ‘엄격’ 모드를 활성화합니다. 기본값은 false입니다.

Hyperband는 몇 분마다 종료할 W&B run을 확인합니다. run 또는 반복이 짧으면 종료 run 타임스탬프가 지정된 brackets와 다를 수 있습니다.

`command`

command 키 내에서 중첩된 값으로 형식과 내용을 수정합니다. 파일 이름과 같은 고정된 구성 요소를 직접 포함할 수 있습니다.

Unix 시스템에서 /usr/bin/env는 OS가 환경에 따라 올바른 Python 인터프리터를 선택하도록 합니다.

W&B는 코맨드의 가변 구성 요소에 대해 다음 매크로를 지원합니다.

코맨드 매크로	설명
`${env}`	Unix 시스템의 경우 `/usr/bin/env`, Windows에서는 생략됩니다.
`${interpreter}`	`python`으로 확장됩니다.
`${program}`	스윕 구성 `program` 키로 지정된 트레이닝 스크립트 파일 이름입니다.
`${args}`	`--param1=value1 --param2=value2` 형식의 하이퍼파라미터 및 해당 값입니다.
`${args_no_boolean_flags}`	`--param1=value1` 형식의 하이퍼파라미터 및 해당 값입니다. 단, 부울 파라미터는 `True`이면 `--boolean_flag_param` 형식이고 `False`이면 생략됩니다.
`${args_no_hyphens}`	`param1=value1 param2=value2` 형식의 하이퍼파라미터 및 해당 값입니다.
`${args_json}`	JSON으로 인코딩된 하이퍼파라미터 및 해당 값입니다.
`${args_json_file}`	JSON으로 인코딩된 하이퍼파라미터 및 해당 값이 포함된 파일의 경로입니다.
`${envvar}`	환경 변수를 전달하는 방법입니다. `${envvar:MYENVVAR}`은 MYENVVAR 환경 변수의 값으로 확장됩니다.