랜덤 검색 간결: Scikit-learn에서 하이퍼파라미터 튜닝 마스터

Name: Antonio Di Nicola

Published on 2023. 8. 17.

하이퍼파라미터 튜닝은 모델의 성능에 큰 영향을 미칠 수 있는 머신러닝의 중요한 부분입니다. 이 과정은 모델의 파라미터를 조정하여 예측을 최적화하는 것을 포함합니다. 하이퍼파라미터 튜닝을 위한 인기있는 방법 중 하나는 특히 Scikit-learn 라이브러리에서 사용되는 랜덤 검색입니다. 이 기사에서는 랜덤 검색의 개념, Scikit-learn에서의 랜덤 검색의 간결한 사용 방법, 그리고 랜덤 검색과 그리드 검색의 차이에 대해 알아보겠습니다. 또한 랜덤 검색을 사용한 하이퍼파라미터 튜닝의 몇 가지 최적화된 방법과 출력을 해석하는 방법도 알아보겠습니다.

Scikit-learn에서의 랜덤 검색은 하이퍼파라미터 튜닝을 위한 강력한 도구입니다. 매개변수의 모든 가능한 조합을 체계적으로 시도하는 그리드 검색과 달리, 랜덤 검색은 시도할 매개변수의 무작위 조합을 선택합니다. 이 방법은 효율적일 수 있습니다. 특히 많은 수의 매개변수를 다룰 때, 시도할 매개변수 설정의 수를 제어할 수 있도록 합니다.

Scikit-learn에서의 랜덤 검색이란?

Scikit-learn에서 랜덤 검색은 RandomizedSearchCV 클래스를 통해 구현됩니다. 이 클래스는 지정된 매개변수 값에 대한 탐색을 수행합니다. 그러나 GridSearchCV와 달리 모든 매개변수 조합을 모두 시도하는 것이 아니라, 지정된 분포를 가진 매개변수 공간에서 주어진 수의 후보들을 샘플링합니다. 특히 많은 수의 매개변수나 모델 훈련에 필요한 시간이 오래 걸릴 때, 그리드 검색보다 하이퍼파라미터 최적화에 더 효율적일 수 있습니다.

다음은 RandomizedSearchCV를 사용하는 간단한 예입니다:

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint as sp_randint
 
## 분류기 초기화
clf = RandomForestClassifier(n_jobs=-1)
 
## 샘플링할 매개변수 및 분포 지정
param_dist = {"max_depth": [3, None],
              "max_features": sp_randint(1, 11),
              "min_samples_split": sp_randint(2, 11),
              "bootstrap": [True, False],
              "criterion": ["gini", "entropy"]}
 
## 랜덤 검색 실행
n_iter_search = 20
random_search = RandomizedSearchCV(clf, param_distributions=param_dist,
                                   n_iter=n_iter_search, cv=5)
 
random_search.fit(X, y)

이 예제에서 RandomizedSearchCV는 매개변수 공간에서 20개의 후보를 샘플링하고, 각각에 대해 5-fold 교차 검증을 수행합니다.

랜덤 검색에 말 더하기

Scikit-learn에서 랜덤 검색의 상세도는 verbose 매개변수를 사용하여 제어할 수 있습니다. 값이 높을수록 적용 과정 중에 출력되는 메시지가 많아집니다. 예를 들어 verbose=10으로 설정하면 최대한 많은 메시지가 출력되며, 적용 과정을 자세히 알 수 있습니다. 이는 큰 작업을 실행할 때 특히 유용하며, 작업의 진행 상황을 모니터링할 수 있도록 합니다.

다음은 랜덤 검색을 상세하게 만드는 방법입니다:

random_search = RandomizedSearchCV(clf, param_distributions=param_dist,
                                   n_iter=n_iter_search, cv=5, verbose=10)

verbose=10으로 설정하면, Scikit-learn은 시작되고 완료된 각 작업에 대한 메시지를 출력합니다.

Scikit-learn에서의 랜덤 검색 vs 그리드 검색

Scikit-learn에서 랜덤 검색과 그리드 검색은 모두 하이퍼파라미터 최적화에 사용되는 방법입니다. 매개변수의 공간을 탐색하는 것은 같지만, 작동 방식은 근본적으로 다릅니다.

그리드 검색은 GridSearchCV로 구현되며, 모든 가능한 매개변수 조합을 체계적으로 시도합니다. 따라서 한 매개변수에 10개의 값이 있고 다른 매개변수에도 10개가 있다면, 그리드 검색은 총 100개의 조합을 모두 시도합니다. 이는 계산 비용이 많이 들며 시간이 많이 소요되므로, 많은 수의 매개변수 또는 모델 훈련에 오랜 시간이 걸리는 경우에 특히 적절하지 않습니다. 그 반면, 'RandomizedSearchCV'로 구현된 무작위 검색은 매개 변수 공간에서 주어진 후보군들을 무작위로 샘플링합니다. 이는 시도해 볼 매개 변수 설정의 수를 제어할 수 있으며, 특히 많은 수의 매개 변수와 함께 작업할 때 모든 조합을 시도하는 것보다 훨씬 효율적일 수 있습니다.

무작위 검색과 그리드 검색 간의 매개 변수 설정 결과는 상당히 유사하지만, 무작위 검색의 실행 시간은 극적으로 낮습니다. 이는 매우 많은 수의 매개 변수와 계산 자원이 제한된 경우 무작위 검색이 선호되는 선택이 됩니다.

비교를 위해 'GridSearchCV'를 사용하는 예제입니다:

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
 
## 분류기 초기화
clf = RandomForestClassifier(n_jobs=-1)
 
## 샘플링할 매개 변수 및 분포 지정
param_grid = {"max_depth": [3, None],
              "max_features": [1, 3, 10],
              "min_samples_split": [2, 3, 10],
              "bootstrap": [True, False],
              "criterion": ["gini", "entropy"]}
 
## 그리드 검색 실행
grid_search = GridSearchCV(clf, param_grid=param_grid, cv=5)
 
grid_search.fit(X, y)

이 예제에서 'GridSearchCV'는 모든 매개 변수 조합을 시도하고 각각에 대해 5-fold 교차 검증을 수행합니다.

두 방법 모두 장단점이 있으며, 무작위 검색과 그리드 검색 중 어느 것을 선택할지는 특정 요구 사항과 자원에 따라 달라집니다. 충분한 계산 자원과 시간이 있으며 최적의 매개 변수를 찾으려는 경우, 그리드 검색이 적합한 방법일 수 있습니다. 그러나 시간과 자원을 절약하고 충분히 좋은 매개 변수 세트를 찾는 것이 괜찮은 경우 무작위 검색을 선택하는 것이 더 나을 수 있습니다.

무작위 검색을 사용한 하이퍼파라미터 튜닝을 위한 최적의 방법

무작위 검색을 사용하여 하이퍼파라미터 튜닝을 할 때는 여러 가지 최적화 방법을 사용할 수 있습니다.

첫째로, 작업 중인 모델의 하이퍼파라미터와 그들이 취할 수 있는 값의 범위에 대한 좋은 이해가 중요합니다. 이를 통해 무작위 검색이 샘플링하는 의미 있는 매개변수 공간을 정의할 수 있습니다.

둘째로, 간단한 학습-테스트 분리 대신 분류된 k-fold 교차 검증을 사용하는 것이 좋습니다. 이렇게 하면 각각의 데이터 조각이 각 클래스에서 샘플의 같은 비율을 가질 수 있으며, 특히 불균형한 데이터셋을 다룰 때 신뢰할 수 있는 결과를 얻을 수 있습니다.

셋째로, 결과를 재현하기 위해 무작위 검색에 대한 랜덤 상태를 설정하는 것을 기억해야 합니다. 이는 다른 모델 또는 다른 하이퍼파라미터 집합의 성능을 비교하거나, 잠재적인 문제를 진단하는 데 특히 유용할 수 있습니다.

마지막으로, 검색 진행 상황을 모니터링하기 위해 verbose 매개변수를 사용하는 것을 잊지 마세요. 큰 작업을 실행할 때 특히 도움이 되며, 작업을 추적하고 잠재적인 문제를 진단하는 데 도움이 됩니다.

Scikit-learn에서 무작위 검색 결과 해석하기

Scikit-learn에서 무작위 검색의 출력은 잘 맞춘 'RandomizedSearchCV' 객체입니다. 이 객체에는 검색 중 발견한 최적의 매개변수, 각 매개변수 조합에 대한 교차 검증 결과 및 최적의 매개변수로 학습된 모델에 대한 정보가 포함되어 있습니다.

best_params_ 속성을 사용하여 최적의 매개변수에 액세스할 수 있습니다.

best_params = random_search.best_params_

이렇게 하면 매개변수 이름을 키, 최적의 값은 값으로 가지는 사전이 반환됩니다.

교차 검증 결과는 cv_results_ 속성을 사용하여 액세스할 수 있습니다. 이는 각 매개변수 조합에 대한 테스트 점수의 평균과 표준 편차와 같은 교차 검증 프로세스와 관련된 여러 키를 가진 사전을 반환합니다.

최적의 매개변수로 학습된 모델은 best_estimator_ 속성을 사용하여 액세스할 수 있습니다. 이 모델을 사용하여 새 데이터에 대한 예측을 만들 수 있습니다.

FAQs

Scikit-learn의 무작위 검색과 그리드 검색에는 어떤 차이가 있나요?

Scikit-learn에서의 무작위 검색과 그리드 검색은 모두 하이퍼파라미터 최적화 방법입니다. 그들 사이의 주요 차이점은 그리드 검색이 매개변수의 모든 가능한 조합을 완전히 시도하는 반면, 무작위 검색은 매개변수 공간에서 주어진 후보군의 수를 무작위로 샘플링합니다. 이는 많은 수의 매개변수나 모델의 학습 시간이 긴 경우, 그리드 검색보다 무작위 검색이 더 효율적입니다.

Scikit-learn에서 무작위 검색을 어떻게 자세하게 출력할 수 있나요?

Scikit-learn에서 무작위 검색의 자세함은 'verbose' 매개변수를 사용하여 제어할 수 있습니다. 값이 클수록 적합 과정 중에 인쇄되는 메시지가 더 많아집니다. 예를 들어 'verbose=10'으로 설정하면 최대한의 메시지가 인쇄되어 적합 과정에 대한 자세한 내용을 제공합니다.

무작위 검색을 사용한 하이퍼파라미터 튜닝에 대한 어떤 권장 사항이 있나요?

무작위 검색을 사용한 하이퍼파라미터 튜닝의 몇 가지 권장 사항은 모델의 하이퍼파라미터와 그들이 가질 수 있는 값의 범위에 대한 좋은 이해, 분류된 k-fold 교차 검증 사용, 재현성을 위한 무작위 상태 설정, 검색 진행 상황을 모니터링하기 위해 'verbose' 매개변수 사용 등이 있습니다. 이 마크다운 파일의 한국어 번역을 제공해주세요. import BlogHeader from '../../../components/blog-header'; import BeehiivEmbed from '../../../components/BeehiivEmbed'; import JSONldScript from '../../../components/jsonld-script';와 같은 코드를 번역하지 말고, JSONldScript의 내용을 번역하세요. frontmatter가 있는 경우 language 매개변수를 일치하는 ko로 번역하세요. 파일은 다음과 같습니다:

랜덤 서치와 그리드 서치의 차이는 무엇인가요?

랜덤 서치와 그리드 서치는 모두 scikit-learn에서의 하이퍼파라미터 최적화 방법입니다. 그러나 그들의 주요 차이점은 그리드 서치가 매개변수의 모든 가능한 조합을 철저하게 시도하는 반면, 랜덤 서치는 매개변수 공간에서 지정된 수의 후보를 무작위로 샘플링한다는 것입니다. 이로 인해 랜덤 서치는 매개변수의 수가 많거나 모델이 훈련하는 데 시간이 오래 걸릴 때 그리드 서치보다 효율적입니다.

Scikit-learn에서 랜덤 서치를 verbose하게 만들 수 있나요?

Scikit-learn에서 랜덤 서치의 verbose함은 verbose 매개변수를 사용하여 제어할 수 있습니다. 값이 높을수록 fit 과정 중에 출력되는 메시지가 많아집니다. 예를 들어, verbose=10으로 설정하면 많은 양의 메시지가 출력되어 fit 과정에 대한 자세한 통찰력을 제공합니다.

랜덤 서치를 사용한 하이퍼파라미터 튜닝에 대한 몇 가지 최적의 방법은 무엇인가요?

랜덤 서치를 사용한 하이퍼파라미터 튜닝에 대한 몇 가지 최적의 방법은 다음과 같습니다:

하이퍼파라미터와 그들의 값 범위에 대한 이해
계층적 k-fold 교차검증의 사용
재현성을 위해 무작위 seed 설정
verbose 매개변수를 사용하여 탐색 진행 상황 모니터링하기

데이터 인텔리전스란 무엇인가요? 인텔리전트 데이터 인사이트의 힘을 발견해보세요 모든 것을 알아야 할 데이터 퓨전