모델의 최적의 하이퍼 파라미터 찾기 | Hyperparameter tuning

그녀의 일

모델의 최적의 하이퍼 파라미터 찾기 | Hyperparameter tuning - GridSearchCV, RandomizedSearchCV

뻔짓 2023. 3. 9. 11:34

728x90

1. GridSearchCV()

: 시도해 볼 하이퍼파라미터들을 지정하면, 모든 조합에 대해 교차검증 후 가장 좋은 성능을 내는 하이퍼파라미터 조합을 찾음.

단, 하이퍼파라미터 값들이 많아지면 시간이 오래 걸린다는 단점이 있음.

파라미터 설명

주요 매개변수
> estimator : 모델 객체 지정
> param_grid : 하이퍼파라미터 목록을 dictionary 로 전달
> scoring : 평가 지표
> cv : 교차검증 시 fold 개수
> n_jobs : 사용할 CPU 코어 개수 (1: 기본값, -1: 모든 코어 다 사용)

메소드
> fit(X, y) : 학습
> predict(X) : 제일 좋은 성능을 낸 모델로 예측
> predict_proba(X) : 제일 좋은 성능을 낸 모델로 predict_proba() 호출

결과 조회 변수
> cv_results_ : 파라미터 조합별 결과 조회
> best_params_ : 가장 좋은 성능을 낸 parameter 조합 조회
> best_estimator_ : 가장 좋은 성능을 낸 모델 반환

예시

penalty = ['l1', 'l2']
C = [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000]
class_weight = [{1:0.5, 0:0.5}, {1:0.4, 0:0.6}, {1:0.6, 0:0.4}, {1:0.7, 0:0.3}]
solver = ['liblinear', 'saga']

param_grid = dict(penalty=penalty,
                  C=C,
                  class_weight=class_weight,
                  solver=solver)

grid = GridSearchCV(estimator=logistic, param_grid=param_grid, scoring='roc_auc', verbose=1, n_jobs=-1)
grid_result = grid.fit(X_train, y_train)

print('Best Score: ', grid_result.best_score_)
print('Best Params: ', grid_result.best_params_)

Best Score:  0.7899186582809224
Best Params:  {'C': 1, 'class_weight': {1: 0.6, 0: 0.4}, 'penalty': 'l1', 'solver': 'liblinear'}

GridSearch로 찾은 하이퍼파라미터 조합으로 LogisticRegression (estimator) 적용

logistic = linear_model.LogisticRegression(C=1, class_weight={1:0.6, 0:0.4}, penalty='l1', solver='liblinear')
get_cv_scores(logistic)

3. RandomizedSearchCV()

: GridSearch 와 동일한 방식으로 사용하지만 모든 조합을 다 시도하지는 않고, 각 반복마다 임의의 값만 대입해 지정한 횟수만큼 평가함.

파라미터 설명

주요 매개변수
> estimator : 모델 객체 지정
> param_distributions : 하이퍼파라미터 목록을 dictionary 로 전달
> n_iter : 파라미터 검색 횟수 (default = 10)
> scoring : 평가 지표
> cv : 교차검증 시 fold 개수
> n_jobs : 사용할 CPU 코어 개수 (1: 기본값, -1: 모든 코어 다 사용)

메소드
> fit(X, y) : 학습
> predict(X) : 제일 좋은 성능을 낸 모델로 예측
> predict_proba(X) : 제일 좋은 성능을 낸 모델로 predict_proba() 호출

결과 조회 변수
> cv_results_ : 파라미터 조합별 결과 조회
> best_params_ : 가장 좋은 성능을 낸 parameter 조합 조회
> best_estimator_ : 가장 좋은 성능을 낸 모델 반환

예시

loss = ['hinge', 'log', 'modified_huber', 'squared_hinge', 'perceptron']
penalty = ['l1', 'l2', 'elasticnet']
alpha = [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000]
learning_rate = ['constant', 'optimal', 'invscaling', 'adaptive']
class_weight = [{1:0.5, 0:0.5}, {1:0.4, 0:0.6}, {1:0.6, 0:0.4}, {1:0.7, 0:0.3}]
eta0 = [1, 10, 100]

param_distributions = dict(loss=loss,
                           penalty=penalty,
                           alpha=alpha,
                           learning_rate=learning_rate,
                           class_weight=class_weight,
                           eta0=eta0)

random = RandomizedSearchCV(estimator=sgd, param_distributions=param_distributions, scoring='roc_auc', verbose=1, n_jobs=-1, n_iter=1000)
random_result = random.fit(X_train, y_train)

print('Best Score: ', random_result.best_score_)
print('Best Params: ', random_result.best_params_)

Best Score:  0.7980969951083158
Best Params:  {'penalty': 'elasticnet', 'loss': 'log', 'learning_rate': 'invscaling', 'eta0': 1, 'class_weight': {1: 0.7, 0: 0.3}, 'alpha': 0.1}

sgd = linear_model.SGDClassifier(alpha=0.1,
                                 class_weight={1:0.7, 0:0.3},
                                 eta0=100,
                                 learning_rate='optimal',
                                 loss='log',
                                 penalty='elasticnet')
get_cv_scores(sgd)

728x90

저작자표시 (새창열림)

'그녀의 일' 카테고리의 다른 글

Swtichback test란? (0)	2023.03.23
Apach Kafka 란? \| producer, consumer, topic, partition 용어 설명 (0)	2023.03.16
머신러닝 프로세스 한 번에 처리하기 \| Pipeline, make_pipeline (0)	2023.03.09
주피터 노트북 파일 및 폴더 한 번에 다운로드하기 \| tar 압축하기, 압축 해제하기 (0)	2023.03.06
SGD (Stochastic Gradient Descent : 확률적 경사 하강법) (0)	2023.03.05

현재글모델의 최적의 하이퍼 파라미터 찾기 | Hyperparameter tuning - GridSearchCV, RandomizedSearchCV

그 남자 ♡ 그 여자 의 일상, 그리고 부자되기 프로젝트

연말정산환급, 소득공제, 소득세, 간이세액표, 세액공제, 2023년연말정산, 2022년연말정산, 분당예식장, 원천징수, 라온제나,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Fun한 ziit하는 블로그

모델의 최적의 하이퍼 파라미터 찾기 | Hyperparameter tuning - GridSearchCV, RandomizedSearchCV

1. GridSearchCV()

3. RandomizedSearchCV()

'그녀의 일' 카테고리의 다른 글

'그녀의 일'의 다른글

티스토리툴바

모델의 최적의 하이퍼 파라미터 찾기 | Hyperparameter tuning - GridSearchCV, RandomizedSearchCV

1. GridSearchCV()

3. RandomizedSearchCV()

'그녀의 일' 카테고리의 다른 글

'그녀의 일'의 다른글

관련글

티스토리툴바