2023/2023-1

[4월 20일(목)] 인공지능 입문(이론) - Ensemble Learning

JWonK 2023. 4. 20. 14:14
728x90
반응형

Ensemble Learning에서 중요한 것은 다양성

  • 다양함을 고려하고 잘 결합하여 결정에 대한 신뢰를 높이고 최적의 결과물을 도출하는 것이 목표

 

 

 

  • Raw Data는 Noise가 매우 많다.
  • 다양한 model들의 결과물을 통해 과적합을 줄일 수 있다.

 

 

 

 

  • 한국말로 표현하면 큰 수의 법칙
  • 던지는 숫자가 많아질수록 실제 51%라는 참 확률값에 근사값에 가까워진다.

 

 

 

  • Hard voting Classifier과 Soft voting Classifier의 결과가 다를 수도 있다

 

 

 

 

★ 다양성 확보가 제일 중요 ★

 

 

 

 

 

  • Bagging : 데이터를 랜덤하게 Sample
  • Boosting : 데이터에 가중치를 부여한다. 중요도에 따라
  • Random Forest : 데이터를 Sample하는 것이 아닌 Feature를 Sample한다.

 

 

 

 

  • Bagging과 Pasting의 차이점은 데이터를 Sample한 후 다시 데이터에 포함시키냐 여부
  • Bagging은 Sample한 후에도 데이터에 포함시키나 Pasting은 포함시키지 않음
  • Pasting은 전에 Sample한 데이터가 현재 데이터 Sample에 영향을 미친다.

 

 

 

Bagging은 Bootstrap Aggregating의 줄임말로, 샘플 데이터를 부트스트랩 방식으로 여러번 샘플링하여 모델을 학습하는 앙상블 기법 중 하나입니다. Bagging의 진행과정은 다음과 같습니다.

 

1. 데이터 샘플링

: 입력 데이터셋에서 복원 추출 방식으로 무작위 샘플링을 수행합니다. 이를 통해 샘플링된 데이터셋을 생성합니다. 이러한 샘플링 과정을 부트스트래핑이라고 합니다.

2. 모델 학습

: 샘플링된 데이터셋을 사용하여 다수의 모델을 학습합니다. 모델은 같은 알고리즘을 사용하지만, 서로 다른 샘플링 데이터셋을 사용하므로 각 모델은 약간씩 다른 결과를 출력합니다.

3. 모델 결합

: 각 모델이 학습된 후, 이들의 예측 결과를 결합하여 최종 예측 결과를 도출합니다. 대부분의 경우, 각 모델의 예측 결과를 단순 평균 또는 다수결 투표 등의 방식으로 결합합니다.

4. 성능 평가

: Bagging 모델의 성능은 일반적으로 Out-of-Bag (OOB) 샘플을 사용하여 검증합니다. OOB 샘플은 어떤 모델에도 샘플링되지 않은 데이터로, 이를 사용하여 모델의 예측 성능을 검증합니다.

5. 모델 성능 개선

: 성능이 낮은 모델이나 샘플링 데이터셋에서 잘못 분류된 데이터를 사용하여 모델을 재학습합니다. 이러한 과정을 반복하여 Bagging 모델의 성능을 높입니다.

 

Bagging 알고리즘을 사용하면 개별 모델의 예측 오차를 줄이고, 모델의 일반화 성능을 향상시킬 수 있습니다.

 

 

 

 

 

 

  • Regression은 연속적인 값을 이용

 

 

 

 

  • Bagging을 적용한 Decision Tree가 훨씬 결과가 나은 것을 확인할 수 있다.

 

 

  • 뽑히지 않은 것들의 대한 데이터 관련

 

 

 

Bagging 기법은 많은 경우에 효과적인 앙상블 기법 중 하나입니다. 그러나 Bagging 기법에도 몇 가지 한계가 있습니다.

 

1. 계산 비용

: Bagging 기법은 여러 개의 모델을 학습하고 결합하는 과정이 필요하므로, 학습과 예측 시 계산 비용이 매우 큽니다. 특히 대규모 데이터셋에서는 Bagging 모델의 학습과 예측에 많은 시간이 소요될 수 있습니다.

2. 과적합

: Bagging은 모델의 일반화 성능을 향상시키는데 도움을 줄 수 있지만, 모델의 분산이 크지 않을 경우 과적합 문제가 발생할 수 있습니다. 이는 모델의 분산을 증가시키는 다른 앙상블 기법인 Random Forest에서도 발생할 수 있습니다.

3. 다양성 부족

: Bagging에서 각 모델이 학습하는 데이터는 서로 독립적으로 샘플링됩니다. 이 때문에 서로 다른 모델이 생성될 수 있지만, 모델 간의 다양성이 부족할 수 있습니다. 이는 앙상블 모델의 예측력을 높이기 위한 다른 앙상블 기법인 Boosting과 비교할 때 한계점으로 지적됩니다.

4. 해석의 어려움

: Bagging 앙상블은 다수의 모델을 결합한 복잡한 모델입니다. 따라서 Bagging 모델을 이용한 예측 결과를 해석하는 것이 어려울 수 있습니다. 예를 들어, 각 모델이 어떤 변수를 주요하게 고려했는지, 각 변수의 영향력이 어떤지 등을 파악하기가 어렵습니다.

 

 

 

 

 

  • Feature Importance를 측정하여 평균을 구한다.

 

 

 

 

  • 많이 쓰이는 기법

 

 

 

 

  • 선형 분류기를 만들어 분류하였는데 약간의 오분류가 존재함

 

오류를 잡아가는 과정

 

 

 

 

728x90
반응형