Ensemble Learning에서 중요한 것은 다양성
- 다양함을 고려하고 잘 결합하여 결정에 대한 신뢰를 높이고 최적의 결과물을 도출하는 것이 목표
- Raw Data는 Noise가 매우 많다.
- 다양한 model들의 결과물을 통해 과적합을 줄일 수 있다.
- 한국말로 표현하면 큰 수의 법칙
- 던지는 숫자가 많아질수록 실제 51%라는 참 확률값에 근사값에 가까워진다.
- Hard voting Classifier과 Soft voting Classifier의 결과가 다를 수도 있다
★ 다양성 확보가 제일 중요 ★
- Bagging : 데이터를 랜덤하게 Sample
- Boosting : 데이터에 가중치를 부여한다. 중요도에 따라
- Random Forest : 데이터를 Sample하는 것이 아닌 Feature를 Sample한다.
- Bagging과 Pasting의 차이점은 데이터를 Sample한 후 다시 데이터에 포함시키냐 여부
- Bagging은 Sample한 후에도 데이터에 포함시키나 Pasting은 포함시키지 않음
- Pasting은 전에 Sample한 데이터가 현재 데이터 Sample에 영향을 미친다.
Bagging은 Bootstrap Aggregating의 줄임말로, 샘플 데이터를 부트스트랩 방식으로 여러번 샘플링하여 모델을 학습하는 앙상블 기법 중 하나입니다. Bagging의 진행과정은 다음과 같습니다.
1. 데이터 샘플링
: 입력 데이터셋에서 복원 추출 방식으로 무작위 샘플링을 수행합니다. 이를 통해 샘플링된 데이터셋을 생성합니다. 이러한 샘플링 과정을 부트스트래핑이라고 합니다.
2. 모델 학습
: 샘플링된 데이터셋을 사용하여 다수의 모델을 학습합니다. 모델은 같은 알고리즘을 사용하지만, 서로 다른 샘플링 데이터셋을 사용하므로 각 모델은 약간씩 다른 결과를 출력합니다.
3. 모델 결합
: 각 모델이 학습된 후, 이들의 예측 결과를 결합하여 최종 예측 결과를 도출합니다. 대부분의 경우, 각 모델의 예측 결과를 단순 평균 또는 다수결 투표 등의 방식으로 결합합니다.
4. 성능 평가
: Bagging 모델의 성능은 일반적으로 Out-of-Bag (OOB) 샘플을 사용하여 검증합니다. OOB 샘플은 어떤 모델에도 샘플링되지 않은 데이터로, 이를 사용하여 모델의 예측 성능을 검증합니다.
5. 모델 성능 개선
: 성능이 낮은 모델이나 샘플링 데이터셋에서 잘못 분류된 데이터를 사용하여 모델을 재학습합니다. 이러한 과정을 반복하여 Bagging 모델의 성능을 높입니다.
Bagging 알고리즘을 사용하면 개별 모델의 예측 오차를 줄이고, 모델의 일반화 성능을 향상시킬 수 있습니다.
- Regression은 연속적인 값을 이용
- Bagging을 적용한 Decision Tree가 훨씬 결과가 나은 것을 확인할 수 있다.
- 뽑히지 않은 것들의 대한 데이터 관련
Bagging 기법은 많은 경우에 효과적인 앙상블 기법 중 하나입니다. 그러나 Bagging 기법에도 몇 가지 한계가 있습니다.
1. 계산 비용
: Bagging 기법은 여러 개의 모델을 학습하고 결합하는 과정이 필요하므로, 학습과 예측 시 계산 비용이 매우 큽니다. 특히 대규모 데이터셋에서는 Bagging 모델의 학습과 예측에 많은 시간이 소요될 수 있습니다.
2. 과적합
: Bagging은 모델의 일반화 성능을 향상시키는데 도움을 줄 수 있지만, 모델의 분산이 크지 않을 경우 과적합 문제가 발생할 수 있습니다. 이는 모델의 분산을 증가시키는 다른 앙상블 기법인 Random Forest에서도 발생할 수 있습니다.
3. 다양성 부족
: Bagging에서 각 모델이 학습하는 데이터는 서로 독립적으로 샘플링됩니다. 이 때문에 서로 다른 모델이 생성될 수 있지만, 모델 간의 다양성이 부족할 수 있습니다. 이는 앙상블 모델의 예측력을 높이기 위한 다른 앙상블 기법인 Boosting과 비교할 때 한계점으로 지적됩니다.
4. 해석의 어려움
: Bagging 앙상블은 다수의 모델을 결합한 복잡한 모델입니다. 따라서 Bagging 모델을 이용한 예측 결과를 해석하는 것이 어려울 수 있습니다. 예를 들어, 각 모델이 어떤 변수를 주요하게 고려했는지, 각 변수의 영향력이 어떤지 등을 파악하기가 어렵습니다.
- Feature Importance를 측정하여 평균을 구한다.
- 많이 쓰이는 기법
- 선형 분류기를 만들어 분류하였는데 약간의 오분류가 존재함
오류를 잡아가는 과정
'2023 > 2023-1' 카테고리의 다른 글
[4월 27일(목)] 인공지능 입문(이론) - Neural Network (0) | 2023.04.27 |
---|---|
[4월 27일(목)] 인공지능 입문(이론) - Ensemble Learning (2) (0) | 2023.04.27 |
[4월 13일(목)] 인공지능 입문(이론) (0) | 2023.04.13 |
[4월11일(화)] 인공지능 입문(이론) (0) | 2023.04.11 |
[캡스톤 디자인] 4월 5일(수) 회의록 (0) | 2023.04.05 |