[4월 20일(목)] 인공지능 입문(이론)

2023/2023-1

[4월 20일(목)] 인공지능 입문(이론) - Ensemble Learning

JWonK 2023. 4. 20. 14:14

728x90

Ensemble Learning에서 중요한 것은 다양성

다양함을 고려하고 잘 결합하여 결정에 대한 신뢰를 높이고 최적의 결과물을 도출하는 것이 목표

Raw Data는 Noise가 매우 많다.
다양한 model들의 결과물을 통해 과적합을 줄일 수 있다.

한국말로 표현하면 큰 수의 법칙
던지는 숫자가 많아질수록 실제 51%라는 참 확률값에 근사값에 가까워진다.

Hard voting Classifier과 Soft voting Classifier의 결과가 다를 수도 있다

★ 다양성 확보가 제일 중요 ★

Bagging : 데이터를 랜덤하게 Sample
Boosting : 데이터에 가중치를 부여한다. 중요도에 따라
Random Forest : 데이터를 Sample하는 것이 아닌 Feature를 Sample한다.

Bagging과 Pasting의 차이점은 데이터를 Sample한 후 다시 데이터에 포함시키냐 여부
Bagging은 Sample한 후에도 데이터에 포함시키나 Pasting은 포함시키지 않음
Pasting은 전에 Sample한 데이터가 현재 데이터 Sample에 영향을 미친다.

Bagging은 Bootstrap Aggregating의 줄임말로, 샘플 데이터를 부트스트랩 방식으로 여러번 샘플링하여 모델을 학습하는 앙상블 기법 중 하나입니다. Bagging의 진행과정은 다음과 같습니다.

1. 데이터 샘플링

: 입력 데이터셋에서 복원 추출 방식으로 무작위 샘플링을 수행합니다. 이를 통해 샘플링된 데이터셋을 생성합니다. 이러한 샘플링 과정을 부트스트래핑이라고 합니다.

2. 모델 학습

: 샘플링된 데이터셋을 사용하여 다수의 모델을 학습합니다. 모델은 같은 알고리즘을 사용하지만, 서로 다른 샘플링 데이터셋을 사용하므로 각 모델은 약간씩 다른 결과를 출력합니다.

3. 모델 결합

: 각 모델이 학습된 후, 이들의 예측 결과를 결합하여 최종 예측 결과를 도출합니다. 대부분의 경우, 각 모델의 예측 결과를 단순 평균 또는 다수결 투표 등의 방식으로 결합합니다.

4. 성능 평가

: Bagging 모델의 성능은 일반적으로 Out-of-Bag (OOB) 샘플을 사용하여 검증합니다. OOB 샘플은 어떤 모델에도 샘플링되지 않은 데이터로, 이를 사용하여 모델의 예측 성능을 검증합니다.

5. 모델 성능 개선

: 성능이 낮은 모델이나 샘플링 데이터셋에서 잘못 분류된 데이터를 사용하여 모델을 재학습합니다. 이러한 과정을 반복하여 Bagging 모델의 성능을 높입니다.

Bagging 알고리즘을 사용하면 개별 모델의 예측 오차를 줄이고, 모델의 일반화 성능을 향상시킬 수 있습니다.

Regression은 연속적인 값을 이용

Bagging을 적용한 Decision Tree가 훨씬 결과가 나은 것을 확인할 수 있다.

뽑히지 않은 것들의 대한 데이터 관련

Bagging 기법은 많은 경우에 효과적인 앙상블 기법 중 하나입니다. 그러나 Bagging 기법에도 몇 가지 한계가 있습니다.

1. 계산 비용

: Bagging 기법은 여러 개의 모델을 학습하고 결합하는 과정이 필요하므로, 학습과 예측 시 계산 비용이 매우 큽니다. 특히 대규모 데이터셋에서는 Bagging 모델의 학습과 예측에 많은 시간이 소요될 수 있습니다.

2. 과적합

: Bagging은 모델의 일반화 성능을 향상시키는데 도움을 줄 수 있지만, 모델의 분산이 크지 않을 경우 과적합 문제가 발생할 수 있습니다. 이는 모델의 분산을 증가시키는 다른 앙상블 기법인 Random Forest에서도 발생할 수 있습니다.

3. 다양성 부족

: Bagging에서 각 모델이 학습하는 데이터는 서로 독립적으로 샘플링됩니다. 이 때문에 서로 다른 모델이 생성될 수 있지만, 모델 간의 다양성이 부족할 수 있습니다. 이는 앙상블 모델의 예측력을 높이기 위한 다른 앙상블 기법인 Boosting과 비교할 때 한계점으로 지적됩니다.

4. 해석의 어려움

: Bagging 앙상블은 다수의 모델을 결합한 복잡한 모델입니다. 따라서 Bagging 모델을 이용한 예측 결과를 해석하는 것이 어려울 수 있습니다. 예를 들어, 각 모델이 어떤 변수를 주요하게 고려했는지, 각 변수의 영향력이 어떤지 등을 파악하기가 어렵습니다.

Feature Importance를 측정하여 평균을 구한다.

많이 쓰이는 기법

선형 분류기를 만들어 분류하였는데 약간의 오분류가 존재함

오류를 잡아가는 과정

728x90

'2023 > 2023-1' 카테고리의 다른 글

[4월 27일(목)] 인공지능 입문(이론) - Neural Network (0)	2023.04.27
[4월 27일(목)] 인공지능 입문(이론) - Ensemble Learning (2) (0)	2023.04.27
[4월 13일(목)] 인공지능 입문(이론) (0)	2023.04.13
[4월11일(화)] 인공지능 입문(이론) (0)	2023.04.11
[캡스톤 디자인] 4월 5일(수) 회의록 (0)	2023.04.05

현재글[4월 20일(목)] 인공지능 입문(이론) - Ensemble Learning

원

250x250

트리, 정렬, 구현, 수학, 투포인터, 알고리즘, 시물레이션, 깊이 우선 탐색, 문자열, Spring, 백트래킹, 동적 계획법, 스프링, 너비우선탐색, 다익스트라, 다이나믹 프로그래밍, 동적계획법, 백준, 자료구조, 완전탐색,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

원