본문 바로가기
정보관리기술사/인공지능

과적합(Overfitting)과 과적합 문제의 개념

by 두음달인 2022. 10. 28.
반응형

예전에 올렸던 글 중에 새로운 기술 토픽을 보게될 때

개념 파악이 매우 중요하다고 설명드렸었던적이 있었는데,

127회 기출문제인 "과적합(Overfitting)의 발생이유와 해결방안" 풀이에 앞서

과적합에 대한 정의를 먼저 위키백과에서 찾아 봤습니다.

 

제가 공부하는 습관이기도 하지만,

토픽에 대한 정의는 꼭 한번씩 찾아보고 읽어보시길 권고드립니다.

 

1교시형은 문제에 기술된 토픽의 개념 정의가 틀리면

거의 회복하기 어려운 점수를 받게 됩니다.

 

무조건 ~ 가급적~

2줄 내외로 정의를 완벽하게 기술할 수 있도록 꾸준히 노력해야 합니다.

 

과적합 (Overfitting), 과대적합

 

기계 학습(machine learning)에서 학습 데이터를 과하게 학습(overfitting)하는 것

출처 : 위키백과

초록색 선은 과적합된 모델을, 검은색 선은 일반 모델을 나타낸다.

 

위키백과에서 설명된 그림을 보면 검은색 선이 일반 모델이고, 초록색 선이 과적합된 모델입니다.

 

이렇게 하면 문제가 뭘까요?

위키백과에서 간단히 언급되어 있는데...

 

일반적으로 학습 데이타는 실제 데이타의 부분 집합이므로

학습데이타에 대해서는 오차가 감소하지만 실제 데이타에 대해서는 오차가 증가하게 된다.

 

또 하나의 개념을 찾아봤습니다. 

 

과적합 문제

 

학습을 과하게 시켜 학습 데이터에선 최적의 결과를 내지만 새로운 데이터에 대해선 판단력이 부정확해지는 문제

 

정말 중요한 그림이 나와 있는데, Underfitted, Good Fit, Overfitted가 그림으로 비교 설명되어 있습니다.

 

127회에 Overfitting이 나왔다면  129회 이후 Underfitting이 나올수 도 있습니다.

비교 문제가 나올수도 있고

 

출처 : IT 위키

 

문제가 있다면 해결방안도 필요하겠죠!!

 

IT 위키에서 언급된 것은 아래 4가지인데,

 

. 다양한 데이터 추가
. 드롭 아웃(Drop Out)
. 조기 중단(Early Stop)
. 제한된 볼츠만 머신(Restricted Boltzman Machine, RBM)

 

제가 공부했었던 책에 써 놓았던 두음은 절규교배인데 기억이 가물가물하네요..

 

나중에 찾아서 추가 포스팅 하겠습니다.

 

출제 가능 문제

 

다중회귀분석에서 발생할 수 있는 오버피팅(Overfitting)문제에 대하여 설명하고
Ridge Regression과 Lasso Regression을 설명하시오.

 

머신러닝 모델의 언더피팅(Underfitting)과 오버피팅(Overfitting)을 비교하여 설명하시오.

 

참고 자료

 

과적합 - 위키백과, 우리 모두의 백과사전 (wikipedia.org)

 

과적합 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전.

ko.wikipedia.org

 

과적합 문제 - IT위키 (itwiki.kr)

 

IT위키

IT에 관한 모든 지식. 함께 만들어가는 깨끗한 위키

itwiki.kr

 

반응형

댓글