분류 전체보기7 Regularization, L2 regularization (Ridge), L1 regularization (Lasso) RegularizationOverfitting이 되지 않게 하기 위해 사용하는 방법 중 대표적인 것이 Regularization이다. Overfitting이 발생하는 이유는 모델의 복잡도가 데이터의 복잡도보다 커져서 그런 것이라고 이전 포스팅에서 언급한 바 있다. Regularization은 모델의 복잡도를 낮추는 방법이다 모델이 학습하다보면 특정 Feature에 대한 가중치만이 커지게 되는 경우가 있는데 이에 대한 규제를 준다고 보면 된다 패널티를 준다고 해서 Penalization이라고도 한 머신러닝 모델은 예측값과(= 모델 예측) 실측값(= 실제 정답) 사이의 차이인 손실을 줄이는 방향으로 학습한다 특정 가중치에 대해서 오히려 손실값이 줄어드는 것을 상쇄시켜 가중치의 값이 크게 업데이트 되는 것을 .. 2024. 12. 12. Overfitting, Early Stopping, Underfitting Overfitting데이터에 대한 복잡도보다 모델의 복잡도가 큰 경우 Overfitting이 발생한다 모델의 복잡도가 커진다는 것은 모델은 하나의 함수라고 봐도 되는데 함수의 차원이 증가하는 것이다 데이터의 분포가 1차원의 직선 형태인데 모델은 3차 4차 혹은 그 이상의 고차원의 함수 형태를 띄게 되면 이때 Overfitting이 발생했다고 할 수 있는 것이다 아래 그림은 참고하면 이해에 도움이 된다 최고차항이 4차인 곡선의 모델이 좌측의 곡선들에 비해 복잡한 것이다 Overfitting이 발생하게 되는 이유는 특정 Train data에 과하게 핏하게 학습되기 때문이다 아래는 Overfitting 된 모델의 모습이다좌측은 linear regression에서 overfitting이 발생한 모습이고 우측.. 2024. 12. 12. Stratified K-Fold Stratified K-Fold 특정 클래스로 분류하는 모델에 대해 K-Fold를 적용해서 Train data와 Validation data를 나눌 때 사용하는 방법이다 기존 K-Fold 방법을 그대로 가져가는데 하나 다른 점은 데이터 마다 해당되는 클래스가 다를텐데 모든 Fold 안에 데이터가 속한 클래스 비율을 같게 하는 것이다 각 Validation 과정이 끝나면 성능에 대해 평가한 값을 평균을 내는 것 또한 K-Fold와 동일하다 이를 그림으로 나타내면 이렇다 2024. 12. 12. 인공지능을 위한 통계학 - 정규분포 (Gaussian Distribution), 표준정규분포 정규분포란 확률분포 중 한 종류다. 종 모양을 하고 있다는 게 특징적인데 이는 정규분포에서 확률값들이 평균에 몰려있게 되기 때문이다 또한 좌우대칭을 이루난다는 것도 특징이다. 분산은 데이터의 퍼진 정도를 의미하는데 정규분포의 경우 분산이 클 수록 퍼져있는 정도가 커 x축에 붙은 모양이 그려지고 분산이 작을수록 확률값들이 평균에 몰린 평균값이 더 높은 지점에 찍히게 된다. 정규분포는 양쪽으로 0에 근사하지만 다다르지 않는다 정규분포의 곡선 아래의 넓이는 1이된다. 모든 가능한 확률을 더했을 때 1이 나오기 때문이다. [표준정규분포] 평균이 0이고 분산이 1인 정규분포를 표준정규분포라고 한다. 각 확률값에서 평균을 뺀 후 표준편차로 나누는 방법으로 정규화를 거친다. 2024. 12. 5. 이전 1 2 다음 최근댓글 최근글 인기글 skin by © 2024 ttuttak
최근댓글