본문 바로가기

AI & Data Science

BoostCourse AI Pre-Course) 통계학

728x90
반응형

우리는 유한 개수의 데이터를 통해서 모집단의 분포를 근사적으로 알아내는 것에 목표를 둔다. 이는 통계학과 기계학습이 공통적으로 갖는 목표이다.

<최대 가능도 추정법>

이는 모든 추정방법 중에 가장 널리 사용되는 방법이다.

이론적으로 가장 가능성이 높은 모수를 추정하는 방법이고 MLE라고도 불린다.

이때 로그 가능도를 사용하는데 데이터의 숫자가 매우 커지면 컴퓨터의 정확도 문제로 오차가 매우 커져 가능도를 계산하는 것이 불가능하다. 그러나 로그를 사용하면 곱셈을 덧셈처럼 계산할 수 있기 때문에 로그 가능도를 이용한다. 경사 하강법으로 가능도를 최적화할 때 미분 연산 수행 시 로그 가능도를 사용하면 O(n)의 Time Complexity를 갖는 장점이 있다.

 

최대 가능도 추정법을 통해서 기계학습 모델을 학습할 수 있다.

딥러닝 모델의 가중치를 theta로 표기 했을때 소프트맥스 벡터는 카테고리 분포의 모수를 모델링한다.

원핫 벡터로 표현한 정답 레이블 y를 관찰 데이터로 이용해 확률분포인 소프트맥스 벡터의 로그 가능도를 최적화할 수 있다.

 

<확률분포의 거리>

기계학습에서 사용되는 손실 함수들은 모델이 학습하는 확률분포와 데이터에서 관찰되는 확률분 폴의 거리를 통해 유도한다.

데이터 공간에 두 개의 확률 분포 P(x), Q(x)가 존재할 경우 두 확률분포 사이의 거리의 계산은 다음과 같은 함수들을 이용한다.

 

총 변동 거리, 쿨백-라이블러 발산, 바슈 타인 거리

728x90
반응형