JasonScript

Jason's Research Blog

Naver Boostcamp AI Tech/Level 1

< Boostcamp > AI Math 3

jason.bak 2023. 12. 27. 13:07

통계학 맛보기

통계적 모델링

통계적 모델링의 목표는 적절한 가정을 통해 확률분포를 추정하는 것입니다. 이는 기계학습과 통계학의 공통된 목표로, 모집단의 분포를 근사적으로 추정하는 것에 중점을 둡니다.

  • 모수적 (parametric) 방법론: 특정 확률분포를 가정하고, 해당 분포의 모수를 추정하는 방법.
  • 비모수 (nonparamtric) 방법론: 특정 확률분포를 가정하지 않고 데이터에 따라 모델이 유연하게 변화하는 방법.

모수 추정

확률분포를 가정한 후에는 관련 모수를 추정할 수 있습니다.

  • 정규분포의 모수: 평균 $\mu$와 분산 $\sigma^2$.
  • 표본통계량: 표본평균과 표본분산($N-1$으로 나누는 이유는 불편 추정량을 구하기 위해서입니다).
  • 표집분포: 표본평균의 분포는 큰 표본 수에서 정규분포 $N(\mu, \frac{\sigma^2}{N})$을 따르는 것으로 중심극한정리에 의해 설명됩니다.

 

최대가능도 추정법(maximum likelihood estimation, MLE)

표본평균이나 표본 분산은 중요한 통계량이지만 확률분포마다 사용하는 모수가 다르므로 적절한 통계량이 달라지게 됩니다. 표본 평균과 표본 분산만 가지고 확률분포를 추정하는 것은 위험한데, 이론적으로 가장 가능성이 높은 모수를 추정하는 방법 중 하나는 최대 가능도 추정법(maximum likelihood estimation, MLE)입니다.

 

 

  • 가능도 함수: $L(\theta; x)$는 모수 $\theta$를 따르는 분포가 $x$를 관찰할 가능성을 나타냅니다.

  • 로그가능도: 데이터의 숫자가 많을 때 연산 가능성을 높이기 위해 사용됩니다. 또한 경사하강법 최적화에 유리합니다.

딥러닝에서의 최대가능도 추정법

딥러닝 모델에서, 가중치 $\theta = (W^{(1)}, ..., W^{(L)})$를 최대 가능도 추정법으로 학습시킬 수 있습니다. 분류 문제에서 소프트맥스 벡터는 카테고리 분포의 모수를 모델링합니다.

기계학습에서 사용되는 손실 함수들은 모델이 학습하는 확률분포와 데이터에서 관찰되는 확률분포의 거리를 통해 유도합니다. 통계학에서 MLE로 모수를 추정하는 방법론과 매우 밀접하게 관련이 있습니다. 데이터 공간에 두 개의 확률분포 $, $가 있을 경우 두 확률분포 사이의 거리(distance)를 계산할 때 다음과 같은 함수들을 이용합니다.

  • 총 변동 거리 (Total Variation Distance, TV)
  • 쿨백-라이블러 발산 (Kullback-Leibler Divergence, KL)
  • 바슈 타인 거리 (Wasserstein Distance)

쿨백-라이블러 발산 (Kullback-Leibler Divergence, KL)

  • 정의: 이산 확률변수의 경우 $\sum P(x) \log\frac{P(x)}{Q(x)}$, 연속 확률변수의 경우 $\int P(x) \log\frac{P(x)}{Q(x)} dx$로 정의됩니다.

  • 이산 확률변수의 경우 좌측식으로, 연속 확률변수의 경우 우측식으로 정의할 수 있습니다.

쿨백 라이블러는 다음과 같이 분해할 수 있습니다.

  • 분류 문제: 정답 레이블 $P$와 모델 예측 $Q$ 사이의 KL 발산을 최소화하는 것이 목표입니다.

베이즈 통계학 맛보기

조건부 확률이란?

베이즈 통계학을 이해하기 위해선 조건부확률의 개념을 이해해야 합니다.

베이즈 정리는 조건부 확률을 이용하여 정보를 갱신하는 방법을 알려줍니다.

  • 베이즈 정리: $P(A|B)$는 사건 $B$가 일어난 상황에서 사건 $A$가 발생할 확률입니다.

베이즈 정리

 

베이즈 통계학에서 중요한 개념은 사후확률과 사전확률입니다. 이들은 새로운 데이터와 모수의 관계를 이해하는 데 핵심적인 역할을 합니다.

  • 새로 관찰하는 데이터: $D$
  • 구하고자 하는 모수: $\theta$

사후확률 (Posterior Probability)

  • 정의: $P(\theta | D)$
  • 의미: 데이터 $D$를 관찰한 이후에 나타나는 $\theta$에 대한 확률입니다. 즉, 새로운 데이터를 통해 업데이트된 모수의 확률입니다.

사전확률 (Prior Probability)

  • 정의: $P(\theta)$
  • 의미: 데이터가 주어지지 않은 상태에서 $\theta$에 대해 사전에 알려진 확률입니다. 이는 init이나 knowledge를 바탕으로 설정됩니다.

가능도 (Likelihood)

  • 정의: $P(D | \theta)$
  • 의미: 주어진 모수 $\theta$에 대해 데이터 $D$가 관찰될 확률입니다. 이는 $\theta$가 주어졌을 때 데이터 $D$의 발생 가능성을 나타냅니다.

Evidence

  • 정의: $P(D)$
  • 의미: 데이터 자체의 분포를 의미합니다. 이는 모든 가능한 $\theta$에 대한 가능도의 총합입니다.

'Naver Boostcamp AI Tech > Level 1' 카테고리의 다른 글

< Boostcamp > Python 3  (0) 2023.12.27
< Boostcamp > 딥러닝 기초  (0) 2023.12.27
< Boostcamp > AI Math 2  (0) 2023.12.27
< Boostcamp > Python 2  (0) 2023.12.27
< Boostcamp > Python 1  (0) 2023.12.27