확률분포 추정하는 방법

2022. 1. 22. 14:36Deep Learning/확률론

# 확률론

딥러닝은 확률론 기반의 ML이론에 바탕을 두고 있다.

ML에서 loss function(손실함수) 작동 원리가, data를 통계적으로 해석하기 위함으로써 risk를 최소화하기 위한 원리가 확률론의 원리.

ex1. 회귀분석에서, L2-norm = error 분산을 최소화하는 방향으로 유도

ex2. 분류문제에서, Cross-entropy = model 불확실성을 최소화하는 방향으로 유도

여기서의 분산이나 불확실성을 측정하는 방법을 통계학에서 찾을 수 있다.

 

 

확률변수 종류

- 이산형(discrete) : '특정 경우의 수 / 가질 수 있는 모든 경우의 수' 값으로 모델링

- 연속형(continuous) : 밀도 위에서 적분 값으로 모델링

- 경우에 따라 이산형 혹은 연속형

 

이 확률변수를 결정짓는 것은 데이터 분포임.

예를 들어, 실수형 공간에서 한 변수의 가능한 경우의 수가 3개로 제한된다면 이는 이산형 변수로 볼 수 있음.

 

결합분포

P(x, y) = D(주어진 데이터들)을 보고 확률분포를 모델링한 것

X와 Y의 범위에 따라 데이터 공간을 나누었을 때, 특정 공간에 속하는 데이터 수와 같이 수치화하여 확률분포를 근사가능.

 

 

# 조건부 확률 분포

P(X | Y) : Y가 주어질 때, X에 대한 확률분포를 의미.

P(X | Y=1) : Y=1인 조건에 대해서만, 데이터 분포를 추출.

 

주어진 데이터의 모양을 파악하기 위해 사용함.

관점에 따라 데이터를 추상화 및 해석할 수 있음.

 

# 몬테카를로 샘플링

보통 확률밀도함수/확률질량함수를 알면, 적분이나 합을 통해 ML을 진행할 수 있다. 하지만 대부분의 ML문제의 경우, 확률분포를 알지 못한다는 점이다. 이 때 사용할 수 있는 방법이 '몬테카를로 샘플링' 이다.

하지만 독립추출이 보장되어야, 대수의 법칙(law od large numbers)에 의해 수렴성을 보장할 수 있다.

이산형/연속형 변수에서 모두 활용가능하다.

 

함수 f(x)에 샘플링한 데이터를 입력한 후, x_i에 따라 산술평균을 계산하여 x_i 기대값에 근사한다.

그러면 실제 확률분포를 알지 못하더라도, 확률분포에 근사하기 위한 기대값을 계산할 수 있다.

 

Q. 기대값(expectation) 이란?

확률분포가 주어지면, data분석에 사용하는 통계적 범함수(statistical functional)를 계산할 수 있다.

여기서 기대값은 data를 대표하는 통계량으로서, 다른 분산/첨도/공분산 등과 같은 통계적 범함수를 계산하는 데 사용한다.

ex. 일반적으로 딥러닝 문제에서는 MLP를 이용하여 data에서 특징패턴 theta를 추출한 후, 조건부 확률이나 조건부 기대값으로 데이터 분포를 추정하여 학습모델을 모델링한다.

 

 

반응형

'Deep Learning > 확률론' 카테고리의 다른 글

확률론 이란?  (0) 2022.02.01
베이즈 정리 란?  (0) 2022.01.22
데이터에 따라 확률분포 추정하는 방법  (0) 2022.01.22
모수적 방법론 VS 비모수적 방법론  (0) 2022.01.22