본문 바로가기
machine learning

베이지안 이론 (Bayesian Theroy) 이란?

by 단창 2014. 9. 10.







도 많고 탈도 많은 베이지안. 

머신러닝 이니 인공지능이니 이런것들이 뜰수록 덩달아 자주 사람들입에 오르 내리는게 베이지안(bayesian) 이다. 


수식을 가지고 어렵게 이야기하지만, 기초적인 개념을 소홀히 하고 있는 것 같아, 정리차 포스팅 한다. 


1. 베이지안 확률 (Bayesian Probability)

베이지안 확률이란 무엇인가? 기존에 우리가 알고 있는 확률과는 다른것인가? 

동전을 1000회 던졌을 때, 앞면이 나오는 횟수는 대략  500회 로 기대할수있다. 전통적인 확률 계산은


이렇게 표현한다. 일어난횟수/전체시도횟수

이런 확률론을 frequentist probability , 경험 확률 라고 한다. 일정한 확률로 반복시행이 충분히 가능한 많은 경우가 이에 해당도니다. 

그러면,  A라는 도시에서 철수라는 아이가 태어났는데 이 아이가 노벨상을 받을 확률은 얼마나 될까? 이 확률을 빈도확률로 이야기 하기 위해서는 이 아이를 여러번 살게 시키고 그중에 몇 번 노벨상을 받았는가를 평가 해야 한다. 또는 이와 동일한 아이가 전세계에 몇명이 있는지 파악하고, 몇명이 커서 노벨상을 받았는가를 평가해야 하는데, 동일한 유전자, 동일한 환경에서 자란 아이란 있을 수 없음으로 불가능 하다 하겠다. 

이런경우, 베이지안 확률론으로 이야기 해야 되는데, 이것은 일어나지 않은 일에 대한 확률을 불확실성(uncertainty)의 개념으로 이야기 해야 한다. 


즉, 이 사건과 관련있는 어려가지 확률을 이용하여 새롭게 일어날수있는 사건에 대한 추정 을 하는것이라 하겠다. 

따라서 이러한 일들을 베이즈 이론, Bayesian theory, 베이즈 추론 Bayesian inference 등으로 말하는 것이다. 


2. 베이지안 이론(Bayesian Theory)


베이즈 법칙(Bayesian Law)  또는 베이즈 이론(Bayesian Theory) 를 간단히 말하자면 

사전확률 p(A)  과 우도확률 p(B|A)를 안다면 사후확률 p(A|B)를 알 수있다는 것이다. 


이해 하기 쉽게 한가지 예를 들자면, 

어떤 청바지가 적재되는 청바지 창고가 있다. 사장이 와서 이 창고의 청바지 하나를 골라서 살펴보았는데 이 청바지 불량이었다. 

그런데 이 창고의 청바지는 구미 , 청주, 대구 3군데 공장에서 생산되어서 운송되어져 온다. 그렇다면 이 불량 청바지는 어떤 공장에서 생산된 것일까? 

이미 사건이 일어났고(창고의 불량 청바지), 사건발생의 원인에 대한 확률(사후확률, 이 창고의 불량 청바지는 어떤 공장에서 불량생산되어 온것일까?) 을 사건발생전에 이미 알고 있는 정보(사전확률, 구미, 청주, 대구 공장의 불량률)을 이용하여 구하는 것이라 하겠다. 


*정리 

- 사후확률 분포 : 사건 발생후 그 사건의 원인이 발생 할 수 있는 사건이 무엇인지 추정하여 그 가능성을 나타내는 변수의 붆포를 의미

- 사전확률 분포 : 사건발생 전 사건의 원인이 될 수있는 사건들에 대한 분포


수식을 통해 보면, 


결과 B (창고에서 불량 청바지가 발견) 을 발생시키는 원인들이 A1(구미공장 불량), A2(청주공장불량), A3(대구공장불량) 라 한다. 

사전확률 P(A1), P(A2) , P(A3)와 우도확률 (Likelihood) P(B|A1) , P(B|A2), P(B|A3) 는 이미 알려져 있다고 하자. 


위 수식은 

결과 B가 발생했는 조건 하에서 원인 Ai가 발생하였을 확률을 구하는 것이다. 





위 와 같이 P(A|B) = p(A and B) / P(B) 가 P(A|B) = P(A)P(B|A)/P(B)

로 정의 되어 질 수 있는데 


이는 

로 순서를 바꿔서 적을 수 있다. 

이 수식을 해석해 보면 


P(A)가 구미공장에서 생산되는 청바지의 불량률이라고 하고, 

P(B)가 물류 창고에서 불량 청바지가 발생하하는 확률이라고 하자. 


특정사건에 대한 기존의 불확실성인 P(A),(구미공장에서 생산되는 청바지의 불량률) 에 추가적인 단서 B가 발생함에 따라, P(B| A)/P(B) 라는 수치가 P(A)에 곱해진다. 그 결과 P(A|B)라는 조건부 확률의 모양으로 업데이트 되는 것이다. 


여기서 P(A|B)는 사후확률 Posterior 또는 Posterior belief

P(A)는 Prior, 또는 prior belief

P(B)는 Evidence

P(B|A)는 Likelihood라고 한다. 


P(B)는 단순히 상수개념이기 때문에 전체식에서 무시해도 이해하는데 무방하다.. 


다시 해석해 보면,, 

특정사건A의 확률에 대해서 기존에 가지고 있던 확률값은 Likelihood인데, 해당사건이 일어난 상황에서 (B), 주어진 데이터가 관찰될 확률 P(B|A) 가 높을 수록 더 높은 posterior로 업데이트 된다고 말 할 수 있다. 





반응형