말도 많고 탈도 많은 베이지안.
머신러닝 이니 인공지능이니 이런것들이 뜰수록 덩달아 자주 사람들입에 오르 내리는게 베이지안(bayesian) 이다.
수식을 가지고 어렵게 이야기하지만, 기초적인 개념을 소홀히 하고 있는 것 같아, 정리차 포스팅 한다.
1. 베이지안 확률 (Bayesian Probability)
베이지안 확률이란 무엇인가? 기존에 우리가 알고 있는 확률과는 다른것인가?
동전을 1000회 던졌을 때, 앞면이 나오는 횟수는 대략 500회 로 기대할수있다. 전통적인 확률 계산은
이렇게 표현한다. 일어난횟수/전체시도횟수
이런 확률론을 frequentist probability , 경험 확률 라고 한다. 일정한 확률로 반복시행이 충분히 가능한 많은 경우가 이에 해당도니다.
그러면, A라는 도시에서 철수라는 아이가 태어났는데 이 아이가 노벨상을 받을 확률은 얼마나 될까? 이 확률을 빈도확률로 이야기 하기 위해서는 이 아이를 여러번 살게 시키고 그중에 몇 번 노벨상을 받았는가를 평가 해야 한다. 또는 이와 동일한 아이가 전세계에 몇명이 있는지 파악하고, 몇명이 커서 노벨상을 받았는가를 평가해야 하는데, 동일한 유전자, 동일한 환경에서 자란 아이란 있을 수 없음으로 불가능 하다 하겠다.
이런경우, 베이지안 확률론으로 이야기 해야 되는데, 이것은 일어나지 않은 일에 대한 확률을 불확실성(uncertainty)의 개념으로 이야기 해야 한다.
즉, 이 사건과 관련있는 어려가지 확률을 이용하여 새롭게 일어날수있는 사건에 대한 추정 을 하는것이라 하겠다.
따라서 이러한 일들을 베이즈 이론, Bayesian theory, 베이즈 추론 Bayesian inference 등으로 말하는 것이다.
2. 베이지안 이론(Bayesian Theory)
베이즈 법칙(Bayesian Law) 또는 베이즈 이론(Bayesian Theory) 를 간단히 말하자면
사전확률 p(A) 과 우도확률 p(B|A)를 안다면 사후확률 p(A|B)를 알 수있다는 것이다.
이해 하기 쉽게 한가지 예를 들자면,
어떤 청바지가 적재되는 청바지 창고가 있다. 사장이 와서 이 창고의 청바지 하나를 골라서 살펴보았는데 이 청바지 불량이었다.
그런데 이 창고의 청바지는 구미 , 청주, 대구 3군데 공장에서 생산되어서 운송되어져 온다. 그렇다면 이 불량 청바지는 어떤 공장에서 생산된 것일까?
이미 사건이 일어났고(창고의 불량 청바지), 사건발생의 원인에 대한 확률(사후확률, 이 창고의 불량 청바지는 어떤 공장에서 불량생산되어 온것일까?) 을 사건발생전에 이미 알고 있는 정보(사전확률, 구미, 청주, 대구 공장의 불량률)을 이용하여 구하는 것이라 하겠다.
*정리
- 사후확률 분포 : 사건 발생후 그 사건의 원인이 발생 할 수 있는 사건이 무엇인지 추정하여 그 가능성을 나타내는 변수의 붆포를 의미
- 사전확률 분포 : 사건발생 전 사건의 원인이 될 수있는 사건들에 대한 분포
수식을 통해 보면,
결과 B (창고에서 불량 청바지가 발견) 을 발생시키는 원인들이 A1(구미공장 불량), A2(청주공장불량), A3(대구공장불량) 라 한다.
사전확률 P(A1), P(A2) , P(A3)와 우도확률 (Likelihood) P(B|A1) , P(B|A2), P(B|A3) 는 이미 알려져 있다고 하자.
위 수식은
결과 B가 발생했는 조건 하에서 원인 Ai가 발생하였을 확률을 구하는 것이다.
위 와 같이 P(A|B) = p(A and B) / P(B) 가 P(A|B) = P(A)P(B|A)/P(B)
로 정의 되어 질 수 있는데
이는
로 순서를 바꿔서 적을 수 있다.
이 수식을 해석해 보면
P(A)가 구미공장에서 생산되는 청바지의 불량률이라고 하고,
P(B)가 물류 창고에서 불량 청바지가 발생하하는 확률이라고 하자.
특정사건에 대한 기존의 불확실성인 P(A),(구미공장에서 생산되는 청바지의 불량률) 에 추가적인 단서 B가 발생함에 따라, P(B| A)/P(B) 라는 수치가 P(A)에 곱해진다. 그 결과 P(A|B)라는 조건부 확률의 모양으로 업데이트 되는 것이다.
여기서 P(A|B)는 사후확률 Posterior 또는 Posterior belief
P(A)는 Prior, 또는 prior belief
P(B)는 Evidence
P(B|A)는 Likelihood라고 한다.
P(B)는 단순히 상수개념이기 때문에 전체식에서 무시해도 이해하는데 무방하다..
다시 해석해 보면,,
특정사건A의 확률에 대해서 기존에 가지고 있던 확률값은 Likelihood인데, 해당사건이 일어난 상황에서 (B), 주어진 데이터가 관찰될 확률 P(B|A) 가 높을 수록 더 높은 posterior로 업데이트 된다고 말 할 수 있다.
'machine learning' 카테고리의 다른 글
bayesian 자료 (0) | 2015.06.27 |
---|---|
deep learning 자료 (0) | 2015.06.25 |
Supervised learning(지도학습)과 Unsupervised learning(자율학습) (0) | 2014.02.26 |
k-fold cross validation, k겹 교차검증 (2) | 2014.02.03 |
multiclass svm, one vs rest, one vs one (0) | 2014.01.31 |