오늘은 조건부 확률의 개념과 베이즈 정리에 대한 글을 써보려 합니다. 베이즈 정리는 사전 확률과 사후 확률의 관계를 조건부 확률의 개념을 통해 풀어낸 정리입니다. 기존에 베이즈 정리에 대한 설명과 수식만을 보고 이해가 잘 안갔던 점들을 오늘은 재미있는 영상과 예제를 소개하며, 다시 한 번 개념에 대해 이해해볼까 합니다.
Conditional Probability (조건부 확률)
사전적 정의: 주어진 사건이 일어났다는 가정 하에 다른 한 사건이 일어날 확률을 뜻합니다. 원래의 확률 함수는 P라 할 때, 사건 B가 일어났다는 가정 하에 사건 A가 일어날 조건부 확률은 $P(A|B)$로 표기합니다.
$$P(A|B) = \frac{P(A \cap B)}{P(B)}$$
예제로 알아보기 - 주사위 굴리기
주사위를 굴릴 때 각 숫자가 나올 확률은 보통 1/6으로 가정합니다. 하지만 주사위를 굴리고 난 후, 얻는 숫자가 홀수라는 추가 정보가 있다고 생각해보죠. 이 새로운 정보는 우리가 1이 나올 확률을 계산할 때 영향을 미칩니다. 왜냐하면, 숫자가 홀수가 나왔다는 정보는 원래 주사위 숫자가 나올 수 있는 표본공간을 {1, 2, 3, 4, 5, 6}에서 {1, 3, 5}로 줄여버리기 때문입니다. 따라서 위의 식의 A와 B를 이번 예제에 적용하면 다음과 같습니다.
A: 주사위를 굴렸을때 1이 나오는 사건
B: 주사위를 굴렸을때 홀수가 나오는 사건
A and B: 여기가 포인트! 숫자 1은 홀수이므로, 두 조건을 만족하는 경우는 주사위를 굴렸을 때 1이 나오는 사건 뿐 입니다.
따라서 $P(A \cap B)$는 1/6이 될 것이고, $P(B)$는 3/6이 됩니다. 위의 식에 숫자를 짚어넣어보면, 조건부 확률값을 구할 수 있습니다.
P(주사위의 숫자가 홀수 나왔다는 전체하에 1이 나오는 사건) = $P(A |B)$ = (1/6) / (3/6) = 1/3
Bayes' rule (베이즈 정리)
베이즈 정리란 두 사건 A와 B가 주어졌을때, 조건부 확률과 각각의 확률 정보를 사용하여 순서가 뒤바뀐 조건부 확률을 쉽게 구할 수 있는 정리입니다. 말로 하면 애매하니 수식을 사용해서 표현해보면 아래와 같습니다.
즉, 오른쪽에 있는 각각의 확률 $P(A)$와 $P(B)$, 그리고 둘 사이의 조건부 확률 $P(B|A)$를 이용하면, A와 B의 위치가 뒤바뀐 $P(A|B)$도 베이즈 정리를 이용해, 쉽게 구할 수 있는거죠!
이 내용에 대해 질병에 대한 양성과 음성의 진단 결과를 민감도(Sensitivity), 특이도(Specificity), 우도비(Likehood ratio) 등의 조건을 통해서 설명하는 예제를 많이 보았습니다. 저 또한 이 예제를 보았는데 너무 이해하기 어려웠고, 그래서 이해하기 쉽게 설명하시는 위니버스라는 유투버의 영상을 가져왔습니다. 베이즈 정리를 '발렌타인데이에 초콜릿을 준 사람이 날 좋아할 확률'이라는 주제로 풀어놓은 영상입니다.
예제로 알아보기 - 초콜릿을 준 코니의 마음
펭수는 평소 관심이 있던 코니에게서 초콜릿을 선물받습니다. 펭수는 초콜릿을 준 코니가 나를 좋아하는지가 궁금하기 때문에 이것을 통계적으로 해봅니다. 먼저 상황을 간단히 나타내기 위해서 다음 두 상황을 가정합니다.
$P(A)$ (사건 "호감"): 상대방이 나를 좋아한다.
$P(B)$ (사건 "초콜릿"): 초콜릿을 받았다.
펭수는 사건 "호감"에 대한 확률, 즉, 코니가 나를 좋아할 확률을 50%, 좋아하지 않을 확률을 50%로 가정합니다. 즉, $P(A) = 0.5$ 로 표현이 될 것입니다. 이러한 이유는 펭수는 초콜릿을 준 코니 마음에 대한 아무런 정보가 없기 때문입니다!
The Principle of Insufficient Reason(이유불충분의 원리): 하나의 사건을 기대할만한 어떤 이유가 없는 경우에는 가능한 모든 사건에 동일한 확률을 할당해야 한다는 원칙.
쉽게 이해하기 위하여, 주변에 100명의 사람이 있다고 가정합니다. 이유불충분의 원리에 따라 50명은 누군가로부터 호감을 받고 있고, 50명은 호감을 얻고 있지 않고 있겠네요!
그리고 펭수는 조사를 통해 두 가지 정보를 알게됩니다.
-
어떤 사람이 상대방에게 호감이 있어서 초콜릿을 줄 확률은 40%이다. -> $P(B|A)=0.4$
-
어떤 사람이 상대방에게 호감이 없지만 "예의상" 초콜릿을 줄 확률은 30%이다.
(어장 관리 그만ㅠ)-> $P(B|A^c)=0.3$
이 정보를 토대로 아래 두가지를 유추할 수 있습니다.
-
상대방에게 호감이 있지만 초콜릿을 주지 않을 확률은 60%이다. -> $P(B^c|A)=0.6$
-
호감이 없어서 초콜릿을 주지 않을 확률은 70%이다. -> $P(B^c|A^c)=0.7$
얻은 정보 정리해보기
위 내용들을 토대로 생각해볼 때, 우리는 아래와 같이 정리할 수 있습니다.
-
호감을 얻고 있는 50명 중 40%인 20명은 초콜릿을 받습니다.
-
호감을 얻고 있는 50명 중 60%인 30명은 초콜릿을 받지 못합니다.
-
호감의 대상이 아닌 50명 중 30%인 15명은 예의상 준 초콜릿을 받습니다.
-
호감의 대상이 아닌 50명 중 70%인 35명은 초콜릿을 받지 못합니다.
자, 이제 펭수가 궁금한 P(초콜릿을 받았을 때, 초콜릿을 준 사람이 나를 좋아할 확률)을 위에서 약속한 기호로 표현한다면 $P(A|B)$ 으로 나타낼 수 있습니다. 그런데 이것은 펭수가 조사한 확률,
$$P(호감이 있어서 초콜릿을 줄 확률) = P(B|A)$$
에서 조건과 결과가 뒤바뀐 것입니다. 이 확률을 계산하기 위해서 필요한 정보를 정리해봅시다.
사건 "호감" : 상대방이 나를 좋아한다 -> P(A) = 50% 이고 (이유불충분의 원리, 사전가정!),
사건 "초콜릿" : 초콜릿을 받았다 -> P(B) = (20+15)/100 = 35% (정리한 노란색 부분)입니다.
어떤 사람이 상대방에게 호감이 있어서 초콜릿을 줄 확률은 40%이다. -> P(B|A)=40% (펭수가 조사한 정보)
이것을 베이즈정리의 수식에 넣어보면 다음과 같습니다.
$$P(A|B) = P(B|A) * P(A) / P(B) = (0.4 * 0.5) / 0.35 = 0.57$$
이라는 확률이 나옵니다. 따라서, 펭수는 처음의 이유불충분의 원리로 가정했던, 상대방이 나를 좋아할 확률 50%(사전확률) $P(A)$를 57%(사후확률) $P(A|B)$로 업데이트 할 수 있습니다.
이번 글의 가장 중요한 요지는, 베이즈 정리라는 것은 새로운 정보를 통해 사전 확률을 업데이트 하여 사후 확률에 대한 정확도를 높여가는 것이라는 점입니다. 그리고 이러한 개념들이 어떻게 데이터 분석에 활용될 수 있는지 한 번 생각해보고자 합니다.
혹시 내용에 오류가 있다면 언제든지 댓글/피드백 달아주세요 🎆 잘못된 내용 알려주시는 것 언제나 환영입니다 👩🚀
필자 소개
📝 찐슬통이님이 업로드해주신 집필진 소개를 참고해주세요
활동 장소
✨ 개인 블로그입니다 connie-n.tistory.com/
댓글