베이즈 정리를 공식없이 이해하기
글 목록
#math#베이즈정리

베이즈 정리를 공식없이 이해하기

지금은 어떤지 모르겠지만, 20년도 더 전의 고등학교 수학 시간에서는 심화과정으로 베이즈 정리를 가르쳤었다. 교과서에는 나오지 않았지만 조건부 확률을 응용한 고난이도 문제를 풀이하는 방법으로써 가끔씩 등장하곤 했었다. 수능에는 아마도 출제되지 않으리라 생각하고 깔끔하게 포기했던 기억이 있다. 개념 자체도 직관적으로 이해하기 어려웠고 공식도 외우기엔 너무 헷갈렸었다.
그 후 십여년이 흐른 뒤, 우연한 기회에 조건부 확률을 복잡한 공식 없이도 풀 수 있는 방법을 소개한 글을 읽게 되었다. 그 글을 읽다가 문득 스쳐가는 생각이 있었다. 베이즈 정리를 이 글에서 소개한 방법을 응용해서 풀 수 없을까? 아마도 학창시절에 포기했었다는 기억이 마음 속 어딘가에 자리하고 있어서 새삼 도전을 해보고 싶었나보다. 이 글의 내용은 거기서부터 시작해서 나름 정리해본 베이즈 정리를 쉽게 풀어내는 방법에 대한 설명이다. 이제와서 그 글의 내용과 출처는 자세히 생각나지 않지만, 아래에서 설명하는 방법의 원천은 기억이 잘 나지않는 그 글에 있다.
먼저 베이즈 정리가 어떻게 생긴 공식인지 잠시 소개하자면, 아래와 같다. 각각의 기호가 무엇을 의미하는지는 '베이즈 정리'로 검색하면 수많은 문서들을 발견할 수 있으니 여기서는 생략하겠다. 참고로 이 글에서는 아래 공식을 사용해서 문제를 풀거나 설명하는 일은 없다.

P(AB)=P(BA)P(A)P(B)P(A\mid B) = {P(B\mid A)\cdot P(A)\over P(B)}

단순한 조건부 확률과 베이즈 정리의 차이를 짚어보자. 조건부 확률의 정의는 "사건 B가 일어났을 때 사건 A의 확률"이며, 베이즈 정리의 정의는 "사건 A, B의 확률을 알 때, 사건 B가 일어났을 때의 사건 A의 확률"을 구하는 공식이다. 알쏭달쏭한 정의이다. 베이즈 정리는 조건부 확률 한차례 더 꼬아만든 상황을 풀어내기 위한 방법이라 할 수 있다. 베이즈 정리가 유용하게 쓰이는 경우는, 이미 사건 A, B의 확률을 알고 있는 상태에서 조건부 확률을 구하고자 할 때이다.

직관적으로 이해하기 쉬운 단순한 예를 들어보자. 주사위를 굴릴 때, "3이 나올 확률"과 "결과값이 3의 배수라는 것을 알 때 3일 확률"은 각각 어떻게 될까? 굳이 계산할 것도 없이, 잠시만 생각해보면 각각 1/6과 1/2라는 것을 알 수 있다. 전자는 단순한 확률이고 후자는 조건부 확률이자 베이즈 정리 문제이다. 주사위라는 사례가 너무 단순해서 조건부 확률과 베이즈 정리가 구분되지 않는다. 좀 더 정확하게는 "3의 배수일 확률이 1/3임을 알 때, 3의 배수가 나왔을 때 주사위 눈이 3일 확률"이 베이즈 정리로 풀어야 할 문제 형태라고 할 수 있다. 단순한 문제가 괜시리 복잡해진 느낌이다. 하지만 문제가 복잡해지면 베이즈 정리를 사용해야만 답을 구할 수 있는 경우가 있으니, 여기서는 예습 차원에서 주사위의 사례를 베이즈의 정리로 풀어보자. 단, 공식은 사용하지 않고 아래와 같은 경우의 수를 정리한 표를 사용해서 풀어보기로 한다.

결과123456합계
3의 배수0010012
3의 배수 아님1101104
합계1111116

이 표는 가로축을 주사위의 각각의 값으로 구분하고, 세로축은 3의 배수인지 아닌지로 구분하여 경우의 수를 풀어놓은 것이다. 이걸로 뭘 어쩌자는 것인가? 조금만 인내심을 가져보자. 이 고비를 넘기면 다음엔 어려운 문제를 같은 방식으로 쉽게 풀 수 있다는 것을 알게 된다. 먼저 3의 배수라는 것을 알 때 결과값의 경우의 수 합계가 얼마인가? 3과 6이 나오는 두 가지 경우 뿐이고, 표의 가장 오른쪽을 보면 2를 확인할 수 있다. 이 중에서 3일 확률은 얼마인가? 3이 나오는 경우의 수는 1이다. 따라서 "3이 나오는 경우의 수 ÷ 3의 배수의 경우의 수"는 1/2라고 구할 수 있다. 이게 베이즈 정리의 공식을 쓰지 않고 문제를 푸는 방법이다.

바로 복잡한 문제로 넘어가보자. 베이즈 정리를 설명하는 많은 책들이 비슷하게 다루는 문제가 있다. "간암 검사에서 양성이 나왔을 때, 실제로 간암에 걸렸을 확률은 얼마인가?"라는 문제이다. 이런 문제는 더이상 조건부 확률 수준에서는 풀기 어렵고 베이즈 정리를 사용해야 한다. 이 문제를 풀기 위해 사전에 주어진 정보들이 있다. 간암 검사의 적중률이 95%라는 것과, 간암 발병율이 1%라는 것이다. 베이즈 정리는 이러한 사전 확률을 알고 있다는 것이 핵심이다.
이 문제를 공식을 사용해서 풀려고 하면, 주어진 숫자를 어느 항목에 대입해서 풀어야 할지 헷갈린다. 열심히 계산해놓고서 정작 답이 틀리는 경우가 적지 않다. 하지만 위에서 보여준 표를 이용한 풀이법을 사용하면 쉽게 구할 수 있다. 여기서는 사전 확률이 1% 단위에서 제시되었으니, 계산의 편의를 위해 전체 인구를 10,000명으로 두고 생각해보자. 10,000명이라는 숫자는 베이즈 정리의 공식을 쓰지 않고 편하게 계산하기 위해 사용하는 임의의 값이라는 점을 명심하자. 10,000 대신 100이든 20,000이든 각자가 계산하기 편한 숫자로 바꿔서 사용해도 된다.
한편 고려해야 하는 경우의 수의 축은 양성이냐 음성이냐와, 실제로 간암에 걸렸는지 아닌지이므로 표는 2 X 2로 충분하다. 합계 항목까지 생각해도 3 X 3의 표다. 어찌보면 주사위의 사례보다 더 간단하다. 백문이 불여일견, 아래와 같은 표를 준비한다.

양성음성합계
간암에 걸림
걸리지 않음
합계

표를 쉽게 작성하는 방법부터 생각해보자. 합계부터 채워나가는게 알기 쉽다. 전체 인구수는 10,000명으로 설정했으니 마지막 행의 가장 오른쪽 칸의 값은 10,000이다. 그리고 간암 발병율이 1%이니, 10,000명 중에 100명이 간암에 걸린다. 그러므로 "간암에 걸림"의 합계는 100이고, "걸리지 않음"의 합계는 9,900이다.

양성음성합계
간암에 걸림100
걸리지 않음9,900
합계10,000

한편 검사의 적중률은 95%라고 했는데, 그렇다면 "간암에 걸렸으면서 양성"인 수치와 "걸리지 않았으면서 음성"인 수치가 각각의 합계의 95%가 되어야 한다. 따라서 "간암에 걸림"의 양성은 95이고, "걸리지 않음"의 음성은 9,900 × 95% = 9,405이다. 나머지 항목들은 덧셈 뺄셈으로 쉽게 구할 수 있다.

양성음성합계
간암에 걸림955100
걸리지 않음4959,4059,900
합계5909,41010,000

문제로 돌아가면, 구하고자 하는 것은 "양성이 나온 사람이 실제로 간암에 걸렸을 확률"이다. 이 값은 어떻게 구하면 될까? 쉽다. 표에서 "양성" 항목만 보면 된다. 양성의 합계가 590인데, 간암에 걸린 것은 그 중 95이다. 그러므로 "양성이 나왔을 때 실제로 간암에 걸렸을 확률"은 95 ÷ 590 = 16.1%가 된다.

이 문제를 잠시 음미해보자. 간암 검사에서 양성이 나왔지만 실제로 간암에 걸렸을 확률은 16.1% 밖에 되지 않는다. 이 검사의 적중률은 95%라고 하는데, 양성일 때 검사가 맞을 확률이 이것밖에 되지 않는다니 직관적으로 뭔가 말이 되지 않는 것 같다. 왜 그럴까? 양성일 때 실제로 발병 확률이 낮은데 비해, 음성이 나왔을 때 발병하지 않았을 확률이 무려 99.95%로 훨씬 높을 뿐더러 음성의 비중 자체가 크기 때문에 가중평균을 끌어올리기 때문이다. 그러니까 검사 적중률이 95%라고 하면 높아보이지만 사실 별로 도움이 되지 않는다. 음성일 때 안심하고, 양성일 때 조금 찝찝한 정도이다. 만약 적중률이 99%라면? 그렇다면 양성이 나왔을 때 실제로도 발병했을 확률이 50%로 올라간다. 그러니까 이런 검사가 의미를 가지려면 적중률이 99%보다 더 높아야 한다. 발병 확률이 낮은 병일수록 더 높은 적중률 요구한다. 베이즈 정리의 기본 원리를 이해하면 공식을 몰라도 이러한 의미있는 추론이 가능하다.

연습문제①
어느 나라의 국민들이 천재와 범재와 바보로 구성되어 있다. 이 나라의 천재, 범재, 바보의 비율은 10:70:20 이라는 것을 알고 있고, 천재는 80%가 안경을 쓰고, 범재는 50%, 바보는 10%가 안경을 쓴다는 것이 알려져있다.
당신이 이 나라에 가서 안경 쓴 사람을 만났을 때, 그 사람이 천재일 확률은 얼마인가?

연습문제②
어떤 도시의 택시 중 85%는 그린, 15%는 블루 소속이다.
어느날 밤 택시 한대가 뺑소니 사고에 연루되었는데, 목격자는 사고 택시가 블루라고 했다.
법정은 사고 당일 밤과 똑같은 상황에서 목격자의 신빙성을 점검했고, 목격자가 택시를 제대로 알아보는 경우가 80%, 잘못 알아본 경우가 20%였다.
사고에 연루된 택시가 블루일 확률은 얼마일까?