본문 바로가기

AI & Data Science

BoostCourse AI Pre-Course) 조건부 확률 & 베이즈 통계학

728x90
반응형

조건부 확률이란 어떠한 특정 조건을 만족하면서 사건이 발생할 확률이라고 볼 수 있다.

위는 B라는 사건이 발생하면서 A라는 사건도 발생할 확률을 의미한다.

우리는 베이즈 정리를 이용해서 정보를 갱신하는 방법을 알려준다.

이때 조건부 확률이 사용된다.

 

이는 베이즈 정리 예제이다. COVID-99 라는 질병의 검진 결과의 신뢰성을 조사하는 문제이다.

우리가 구하고자 하는것은 '질병에 걸렸다고 검진 결과가 나왔을 때' + '정말로 COVID-99에 감염되었을 확률'이다.

우선 질병에 걸렸다고 검진 결과가 나오는 경우는 2가지이다.

A = 실제로 걸렸고 검진 결과도 옳게 나올 때, B = 실제로는 걸리지 않았으나 오 검진 결과로 잘못 나왔을 때.

해당 문제에서 사전 확률은 발병률 0.1, 걸리지 않을 확률 0.9이고 P(D|theta)는 각 가능도를 의미하는데 이때 0.99와 0.01을 갖는다.

위 그림의 연산 결과를 참고하면 A/(A+B)가 우리가 찾는 결과이다.

이를 계산하면 해당 검진 결과의 신뢰성이 0.916으로 상당히 높은 것을 알 수 있다.

조건부 확률을 시각화한 것이다.

위의 예시에서

TP = 실제로 발병 + 검진 결과 양성

FP = 실제로 발병 X + 검진 결과 양성

FN = 실제로 발병 + 검진결과 음성

TN = 실제로 발병X + 검진결과 음성

 

데이터의 종류에 따라서 4종류의 데이터중 어떤 것에 집중할지 달라진다.

베이즈 정리를 통해 새로운 데이터가 들어온 경우 앞서 계산한 사후 확률을 사전 확률로 사용하여 갱신된 사후 확률 계산이 가능하다.

그러나 이것이 인과관계를 추론할 때 보장된다는 것은 아니다. 인과관계를 알아내기 위해서는 중첩 요인의 효과를 제거하고 원인에 해당하는 변수만의 인과 관계를 계산해야 한다.

 

예를 들어 20~25세의 평균 지능은 0~5세의 평균 지능보다 높다는 데이터가 있다고 한다.

만약 두 데이터 사이의 인과관계를 찾는다고 한다. 이때 20~25세 그룹의 평균 키는 0~5세의 평균키 보다 훨씬 클 것이다.

따라서 키가 클수록 지능이 높다.라는 잘못된 인과관계가 성립할 수도 있기 때문에 주의해야 한다.

 

위의 예제는 단순히 치료법으로 구분한 완치율과, 신장의 결석의 크기에 따른 치료법으로 구분한 완치율이다.

그림처럼 유의미하게 결과가 달라지기 때문에 인과관계 추론에서는 항상 중첩 요인의 효과를 제거하는 것을 신경 써야 한다.

728x90
반응형