Z-bio stat/Z-기초통계학

[Z-Bio stat] 1. 확률(Probability)의 재정의

Terrapin 2022. 10. 30. 21:19

 

 

  1. 확률(Probability)의 재정의
  2. 통계와 통계량(Statistics)
  3. 샘플링(Sampling)과 확률 변수(Random Variable)
  4. 확률 함수: cmf / cdf / pmf / pdf
  5. 선형대수 표시법: Matrix를 왜 쓰는가?
  6. 데이터와 차원의 표현: 정보의 압축
  7. 정규분포로 보는 분포(Distribution)의 의미: 분포는 프리셋(preset)이다
  8. Bernoulli Trial: Binomial, Geometric, Hypergeometric, Negative binomial distribution
  9. Poisson Process: Exponential, Gamma, Beta distribution
  10. 추정(Inference): 귀무가설과 대립가설, 유의 수준과 p-value, 신뢰구간(CI)
  11. 추정(Inference) (2): Pivotal quantity, Student-t, Chi-square, F test and ANOVA table
  12. Experiment prediction: 회귀분석(Regression Analysis)의 가정(assumptions)과 아이디어
  13. Appendix

 

0. 들어가며


일반적으로 어떤 주제에 대해 이야기를 나눌 땐 그 대화에서 사용할 정의를 짚고 넘어가는 게 바람직하지 않을까요.

확률이 뭔지 모르는 분은 없을 거라고 생각합니다. 고등학교에서 확률과 통계를 배우기도 하지만, 그렇지 않았더라도 우리는 일상에서 '확률'이라는 단어를 친숙하게 사용하니까요.

'확률'이라는 단어를 보고 여러분이 떠올리는 것과 제가 생각하는 것을 맞추기 위해, 확률 수업에서 꼭 등장하는 물건들을 좀 가져와 보겠습니다.


심각하네요



동전을 던져 숫자 면이 나올 확률은 .5 ,
주사위를 던져 3이 나올 확률은 1/6 ,
주사위와 동전을 동시에 던졌을 때 주사위는 1이 나오고 동전은 그림 면이 나올 확률은 1/12 .

우리는 확률 계산을 꽤나 잘 하는 것 같습니다.
정말로 그럴까요?

자라놈이 아래 식을 들이밀었어요.

$$ \int_a^b \frac{1}{\sqrt{2 \pi} \sigma} e^{- \frac{(x- \mu)^2}{2 \sigma^2}} dx $$


이 수식이 익숙하신 분도 계실 텐데, 보고 계시는 건 정규분포 \( N(\mu, \sigma^2) \) 의 함수식입니다.
적분 기호는 어떤 특정 구간 [a, b]의 확률을 의미해요.

하나만 더 볼게요.

$$ P(H_0 \mid Z_0,Z_1)P(A_1, A_2, A_3 \mid H_0, Z)P(Z) $$


뭔 소리인지 해석하라면 힘들 것 같지만 일단 어디선가 많이 보던 확률 기호이긴 합니다.

일단 여기다 쓴 걸 보면 셋 다 확률인 것 같기는 한데, 하나는 한글, 하나는 수학이고, 하나는 그냥 확률 기호로 뭔가를 했네요. 뭔가 종류가 다른 걸까요?

이걸 이해하기 위해서, 우리가 확률을 왜 계산하고 따지는지를 먼저 되짚어 보는게 좋겠습니다.

1. 확률의 목적

뭐하러 우리는 확률을 계산하는 걸까요? 그것도 굳이 복잡하게?

우리는 보통 랜덤한 상황에서 확률을 이야기합니다. 어떤 요인이나 조건을 고쳐서 결과를 만들어 낼 수 있는 상황에서는 확률이라는 단어를 사용하지 않죠.

한 해로운 게임의 보스를 잡는 상황을 예시로 들어보겠습니다.

카오스 벨룸
대충 메이플스토리 뉴비들의 첫 번째 난관인 보스입니다.



열심히 게임을 해서 충분히 강해졌다고 생각한 저는 이번 주 내내 공강때마다 이 보스를 때려봤지만 어쩐지 잡히지를 않습니다.
답답해진 저는 고인물 친구에게 지금 캐릭터의 아이템을 보여주며 조언을 구합니다. "내가 얘를 잡을 확률이 얼마나 될 것 같음?"

제가 고인물 친구라면 아마 '너의 결제 태도가 불량해서 그렇다. 템을 다시 맞춰라(대충 돈을 쓰라는 소립니다)' 라거나 '템은 이정도면 충분한데 안 잡히는 거라면 연습을 열심히 해라' 정도로 대답할 것 같습니다. 물어본대로인 '몇 퍼센트'라는 대답 보다는 제가 저 지렁이를 잡기 위해 뭘 고쳐야 할 지 대안을 제시할 겁니다. 게임 내부의 어떤 확률 시스템 억까 때문에 제가 보스를 못 잡는게 아니라 제 손이나 돈이 문제라는 걸 고인물 친구는 알고 있나보네요.


이래봬도 도둑놈 기생오라비 유저였고 카벨은 나름 쉽게 잡습니다.



확률은 저희가 어떻게 통제할 수 없는 요인이 있을 때 가져오는 개념입니다.
나중에 다시 한 번 짚겠지만, 일반적인 변수와는 다른 성격의 '확률 변수'라는 것을 사용해서 설명하는 편입니다.

혹시 '통제할 수 없어서 생기는 랜덤성'이라고 네놈이 얘기하는 게, 사실 우리가 놓친 어떤 원인 때문에 생기는 것 아니냐? 그리고 그걸 고치면 그 랜덤성이라는 게 줄어드는 거 아니냐? 라고 반문하실 수도 있겠습니다. 맞습니다. 실제로 그 요인들을 모두 가정하는 게 생각만큼 쉽지는 않아서, 데이터와 주어진 요인을 갖고 랜덤성을 검토하는 여러가지 도구들이 있습니다. 결론을 내리기 전에 신중하게 검토해야 할 중요한 부분이지요.
그러나 이건 저희 수준에서는 제껴두고 그냥 우리는 '랜덤한 상황에서 확률이라는 개념이 통한다' 정도만 짚으면 충분하겠습니다.

그런 랜덤한 상황에서, 우리는 무언가 결정해야 할 때가 많습니다.

뭔가 좀 날씨가 우중충한 상황에서 내일 글램핑을 예약해 뒀는데, 밖에서 고기를 구워먹을지 다른 음식을 준비할지 친구들과 고민하고 있습니다.
확률은 이 때 의사결정을 도와주는 도구 역할을 합니다. 기상청에 들어가봤더니 비가 올 확률이 30% 라는군요. 좋아 진행시켜를 외칩니다.




안타깝지만 확률은 결과를 책임지지 않습니다. '아님 말고'를 항상 달고 다니는 나쁜 놈이예요.
판을 깔고 숯에 불을 붙이는 순간 소나기가 내립니다. 진짜 상하좌우 동서남북으로 열받지만 어쩔 수 없죠. 비가 안 온다고는 안했으니까요.

사건이 과거가 되는 순간 확률은 의미가 없어져 버립니다. 과거의 데이터에서 계산한 확률은 동일한 상황의 미래를 예측하는 데 쓰이지, '그저께의 정보를 생각했을 때 어제 비가 올 확률은 30% 였군!' 은 일반적으로는 그다지 주목할만한 계산은 아닐테지요. 어제는 이미 비가 와버렸고, 불은 겨우 지켰지만 정작 나는 쫄딱 젖은 게 '사실'이잖아요.

요약하자면, 확률은 미래를 이야기합니다.
다시 말해 미래에 대한 어떤 결정을 내릴 수 있는 근거를 제시해 주는 건데요,
근거로 제시할만한 자료는 보통 정성적이기보단 정량적이면 좋겠고, 사람 따라 다르게 해석할 여지가 있는 것보다는 누가 봐도 명확했으면 좋겠습니다.
그런 도구가 뭐가 있을까요?

예상 하셨듯이, 수학입니다.
그래서 우리는 확률을 수학으로 이야기하고자 합니다.
수학의 논리체계를 이용해서 확률을 계산하는 알고리즘을 누군가 만들어 놓았다고 한다면,
우리가 주어진 상황을 숫자로 표현한 뒤 그 알고리즘에 집어 넣어 나온 결과를 우리가 의사결정을 하는 데 사용할 수 있겠죠.
그걸 위해 미리 만들어 둔 프리셋이 '통계 분포' 라고 할 수 있겠습니다. 이는 나중에 다시 한 번 짚고 가도록 하겠습니다.

그럼 수식이면 어떤 것이든 다 확률이라고 우길 수 있을까요?

2. 확률의 공리 (Axiom of Probability)

'공리' 라는 말을 무슨 교양 시간에나 들어봤던 것 같은데.

'공리(Axiom)'는 증명이 필요 없는 가장 기본적인 가정을 이야기합니다. 다시 말해서, '확률의 공리'는 어떤 식을 확률이라고 부를 수 있는 기준을 말하는 거죠. 확률의 공리로는 크게 세가지가 있습니다. 그에 관해 이야기를 하기 전에, 간단하게 용어 정리를 빠르게 하고 넘어가겠습니다.

2-1. Terminology

Sample space 는 어떤 랜덤한 실험으로 인해 나타날 수 있는 모든 결과의 집합입니다. \( S \) 혹은 \( \Omega \) 라는 notation을 사용하고, 대충 전체 집합의 의미를 갖고 있습니다.
Event 는 sample space의 부분집합으로, 우리가 관심있는 상황을 이야기합니다. 흔히 '사건'이라고 불러요.
어떤 사건 A와 B의 교집합이 공집합일 때, 두 사건은 mutually exclusive 한 사건이라고 이야기합니다. 예시로 사건 A와 사건 A의 여집합인 A'는 mutually exclusive events(상호 배타적 사건) 이겠습니다.


보시다시피 확률은 '집합(set)'이라는 기호 위에서 밑그림이 그려집니다. 그래서 당연히 여집합(Complements, \( A^C \) 혹은 \(A^`\) ), 차집합(Subtraction, \( A \) \ \( B \) ), 교집합(Intersection, \( \cap \) ), 합집합(Union, \( \cup \) ) 등의 연산을 그대로 가져와 사용할 수 있습니다.

위 용어들의 예시를 볼게요. 동전을 한 번 던져 앞면(H)이 나오는 지 보는 실험을 할 때,
sample space는 S={H, T},
관심있는 사건 A={H},
확률 P(A) = N(A)/N(S) = 1/2 입니다.
그리고 앞면이 나오는 사건 A와 뒷면이 나오는 사건 B의 교집합은 없기 때문에 (i.e. 동전을 던져서 앞면이면서 동시에 뒷면이 나오는 경우는 존재하지 않기 때문에), 사건 A와 B는 mutually exclusive 사건입니다.

이런 '빈도'에 기반한 방식으로 확률을 정의하는 건 정확하게는 조금 더 고전적인 방식입니다.
이와 약간 다르게, 확률에 우리의 사전 정보를 반영하는 베이즈 통계학(Baysian Statistics)이라는 것이 있는데, 이는 기회가 되면 따로 소개하는 걸로 하고, 이후 내용은 데이터 만으로 통계적 추론을 진행하는 frequentist의 관점을 소개하겠습니다.

 

2-2. 확률의 공리

앞서 말씀 드렸듯 확률의 공리는 '확률을 확률이라고 부를 수 있게 하는 조건' 에 해당하기 때문에 별 다른 이해가 필요하지 않을 것 같습니다. 이것으로 확률을 정의하고, 확률의 다른 성질을 이것들을 사용해서 증명하는 게 맞는 순서일 듯 해요.

1. \( P(A) \ge 0 \)
2. \( P(S)=1 \)
3. 만약 \( A_1, A_2, \) ... 가 상호 배타적(mutually exclusive) 사건이라면, 모든 양의 정수 k에 대해 다음이 성립한다;
$$ P(A_1 \cup A_2 \cup ... \cup A_k)=P(A_1)+P(A_2)+...+P(A_k) $$


딱히 어려운 내용은 없으니 이게 어떤 의미인지 정도만 간단하게 짚고 넘어가도록 하겠습니다.

우리는 무언가를 정량화할 때 단위를 사용합니다. '질량이 100이다' 라는 정보만으로는 이게 무거운지 가벼운지 판단할 수가 없죠. g인지 kg인지 단위를 함께 적어 주어야 우리는 어떤 수가 큰 지 작은 지 등을 평가할 수 있습니다.

처음 두 문장은 확률의 단위를 설정해 줍니다. 관심있는 사건 A는 sample space의 부분집합이기 때문에, 확률 P(A)는 그 비율로서 표현됩니다. 다시 말해, 우리는 전체 집합 S의 비율인 1을 기준으로 정량화 된 사건 A가 얼마나 잘 일어나는지를 평가할 수 있는 것이죠.

저는 이런 느낌의 그림을 상상합니다.



이외의 확률에 관한 성질들은 모두 집합의 연산과 동일하기 때문에 그냥 넘어가도록 하겠습니다. 아, 헷갈릴만한 것 하나만 상기하고 갈게요.

$$
\begin{aligned}
P(A_1 \cup A_2 \cup ... \cup A_k)&=P(\cup A_k)\\&=\Sigma_{i=1}^k P(A_i)-\Sigma_{i<j}P(A_i \cap A_j) + ... + (-1)^{k+1}P(\cap_{i=1}^k A_i )
\end{aligned}
$$

 

3. 확률의 이해

지금까지 이야기 한 내용을 살짝 정리해 보겠습니다.

  1. '확률'은 우리가 간섭할 수 없는 어떤 랜덤한 상황에서 도입되는 개념이며, 불확실한 상황 속에서 무언가 결정해야 할 때 결정의 근거로 쓰기 위해 계산.
  2. 확률은 0과 1 사이의 수로 표현되며, 집합 공간에서 이야기할 때 말이 잘 통함.

확률이라는 개념을 '수'로 쓰면 어떤 이점이 있을까요?
상술했던 '정량화가 가능하다' 외에도, 인간 유구한 역사와 함께 발전한(????) 모든 수학적 도구들을 확률을 위해 다 때려박을 수 있다는 점입니다. 제주도에 갈 건데, 이동 수단을 돈을 써서 마련하는 것 보다는 그냥 거기 있던 차를 공짜로 구할 수 있으면 더 좋겠죠.


여행 가고싶다



어떻게 보면 너무나도 당연한 말이긴 하지만, 저는 어떤 문제를 해결할 때 이런 아이디어가 굉장히 중요하다고 생각하고 있습니다.
학문과 연구 뿐만 아니라 다방면으로 모든 분야의 테크닉들이 폭발적으로 발전하는 현 사회의 메타(?)에서, 기존의 것들 중에 알맞는 것을 찾아 차용하는 것이 어쩌면 새로운 것을 만들어내는 것보다 훨씬 효율이 좋지 않을까 합니다. 적용의 깊이도 다를 테니까요.

하지만 그게 쉬운 일이었으면 저는 이미 박사 수료까지 프리패스로 했겠죠.

잠시 딴 길로 샜습니다만, 아무튼 확률이 수학의 영역에서 표현되기 때문에 우리는 랜덤성에 대해 확률을 부여할 수 있겠습니다.

$$ P(A)=f(x) $$


되게 있어 보이지만 그냥 표시만 바꿔준 겁니다.
함수라는 게 뭐 대단한 게 아니라, 뭐든 그냥 숫자로 표시만 하면 되는 거니까요.
예를 들자면,

주사위를 던져서 나온 눈의 수가 x일 확률을 \( P(A)\) 라고 하자.
\( P(A)=f(x) \)라고 쓰면,
$$ f(x)=\begin{cases} \frac{1}{6} & (x=1, 2, 3, 4, 5, 6)\\ 0 & (others) \end{cases} $$


이렇게 함수로 쓰는 순간, 우리는 우리가 알고 있는 모든 수학적 도구들을 확률 함수에 대해 적용할 수 있게 됩니다.
미분을 하든, 적분을 하든, 뭘 더하고 빼든 역함수를 생각해보든, 필요하다면 뭐든지요.

혹은 아래와 같은 경우도 생각해 볼 수 있겠습니다.

f 실제로 바이러스에 감염 실제로 바이러스에 감염 X
검사 결과 양성 .00029997 .00009997
검사 결과 음성 .00000003 .99960003


이런 테이블도 그 자체로 함수라고 할 수 있겠죠.

함수에 관한 자세한 이야기는 따로 시간을 빼서 하기로 되어 있으니 여기서 멈추고, 정리하자면 이렇습니다.

확률은 0보다 큰 함숫값으로 정의되며, 그 합이 1이 되는 함수다.


결국 이 한 문장을 말하기 위해 여기까지 내려온...TMI 파티였네요.

이제 우리 데이터의 분석을 진행하기 위해 제일 처음으로 해야 할 일을 알 것 같습니다.
확률은 0과 1 사이의 숫자로 정의된 함수이기 때문에, 우리가 가진 정성적 데이터들을 0과 1 사이의 숫자로 정량화 하는 것.
예를 들자면, 관심있는 SNP을 1로, 아니라면 0으로 둔다든지 하는 방식이 있겠습니다.

다음 시간에는 '통계'라는 분야 전반을 이해하기 위한 내용을 준비해 오겠습니다.