본문 바로가기

Z-bio stat/Z-기초통계학

[Z-Bio Stat] 3. 샘플링(Sampling)과 확률 변수(Ramdom Variable)

 

  1. 확률(Probability)의 재정의
  2. 통계와 통계량(Statistics)
  3. 샘플링(Sampling)과 확률 변수(Random Variable)
  4. 확률 함수: cmf / cdf / pmf / pdf
  5. 선형대수 표시법: Matrix를 왜 쓰는가?
  6. 데이터와 차원의 표현: 정보의 압축
  7. 정규분포로 보는 분포(Distribution)의 의미: 분포는 프리셋(preset)이다
  8. Bernoulli Trial: Binomial, Geometric, Hypergeometric, Negative binomial distribution
  9. Poisson Process: Exponential, Gamma, Beta distribution
  10. 추정(Inference): 귀무가설과 대립가설, 유의 수준과 p-value, 신뢰구간(CI)
  11. 추정(Inference) (2): Pivotal quantity, Student-t, Chi-square, F test and ANOVA table
  12. Experiment prediction: 회귀분석(Regression Analysis)의 가정(assumptions)과 아이디어
  13. Appendix

 

1. 샘플링(Sampling) ; 갑자기 분위기 경우의 수

일전에, 저희가 이야기하고 있는 확률이라는 친구는 전체 집합인 'sample space'와 그 부분 집합 공간에서 논의하기로 딱 정했던 것 같습니다. 여기서도 나오는 '샘플(sample)'이라는 단어, 확률이나 통계를 이야기 할 때 꽤나 친숙하게 이야기했던 것 같네요.

'샘플링(Sampling)'이란, 간단하게 sample space의 부분 집합을 만드는 과정을 의미합니다. 이 때, 우리의 의지가 개입하면 그건 '샘플링' 이라고 하지 않아요.

"뭐 먹을까" "아무거나" "...?"



'샘플링'이라는 단어에는 '무작위' 라는 의미가 함축되어 있습니다. 어떤 목적 하에서 어떠한 시행 조건을 걸어줄 수는 있지만, 결과를 선택함에 있어서는 우리가 개입할 수 없는 경우입니다.

이게 무슨 말인지 R 코드로 예시를 볼게요.

sample(1:10, 1)
#> 2


'1부터 10까지의 자연수 중에서 한 개의 숫자를 뽑아줘' 라는 코드를 입력했고, 2라는 결과를 얻었습니다. 5번만 더 해 볼게요.

sample(1:10, 5)
#> [1] 1 9 8 5 7


어떠한 규칙성 없이 무작위로 숫자를 뽑는 이러한 시행을 '샘플링' 이라고 합니다. 이 실험을 통해 저는 크기가 5인 샘플을 만들어 내었네요.

살짝만 더 응용을 해 볼게요. \( N(0, 1) \) 에서 5개의 샘플을 뽑아 봤습니다.

rnorm(5, 0, 1) # 2, 3번째 argument는 각각 이 정규분포의 평균과 분산을 의미합니다만, 지금처럼 normal zero-one을 따를 때는 생략해도 됩니다.
#> [1] -0.7451568 -0.5092643  0.6536023  0.5507594  0.7286230​

 

보통 우리가 통계적 검정이라고 하는 것은 이 샘플링된 부분 집합을 보고, 모집단을 추정하는 과정이라고 생각하시면 편할 것 같습니다.

1-1. 샘플링의 조건?

아니, 아까 샘플링에 조건을 걸어줄 수 있다며?

우리가 관심있는 실험이나 조사 상황이 항상 '우주에서 가장 완벽한 무작위!' 라면 좋겠지만, 안타깝게도 실사례들은 그렇지 못합니다. 아래 내용은 통계학과 수업에서 '샘플링의 조건이다' 라고 배우는 건 아니고 그냥 제가 그렇게 부르는 건데, 대충 다음과 같습니다:

첫째로, 뽑는 방식에 조건을 걸어주는 경우가 있습니다.

w/ ordered sample w/ replacement : \( n^r \)

w/ ordered sample w/o replacement : \( P_{n, r} \)

w/o ordered sample w/ replacement : \( \begin{pmatrix} n+r-1 \\ r \end{pmatrix} \)

w/o ordered sample w/o replacement : \( \begin{pmatrix} n \\ r \end{pmatrix} \)

notation. w/ : with ~, w/o : without ~


이들에 관한 자세한 내용은 고등학교 확률과 통계 책을 열어 보시는 걸로 충분할 듯 합니다..만 딱히 꼭 알아야만 하는 것은 아니라서, 필요하다면 그때 찾아보는 걸로 해도 되실 거예요.
위에서부터 중복순열, 순열, 중복조합, 조합 이라는 한국어 용어를 사용했던 것 같네요.

둘째로, 위의 정규분포 샘플링처럼 모집단의 모양을 일부 제한하는 경우입니다. 전체 데이터 중 어떤 특성을 가진 집단만의 특성을 보고 싶을 때는 그러한 데이터들만 필터링해서 샘플링 할 수도 있겠죠.

이러한 과정에서 마음대로 데이터를 적당히 선택하는 건 별로 좋지 못할 거예요. 단순히 예를 들어 이상치 혹은 결측치가 포함된 데이터라고 분석에서 배제해 버린다면, 그런 데이터가 나온 유의미한 백그라운드를 무시하는 게 될 수 있으니까요.

경우에 따라서 이러한 데이터를 보정하는 방법을 사용하거나, 혹은 적절한 경우 데이터를 빼는 게 가능할 수도 있겠습니다. 적합한 데이터 처리를 하기 전에 적절한 검증과 분석이 필요하겠죠. 생각보다 어려워요


이런 샘플링에 관한 부분은 당연하게도 연구나 분야마다 다루는 방식이 달라서 일반화 하기는 어렵고, 본 전공의 연구 특성을 따라 가는 편입니다. 우리가 생물하는 사람이라면, 생물을 열심히 공부해서 통계하는 사람들한테 "이렇게 해 줘" 하면 될 거예요.

요약하면, 우리 손에 들어오는 실험 데이터들은 대부분 '샘플링'으로 생성된다고 할 수 있겠습니다. 특정 조건 하에서 랜덤성을 갖는 데이터라고 전제하는 거죠.

데이터 전수를 얻는 게 대부분의 경우 현실적으로 불가능하니, 당연합니다.

 

1-2. "ind"와 "iid" 샘플링

그러나 위에서 소개한 샘플링의 조건은 일면 실험의 계획 단계와 관련이 있어 보입니다. 즉, 저들은 데이터가 어떻게 만들어 졌는지에 관한 서술일 뿐, 우리가 앞으로 여기서 살펴볼 통계적 도구들을 다룰 때는 별 의미가 없어요. 현미를 넣든 보리를 넣든 어차피 우리의 주식인 잡곡밥이죠.

이제 소개해드릴 개념은 저희가 볼 기초통계학에서 굉장히 핵심적인 가정에 해당하는 조건입니다.
우리 모두 고등학교때 들어봤을, "확률의 독립"과 관련된 가정들이 그것이예요.

두 사건 A와 B를 가정해 봅시다.
정의에 의해, 다음과 같은 경우에서 사건 A와 B는 독립이라고 이야기합니다 :
$$ P(A \cap B) = P(A)P(B) $$


ind는 independent의 약어로 사용됩니다. 우리에게 \(X_1,\;X_2,\;\cdots,\;X_n\)이라는 n개의 데이터가 있는데, 이들이 서로 독립이라면 확률 기호에 ind를 붙여 표시합니다.

$$ X_1,\;X_2,\;\cdots,\;X_n\;\overset{ind}{\sim}\;D(\theta)$$

※ D는 임의의 분포를, \(\theta\)는 임의의 파라미터를 나타냅니다.


의약학 계열에 관심이 많으신 분들이라면 다른 IND를 떠올리셨을 수도 있지만, 여기는 통계학이예요!

iid는 여기에 하나가 더 붙습니다. iid는 Independent and identically disitributed의 약어로 사용되는데, 각 데이터가 모두 독립일 뿐만 아니라 그 확률이 모두 같을 때 이런 노테이션을 붙여 줍니다.

$$ X_1,\;X_2,\;\cdots,\;X_n\;\overset{iid}{\sim}\;N(0,1)$$
이라고 한다면, 우리가 가진 n개의 샘플은 모두 같은 확률 함수를 갖게 됩니다.


앞으로 저희가 여기서 다룰 예시들은 거의 다 iid 샘플일 예정입니다.

2. 확률 변수(RV ; Random variable)도 함수다

'변수(variable)'은 우리에게 너무도 친숙한 개념입니다.
$$ f(x) = x+1 $$
이 함수는 변수 x(input)에 대해 함숫값(output)이 결정되는 일변수 함수입니다. 비슷하게,
$$ g(x, y) = \frac{x^2}{y} + sin(y) $$
는 변수 x, y에 대해 함숫값이 결정되는 다변수 함수라고 할 수 있겠습니다.
즉, 우리가 관심있는 함숫값은 input 변수에 의해 결정된다고 볼 수도 있을 것 같네요.

우리 확률을 아래처럼 이야기 했었지 싶어요 :

확률은 0보다 크고, 합이 1인 함수다.


그렇다면 '확률'이라는 함숫값도 마찬가지로 input 변수에 의해 결정되겠군요.
그러니 그 input 변수를 '확률을 결정하는 변수', 즉 '확률 변수'라고 부르도록 해요.

우리 친구 주사위로 예시를 들어 볼게요.

'주사위 한 번 던져서 나온 눈이 1일 확률은 1/6이다.'

문장을 찬찬히 뜯어보면, 확률 1/6을 결정하는 값은 '나온 눈을 X라고 할 때, X=1' 이라고 할 수 있겠습니다.
이상에서 볼드체로 된 부분이 '확률 변수' 입니다.


주사위 예시에서 확률 변수 X는 sample space인 {1, 2, 3, 4, 5, 6} 중 하나로 결정됩니다.
즉, 확률 변수는 전체 집합인 sample space의 부분 집합이군요.

여기서 확률 변수(Random Variable, RV)의 정의를 살펴보고 갈게요. 있어 보이는 말들이 잔뜩 있지만 결국 위에서 풀어 썼던 것과 같은 말입니다.

Random variable X는 sample space S에서 정의된 real-valued function이다.


이걸 바탕으로, 확률에서 정말 자주 사용되는 아래 노테이션을 이해해 보도록 할게요.

$$ P(X=x) $$


확률 변수 X의 값이 x일 때, 그 확률 함수의 함숫 값 P(X=x)는 아래와 같은 말인 것으로 생각할 수 있습니다.

$$ f(x) $$

 

2-1. RV의 종류

조금만 더 확장해 볼까요.
확률 변수의 성질은 그럼 그 sample space(이하 S)의 성질에 따른다고 봐도 무리가 없을 것 같습니다. 부분 집합이니까요!

2-1-1. Discrete RV

주사위를 다시 보겠습니다.
확률 변수 X는 S={1, 2, 3, 4, 5, 6} 중 하나입니다. 일반적으로 생각할 수 있는 주사위에서 X=1.513846265... 가 나오지는 않을 거예요.
이렇듯 확률 변수 X를 하나씩 셀 수 있는 경우를 'Discrete RV(이산 확률 변수)'라고 합니다.

셀 수 있지만 무한으로 발산하는 경우도 존재합니다.



'유한하다(Finite)' 와 '셀 수 있다(Countable)' 는 차이가 있습니다.
가장 쉬운 케이스로 { \( X \in \mathbb{N} \) } 를 생각해 볼까요. \(X={1, 2, 3, ...}\) 로 손가락 발가락을 써서 셀 수 있지만, 제가 어떤 수를 제시해도 그보다 큰 수를 X의 집합에서 찾을 수 있습니다. 셀 수 있지만, 무한한 경우의 쉬운 예시가 되겠습니다.

Discrete RV의 핵심은 countablity라고 할 수 있겠습니다.

 

2-1-2. Continuous RV

아래는 노말제로원, \( N(0, 1) \)의 그래프 입니다.

desmos



우리가 흔히 '함수' 하면 떠올리는 모양으로서, 2차원 좌표 공간에서 매끈한 곡선을 그리고 있습니다.
이렇게 뚝뚝 끊기지 않고 매끈한 모양새를 가진 확률 변수를 'Continuous RV(연속 확률 변수)' 라고 불러요.

이 친구들은 조금 독특한 성질이 있습니다.
앞서 우리가 얘기한 것처럼 확률의 합은 1이 되기로 약속했어요.
그 말은, 위와 같은 어떤 확률의 함수를 f(x)라고 한다면,

$$ \int_{-\infty}^{\infty}f(x) dx = 1 $$


을 만족해야 한다는 뜻일 거예요.
Discrete RV에서 \( \Sigma \)에 해당하는 연산을, 연속 변수에 대해서는 시그마를 적용할 수 없으니,
같은 '합'의 의미를 가진 적분 기호를 사용해 준 거죠.

확률변수를 이렇게 각각 이름까지 붙여 가면서 굳이 종류를 나눈 이유가 무엇일까요?

확률과 통계에서만 배타적으로 사용하는 연산이 있습니다.
기댓값( \(E(X)\) ), 분산( \(Var(X)\) ), 공분산( \(Cov(X,Y)\) )과 상관계수( \(Corr(X,Y)\) ) 등이 그것들인데,
이 값을 계산하는 연산 방식은 확률 변수의 종류에 따라 조금씩 달라집니다.
당장 바로 위에서, 우리는 이산 확률 변수에 \(\Sigma\)를, 연속 확률 변수에\( \int\)를 적용했었죠.
아니, 둘이 의미도 같다면서 왜 이게 문제가 되는 건데?

통계를 메인으로 사용하는 응용 분야에는 빅데이터, 딥러닝, 머신러닝 등이 있습니다.
이런 멋진 작업들을 해내는 데는 컴퓨터가 필요하다는 걸 우리는 알고 있습니다. 당연히 이 작업들에 필요한 연산을 사람이 직접 계산기 두들겨서 값을 입력할 리가 없죠. 이미 똑똑하신 분들께서 컴퓨터가 입력값을 받고 알아서 "적절한" 계산을 수행하도록 알고리즘을 짜 두셨습니다. 그리고 적절한 계산을 위해서는 적절한 인풋 데이터가 들어가야겠죠.

그런데 컴퓨터는 생각보다 멍청해서, 적절한 데이터 타입이 들어오지 않으면 계산을 수행하지 못합니다. 대충 비슷한 의민데 그냥 진행해라 하고 싶어도 컴퓨터는 귀가 없어서 알아 듣지를 못해요.
예시로, R은 '123'과 123를 다르게 받습니다(더 많은 예시는 옆에서 '비단뱀과 알' 카테고리를 눌러주세용).
그래서 똑똑한 우리 인간이 이런 간단한 차이까지도 잘 구분해서 먹여줘야 합니다. 데이터 종류에 따라서 적절한 계산을 할 수 있도록 식을 세워 주고, 적절한 결과를 얻도록 가르쳐줘야 하죠. 마치 경유차에 휘발유를 넣으면 안되는 것과 비슷한 경우입니다.

그런 점은 차치하고서라도, 그들은 그들이 가진 수학적인 특성에서도 일면 차이가 있습니다. 어떤 차이가 있을까요?

다음으로는 이와 같은 확률 함수들에 관한 특성들, 그리고 RV의 종류에 따라 어떤 차이가 있는지, 각각 이름을 붙여가며 살펴 보는 시간을 준비해 보겠습니다.