Z-bio stat/Z-기초통계학

[Z-Bio stat] 2. 통계와 통계량(Statistics)

Terrapin 2022. 11. 7. 11:41

  1. 확률(Probability)의 재정의
  2. 통계와 통계량(Statistics)
  3. 샘플링(Sampling)과 확률 변수(Random Variable)
  4. 확률 함수: cmf / cdf / pmf / pdf
  5. 선형대수 표시법: Matrix를 왜 쓰는가?
  6. 데이터와 차원의 표현: 정보의 압축
  7. 정규분포로 보는 분포(Distribution)의 의미: 분포는 프리셋(preset)이다
  8. Bernoulli Trial: Binomial, Geometric, Hypergeometric, Negative binomial distribution
  9. Poisson Process: Exponential, Gamma, Beta distribution
  10. 추정(Inference): 귀무가설과 대립가설, 유의 수준과 p-value, 신뢰구간(CI)
  11. 추정(Inference) (2): Pivotal quantity, Student-t, Chi-square, F test and ANOVA table
  12. Experiment prediction: 회귀분석(Regression Analysis)의 가정(assumptions)과 아이디어
  13. Appendix

 

1. 통계, 있는 그대로 받아들이기

 

'통계적으로' 라는 단어는 쓰이지 않는 분야를 찾기 힘들 정도로 우리가 일상에서 정말 많이 접하는 말입니다.

정치, 날씨, 의학, 경제, 사회 등 생활 밀착형(?) 이슈에서도 쉽게 찾아볼 수 있죠.

사실 그래서 '통계'라는 개념이나 몇몇 파라미터(parameter ; 모수)들은 우리가 나름대로 익숙한 것 같기도 해요.

 

Parameter(모수)는 어떤 분포를 설명하는 수, 지표 등으로 일단 생각하시면 됩니다.
예를 들어, 우리가 정규분포 곡선을 정확히 그리기 위해서는 평균과 분산이 얼마인지를 알아야 하는데,
이 때 '평균'과 '분산'을 정규분포의 파라미터라고 합니다.

단, 평균과 분산은 정규분포의 파라미터라서, 우리 데이터가 다른 분포를 따른다면 별로 중요하지 않을 수 있습니다.
예시로 '앞면/뒷면이 나올 확률이 각각 다른, 요상하게 생긴 동전을 한 번 던진다(이와 같은 시행을 베르누이 시행이라고 합니다. 나중에 다시 정리할 예정에 있습니다)' 라는 상황에서의 파라미터는 '앞면이 나올 확률 p' 라고 할 수 있겠네요.

이처럼 분포에 따라서 관심있는 파라미터는 다를 수 있습니다.

 

뉴스에서 보는 통계는 그다지 어려워 보이지 않습니다.

 

 

출처 통계청

 

 

이것 외에도 가장 쉽게 떠올릴 수 있는 사례가 '여론 조사' 같은 게 있겠네요.

보통 일상적으로 접하는 통계는 이런 그림으로 표현된 것이 많겠습니다만, 이러한 요약은 우리가 고등학교에서 배웠던, 수학으로 표현된 통계 분포들로부터 나온 겁니다.

 

 

desmos에서 그린 N(0, 1/4)의 그래프.

 

 

수능을 본 지 오래라 뭔지 정확히 기억은 나지 않지만 0.95니 0.975니 했던 숫자들을 막 썼던 것 같고, 뭐 넓이를 갖고서 무언가를 했던 것도 같고... 그렇습니다. 아무튼 저희 머리 속에서 '통계는 계산이 필요한 지겨운 수학이다' 라는 이미지를 씻어내기가 어려울 것 같네요.

 

그러나 사실 통계를 전공하는 사람이 아니라면, '통계'니 '분포'니 하는 것들은 아래와 같은 이미지를 갖는 게 맞을 것 같습니다.

 

 

'N은 정규분포'와 같은 식으로, 저 알파벳 같은 것들은 각각의 분포를 의미하는데 그냥 그런갑다 하고 넘어가셔도 됩니다.

 

 

우리는 TPO에 따라 옷을 갈아 입습니다.

업무적 미팅에는 셋업을, 도서관 갈때는 꾸안꾸(저는 그렇습니다...)로, 놀러 나갈 땐 힙하게, 미팅에선 단정하게... 뭐 이렇게요.

 

통계 분포들도 같습니다.

각 분포가 어떤 과정에서 어떤 증명 과정을 거쳐 어떻게 나왔으며 어떤 성질이 있고 어떻게 생겨 먹었는지, 같은 복잡한 내용은 통계학과에서 잘 연구해서 발표해 주실 겁니다. 옷의 원단이나 디테일, 착용감 등의 설계는 디자이너 분들께서 잘 해주실 거예요.

 

우리는 그걸 써먹는 사람들이니까, 일단은 '얘는 언제 쓰면 되고, 결과는 이렇게 읽으면 되겠다' 정도만 아는 걸 목표로 할게요(그것 만으로 모든게 해결된다는 의미는 아니지만요). 다시 말해, 다양한 TPO를 커버할 수 있도록 옷장에 다양한 옷들을 쟁여두고, 적당할 때 하나씩 꺼내 입자는 뜻입니다.

 

덧붙여 기본템만 몇 벌 준비해 둔 사람보다 퀄리티가 좋은 옷을 많이 쟁여둔 사람이 아무래도 개성과 센스를 더 잘 드러낼 수 있을 겁니다. 마찬가지로, 좋은 수학적 모델에 대한 더 넓은 지식을 갖추고 있으면 응용 역시 쉬워질 거예요. 예시로 많이들 들어 보셨을 카이스퀘어 분포( \(\chi^2\) )는 '감마 분포(Gamma distribution)'의 한 특이 케이스로 생각할 수 있는데, 얘는 또 '지수 분포(Exponential distribution)' 라는 것과 어느 정도 관련이 있고, ... 이런 식으로 이어 나가다 보면, 정말 답이 없어 보였던 샘플에서도 우리가 아는 쉬운 분포 모양을 만들어 낼 수 있을지도 모릅니다.

 

 

하지만 자라는 자신만의 길을 가는 모든 분들을 존경합니다.

 

 

그렇다고 응용하는 저희 입장에서 그 원리나 증명을 100퍼센트 모두 이해할 필요까진 없을 것 같습니다. 옷이 고장난다면 수선집에 가듯, 우리가 쓰는 통계적 모델이 먹히지 않는다면 통계 전문가를 찾아가도 좋을 거예요.

 

 좀 더 심화된 연구를 이해하거나 직접 참여할 때는 결국 수학적인 배경과 이해를 갖춰야 하겠지만, 일단은 우리는 기본템부터 마련해 보도록 해요. 일단 저 분포들과 친해지는 걸 목표로, 정의와 기본적인 응용(기본적인 검정 정도)만 하더라도 우리에겐 엄청난 발전이지 싶어요. R에서도 그 정도 만으로도 분석을 대충 돌릴 수는 있으니까요.

 

각 분포와 관련한 내용은 기본적인 notation들을 좀 더 들여다 본 뒤에 다뤄보도록 하겠습니다.

 

다시 요약하자면 이렇습니다.
1. 정규분포, \( \chi^2 \) 분포, t분포, 포아송 분포... 등 세상에는 수많은 분포들이 존재한다.
2. 그 분포들은 각각 쓰이는 TPO가 있다.
3. 우리는 일단 각 분포들이 어떤 상황에서 어떤 목적으로 쓰이는지를 보고, 결과가 어떻게 나오는지 볼 줄 알면 좋겠다.

+. 이 모든 분포들의 의미를 이해하는 단계에서는 정규분포처럼 모양과 평균, 분산을 하나하나 따질 필요는 없다.

 

고등학교 확률과 통계에서 우리는 보통 '종 모양(bell shape)이네', '평균, 분산이 얼마네' 와 같은 특징들로 정규분포를 배웠습니다. 그러다 보니까 저는 부작용이 생겼어요. 새로운 분포를 접하면 모양이 어떤 모양인지부터 굳이 그려 보려고 하고, 그 분포의 파라미터는 등외시한 채 꾸역꾸역 계산한 평균과 분산을 더 소중히 외우면서 '아 통계 뭣같네' 생각을 많이 했습니다.

 

물론 그런 작업이 필요할 때도 있습니다.

 

하지만 그래프나 평균, 분산의 계산은 어느 정도 '분포의 이해' 보다는 '분포의 응용'에 가깝습니다.

 

맛보기로 소개하면, 평균과 분산을 계산하는 이유는 'CLT(중심 극한 정리)'를 이용해서 우리 데이터를 '정규 분포로 근사' 시키기 때문입니다. 즉 다른 어려운 모양의 분포를 쉬운 정규분포로 바꿔서 보고자 하기 때문에, 정규분포의 파라미터인 평균과 분산을 사용하는 거예요 (이 부분은 나중에 자세히 다룰 예정이니 일단 추가적인 설명은 넘기겠습니다).

 

아무튼 그러한 연유로, 분포를 처음 받아들이는 데에 있어서는 평균/분산/그래프 모양 보다는 그들 보다는 분포를 설명하는 '파라미터'에만 집중하는 게 좋겠습니다. 휴대폰의 다양한 퍼포먼스도 중요하지만, 우선 전화나 메신저 기능이 없으면 핸드폰이 아니겠죠.

 

분포가 각각 다 다른 특징과 사용처를 갖고 있다는 점을 받아들이고(실제로 그런 필요에 의해 고안된 것들이 많습니다) 순백의 뇌로 돌아가서 보면 오히려 통계와 분포를 이용하기가 쉬울 지도 모르겠습니다.

 

 

2. 통계량(Statistics)은 내가 '설계하는' 것이다

제가 '통계량' 이라는 단어를 처음 접했을 때 저는 이게 데이터와 관련된 말인 줄 알았습니다.

위 인구이동 그래프에서 '45만 7천명'와 같은 양들을 말하는 줄 알았죠.

 

하지만 일반적으로 통계량은 분포에서 뽑아낸, 내 데이터를 검정하기 위해 계산한 양 을 의미합니다.

와, 무슨 말인지 정말 모르겠네요. 예를 들어 아래와 같은 경우를 생각해 보겠습니다.

 

자라가 정육면체 주사위를 5번 던졌습니다. 순서대로 4, 2, 5, 3, 1 눈이 나왔네요.
나온 주사위 눈의 평균은 다음과 같이 계산합니다 :
$$ \frac{4+2+5+3+1}{5} = 3 $$

 

이 평균 '3'이라는 수는 어떤 의미를 가질까요?

 

첫째로, 우리가 가진 샘플들의 정보를 요약해 줍니다.

'평균이 3이다' 라는 정보를 갖고서 우리는 '적당히 주사위의 눈이 골고루 나왔구나' 내지 '중간 근처에서 잘 나왔구나' 정도를 생각할 수 있겠습니다.

 

둘째로, 우리가 가진 샘플의 유의성을 검정할 수 있습니다.

우리 평균 '3'은 아마 주사위를 5번 던져서 나올 평균의 '기댓값'과 비교해서, 우리 샘플이 희귀한 경우인지 일반적인 경우인지 판단해 볼 수 있겠습니다(그렇다고 관심법으로 결정하는 건 아니고, 나름대로 이걸 계산하는 방법이 있습니다).

 

이렇듯 통계량은 어떤 목적을 위해서 데이터의 수치를 임의대로 계산해 얻어낸 수를 의미합니다. '임의대로 계산한다' 라는 말은 그 수를 어떤 분포를 따르도록 계산한다는 말인데, 자세한 건 일단 분포들과 친숙해져야 하기 때문에 뒤에서 다룰 내용이지만 우선 한 번 맛만 봐보도록 해요.

 

어떤 '임의의 분포'를 따르는 샘플의 평균은 \(N(\mu , \frac{\sigma^2}{n}) \) 을 따른다는 이론이 있습니다.
이를 바탕으로 우리가 가진 샘플이 예상되는 기댓값에 비해 얼마나 멀어져 있는지를 알기 위해 우리는 '샘플의 평균' 을 먼저 계산해야 할 것 같네요.
즉 '샘플의 평균'은 우리 샘플이 모집단에서 차지하는 위치를 대충 확인하고자 계산한 하나의 '통계량' 입니다.

 

또 다른 예시로, 앞에서 통계 분포를 옷에 비유할 때 얘기한 카이스퀘어-감마-Exp...의 상황을 생각해 보겠습니다.
뭔진 잘 모르겠지만, 우리가 가진 데이터의 값을 적당한 방식으로 조물조물거리면 결국 우리가 알고 있는 카이스퀘어 분포를 따르도록 바꿀 수 있다는 것 같은데, 그럼 그 중 한 데이터를 선택했을 때 그 관측치가 어느 정도의 위치에 있는지 알 수 있을 겁니다.

 

아직은 와닿지 않더라도, 앞으로 이 '통계량' 이라는 말을 주구장창 사용할 테니 실전에서 금방(?) 느낌이 오시리라 생각합니다.

 

앞서 제가 '통계량' 만큼 많이 사용한 단어가 '기댓값' 입니다.

 

 

(대충 기대하는 짤)

 

 

기댓값에 관한 내용은 다음 포스트에서 '확률 변수'를 다룬 뒤에 소개하겠습니다. 앞뒤가 조금 바뀐 것 같긴 하지만, 응용 학문 내용이 다 그렇죠. 서로가 서로를 설명하는 것이니까요.

이 포스트에서는 '통계량' 이라는 단어가 통계 자료의 숫자를 말하는 게 아니라는 것 정도만 소개해 드리고 싶었기 때문에 이정도에서 마무리하는 게 맞을 것 같아요.

 

다음 시간에는 슬슬 통계학적 내용으로 들어가면서, 그 첫 단계로 통계를 만드는 방식, '샘플링'과 '확률 변수'에 관한 내용을 준비해 보겠습니다.