Z-bio stat/Z-기초통계학

[Z-Bio stat] 0. OT

Terrapin 2022. 10. 30. 16:52

조잡하기 그지없다!

0. 잡설

바이오 하면 뭐 먹고 사냐.
그거 어차피 삼바 셀트 가는 데 아니냐.
거기 20년째 블루오션인 과 아니냐.
탈모 치료제나 만들어라.

진학할 학과를 결정하던 고등학교 때부터 귀에 딱지가 앉도록 들은 말입니다.
많은 어른들이 그렇듯 성적이 되면 의치한이라는 키워드를 먼저 떠올리게 하죠 (요새는 모르겠습니다만, 당시엔 그랬습니다).

저는 의학이 싫었습니다. 아, 정확히는 테크니션이 되는 게 싫었습니다.
저는 절 그렇게 믿지 못해서 내 손에 생명이 달려 있다고 한다면 손이 덜덜 떨릴 것 같았거든요.
일단 의사가 되어야 돈을 벌든 할텐데, 의대를 간다고 한 들 잘 해낼 자신부터가 없었습니다.

그렇게 약간의 방황과 혼란기를 지나 결국 저는 의과학도가 되었습니다. 바라던 대로 손 보다는 머리를 믿게 된 겁니다. 굳이 생물학에 집착했던 이유는, 생2의 센트럴 도그마가 너무 재밌었기 때문입니다. 질병을 정복한다는 테마도요.
아 물론 제가 머리가 좋냐 하면 절대 아닙니다. 중학교 때 장난삼아 해본 IQ 테스트에선 두자리 숫자를 받아 보았습니다. 머리를 믿는다는 건, 그저 단지 제 실수로 누군가의 운명이 달라지는 일은 없겠다 싶어 다행이었다는 뜻입니다.

그 이후로 몇 년이 지났고, 먹고 사는 문제는 이제 막연한 걱정이 아닌, 제 현실이 되었습니다.
나름대로 학부생 입장에서 여기저기서 할 수 있는 것들은 많이 해 본 것 같은데,
공부하는 건 재밌지만 내가 새로운 결과를 만들어 내는 건 쉽지 않았습니다.

21년, 감히 KBSI 연구원이라는 이름을 달고 과기대전에 exhibitor로 참여할 수 있는 좋은 기회까지 얻었습니다.



우선 실험이 그랬습니다. 그간 학부에서 배웠던 기초 과목들, 그러니까 분자생물학 / 세포생물학 / 생리학 / 미생물학 등의 과목은 대부분 실험 기법을 사용하는 생명계열의 근간입니다. 대부분 생명과학 하면 실험과 암기를 떠올리는 게 마냥 잘못된 선입견인 건 아닐 테지요.

저는 실험을 정말정말 못합니다. 셀 밥주다가 셀들을 다 빨아먹어버린 적도 있고(다행히 귀한 샘플은 아니라서 그냥 넘어갔습니다), 파이펫팅만 하면 부동산 전문가들도 손절 칠 만큼 버블이 야무지게 올라옵니다. 손가락은 또 더럽게(?) 뻣뻣해서 아무리 연습을 해도 한 손으로 플라스크 여는 것보다 그냥 양손 다 쓰는 게 훨 나았습니다. 컨탐은, 말 안해도 뻔하죠. 제 인생에 알맞는 직업은 그냥 실험실 청소부 정도겠구나 생각했습니다.

그즈음 저는 완전히 생물정보학 분야로 넘어가기로 결정했습니다. 정말 퓨어한 드라이랩(Dry-lab, 주로 수집된 데이터를 이용한 분석을 수행합니다. 실험으로 데이터를 직접 생성하는 웻랩, wet-lab의 반대쪽 정도입니다) 유전학 교수님께 열심히 배웠던 탓에 생물정보학에 완전히 푹 빠져 있었죠. 저희 과의 유전학은 통계적 내용이 많이 포함되어 있습니다. 갓 일반생물학을 졸업한 어린 아이에게 GWAS, NGS, HapMap 등의 단어와 ilumina, thermofisher 등의 기업, 그리고 여러 통계적 분포들을 인생 처음으로 접하게 한 그런 강의였습니다. 생물의 분과로도 컴퓨터 사이언스가 있다니. 뭔가 블루오션이라는 타이틀에 적합해 보이는 도메인이었습니다.

저는 그렇게 학교 전공에서 가르쳐주지 않은, 파이썬과 통계학을 공부하기 시작합니다(R은 그 유전학 교수님으로부터 구글링하는 법을 전수받았습니다). 통계학과로 이중전공을 하고, 선형대수도 똑바로 안되어 있으면서 산업공학을 다루는 학과의 Operation research (abbr. OR)도 일단 해봅니다.

죽을 뻔 했습니다. 평생 시험기간에 끽해야 익숙한 내용의 암기만 해오던, 과제로 해봤자 레포트 정도만 내면서 살던 IQ 두자리 인간에게 수학의 세계는 너무나도 넓었습니다. 더군다나 이중 전공이기에, 다른 비슷한 수준의 학우분들 보다 시간이 훨씬 적었습니다. 메인디쉬와 에피타이저를 같이 먹어야 했습니다. 망망대해에서 무엇을 먼저 잡아야 할지 판단이 서질 않았습니다.

그러나 점점 논문 하나를 읽을 때에도 이해가 깊어지는 것이 체감됐습니다. 그냥 누가 그렇다더라 해서 그런 것이 아닌, '오 그런거였네' 를 나름대로 판단할 수 있는 상태가 되었습니다. 꼭 생물정보학을 해서 그런 게 아니라, 생물 분야의 연구자를 생각하고 있다면 누구에게나 통계는 정말 강력한 도구가 되겠다 싶었습니다. 그러면서 지금보다 조금 더 어렸던 제가 궁금해 했던 것들의 힌트를 살짝 줄 수 있을 것 같습니다.

1. 통계, 어디까지 해야 함?

통계라는 게 정말 깊게 들어가면 한도 끝도 없습니다. 상당한 생활 밀착형 성격의 수학 분과이기 때문에 '우린 이게 필요한데' 싶으면 모델을 만들고 논문을 내버릴 수 있으니까요.

일반적으로도 이름 정도는 많이 알려진 Student t-분포가 그런 경우입니다.
기네스 양조 공장에서 일하던 윌리엄 고셋은 자신의 데이터가 정규분포와 잘 맞지 않았던 게 거슬렸습니다.



자세한 내용은 관련된 주제를 다룰 때 자세하게 할 계획에 있지만, 여하튼 준비된 인재 고셋 씨는 'Student' 라는 필명으로 자신의 데이터와 잘 맞는 분포를 발표합니다. 학계에 처음 소개된 내용은 아니지만, 이 분포는 이 때부터 널리 쓰이게 되어 후에 student-t 분포 내지 T분포라고 불리게 됩니다.

이처럼, 제가 바라본 통계의 기본 키워드는 'application' 입니다.
이게 무슨 말이냐면, 우리는 통계학자가 아니라 생물학 전공자(혹은 다른 이공계 전공일지도 모르겠습니다)이기 때문에, 우리가 필요한 것들을 메뉴얼을 참조해가며 사용하면 되는 겁니다. 우리가 라면을 먹을 때는 '젓가락'을 쓰고 국밥 한 그릇 뚝딱 비울 때는 '숫가락'을 사용하듯이, 상황에 맞게 적절한 도구를 찾아 쓰는 그런 느낌이지 않을까 싶어요.

하지만 메뉴얼도 글자를 알아야 읽을 수 있겠죠. 제가 맨 땅에 헤딩으로 공부하며 엄청난 쌩고생을 하고 있기에, 나름대로 수학이라고는 수능 수학이 마지막이었던 상태에서 이해할 수 있는 가이드라인을 정리하고자 합니다. 저 역시도 아는 게 많지 않기 때문에 오히려 비슷한 수준에서 전달할 수 있을 거고, 뭐 이렇게 정리해 두면 나중에 저도 언제든지 참고할 수 있겠죠(사실 이게 가장 큰 목적입니다).

Z-bio라는 이름은 유명 해외 너튜브 채널 X-bio에서 따온 게 맞습니다. 이런 거 한번쯤 해보고 싶었어요.
또한 Z는 노말제로원( N(0,1) ), 평균이 0이고 분산이 1인 정규분포)의 notation으로 많이 쓰이는 기호입니다. 제 자아인 Zㅏ라의 첫 글자이기도 하구요. 의미부여에 진심인 편

 

2. 코딩도 해야 함?

개인적으로 코딩같은 것들은 부차적인 것이라고 생각합니다.
제가 해봤으니 하는 말이지만, 소프트웨어 켤 줄만 알면 나머지는 구글에 맡기는 걸로 충분하지 않을까 해요.

21세기의 과학은 컴퓨터 사이언스의 발전과 함께 인간이 따라잡을 수 없는 속도로 나아가고 있습니다. 업데이트의 속도가 워낙 빠르다보니 한 사람이 모든 정보에 통달하기란 불가능하다는 것은 지금 중고등학생 친구들에게 물어봐도 알 것입니다. 우리에게 필요한 건 '어떤 분야의 전문 지식'이 아니라, '어떤 분야의 지식을 찾아 볼 수 있는 로드맵'이 아닐까 생각합니다. '이거 어디선가 들어봤는데?' 정도면 충분히 구글링이나 논문 서칭으로 정보를 가져다 쓸 수 있으니까요.

코딩도 마찬가지입니다. 게다가 R이나 파이썬처럼 패키지 중심으로 돌아가는 언어는 사람마다 사용하는 툴이 달라서, '코딩은 이런 내용을 이렇게 배워야 해' 는 틀린 말이지 싶습니다.

실험 프로토콜이 랩바랩이기 때문에 일단 들어가서 새로 배워야 하는 것처럼 말입니다.

3. 그래서 이제 뭐함

개인적으로 생각하고 있는 컨텐츠는 아래와 같습니다:

  1. 확률(Probability)의 재정의
  2. 통계와 통계량(Statistics)
  3. 샘플링(Sampling)과 확률 변수(Random Variable)
  4. 확률 함수: cmf / cdf / pmf / pdf
  5. 선형대수 표시법: Matrix를 왜 쓰는가?
  6. 데이터와 차원의 표현: 정보의 압축
  7. 정규분포로 보는 분포(Distribution)의 의미: 분포는 프리셋(preset)이다
  8. Bernoulli Trial: Binomial, Geometric, Hypergeometric, Negative binomial distribution
  9. Poisson Process: Exponential, Gamma, Beta distribution
  10. 추정(Inference): 귀무가설과 대립가설, 유의 수준과 p-value, 신뢰구간(CI)
  11. 추정(Inference) (2): Pivotal quantity, Student-t, Chi-square, F test and ANOVA table
  12. Experiment prediction: 회귀분석(Regression Analysis)의 가정(assumptions)과 아이디어
  13. Appendix

 

말은 '기초통계학' 이지만, 기초통계학 과목의 내용 이외에도 수리통계학, 확률론 등 필요하다면 다른 과목들에서 다루는 내용들도 소개해 드리려고 합니다.

 

부록 항목에서는 Lehmann-Scheffe Theorem이나 Neyman-Pearson Lemma 와 같은 수리통계학적 내용들, 특히 비전공자 입장 '그냥 그렇대!' 수준으로 받아들이고 넘어가도 당장은 괜찮다 싶은 내용의 부연 설명을 실어볼 생각입니다.
따로 특정한 교재를 참고해서 쓴다기 보다는, 워낙 기초적으로 널리 알려진 내용이라 자세한 건 쳐내고 압축된 형태로 정리해볼까 싶습니다. 역시 로드맵만 들고 있다면 더 깊은 내용은 구글링을 통해 채워나갈 수 있을 테니까요.

늘이 빼고 있을만한 컨텐츠는 아니니 대충 빠른 시일 안에 끝냈으면 좋겠습니다.
이거 하고 싶어서 티스토리 계정 팠다!