본문 바로가기
카테고리 없음

[be-favorite] #2 데이터 과학자를 꿈꾸는 당신이 수리통계학을 대하는 방법

by be-favorite 2021. 3. 1.
반응형

지난 번 글 #1에서는 대학원 진학 전에 품었던 고민에 대해 풀어보았습니다. 대학원에 입학하기로 결정이 난 후, 3월 개강 전 겨울방학에 지도교수님께 첫 번째로 받은 과제는 바로 "수리통계학"이었습니다. 지도교수님께서는 본격적인 대학원 3월 개강 이전에 수리통계학에 대한 전반적인 이해를 바라셨습니다. 그래서, 이번 글은 다음의 두 주제에 대하여 이야기 해보려 합니다.

  • 우리가 수리통계학을 공부해야 하는 이유
  • 어떻게 수리통계학을 공부하는 것이 좋을까?

통계학 석사 졸업생에 불과한 제가 수리통계학 공부 방향에 대해 글로 풀어내는 것이 건방진 행위라고 생각이 들기도 하지만..😅 개인적인 의견이라 생각하시고 너그러이 읽어주세요. 그리고, 이 글을 쓰는 이유는 수리통계학이라는 과목을 대부분의 통계학 전공생들이 어려워하고, 재미없어하고 동시에 싫어하는 과목 중 하나이기 때문입니다. 저도 그랬었죠.. 사실 지금도 여전히 어렵고 많이 부족합니다. 그러나, 결코 수리통계학을 공부하는 일이 재미가 없다거나 싫다거나 의미 없다고 느껴지지 않습니다. 이 글이 수리통계학을 공부하고 싶게끔 만들어줬으면 좋겠습니다.😊

 

 

 

수리통계학을 공부해야 하는 이유

 수리통계학에 대한 전반적 이해를 어느 정도 하고 나면, 예전에 공부했던 책(e.g. 다변량 자료분석) 또는 새로 배울 책들을 다시 들여다봤을 때 이전에 보이지 않았던 것들이 눈에 들어오기 시작합니다. 즉, 내용에 대한 해상도가 높아진 것이죠. 그리고, 수리통계학에 대한 이해가 없는 사람과 비교해봤을 때, 통계학 베이스와 관련된 모든 내용에 대한 이해의 깊이가 다를 거라 생각합니다. 다시 말하면, 수리통계학에 대한 전반적 이해가 바탕이 된 사람은 행간을 읽으며 좀 더 세심하게 읽어 내려가며 더 많은 내용을 습득할 수 있겠죠. 그래서, 통계학을 전공으로 하는 본인을 위해서라도 수리통계학에 대한 전반적인 이해는 필요하다고 생각합니다.

 

개인적으로 수리통계학을 배우는 것은 "통계학에 대한 해상도(resolution)를 높히는 일"이라 생각합니다.

 

수리통계학을 공부해야 하는 또 하나의 이유는 우리는 통계학 전공자이기 때문입니다..😂 이유를 멀리서 찾을 필요가 없습니다. 우리가 안하면 누가 공부하겠습니까? 바꿔 말하면 우리 아니면 누가 알겠습니까? 통계학 전공에 흥미가 있는 학부생들이라면 누구나 한번쯤은 데이터 과학자(Data Scientist)에 대한 꿈을 품을 거라고 생각합니다. 데이터 과학(Data Science)이라는 단어는 생긴 지 오래된 것도 아니며 저마다 조금씩 정의를 다르게 합니다. 그리고, "데이터 과학"이라는 분야는 하나의 학문으로부터 발전된 분야가 아닌 컴퓨터 과학(Computer Science, 또는 소프트웨어 학과라 일컫는), 통계학, 수학 등의 학문들을 한데 모아 만들어진 분야입니다. 그래서, 현업에는 다양한 전공 출신(e.g. 컴퓨터 과학, 산업공학과, 통계학과, 수학과 등)의 데이터 과학자들이 일을 하고 있고 심지어는 데이터 과학과 직접적으로 관련이 없지만 개인적 관심으로 오랜 기간 공부한 분들이 데이터 과학을 하고 계시기도 합니다. 즉, 데이터 과학은 그만큼 다양한 분야의 사람들이 모이는 곳이며, 이를 통해 좋은 시너지를 발생시켜가며 데이터로부터 다양한 인사이트를 얻을 수 있다고 생각합니다. 예를 들면, 데이터 과학에서 수행하는 직무 중 종종 수리통계학 지식 필요로 되는 또는 있으면 도움이 되는(e.g. 통계적 가설검정, 구간추정, 고차원 자료분석, 포아송 회귀, 시계열 자료분석 등) 상황이 있을 것이며, 이러한 상황에서 통계학 전공 출신의 데이터 과학자가 큰 역량을 발휘할 수 있을 거라 생각합니다. 여러 전공 출신의 데이터 과학자가 모여있는 현업 부서에 통계학 전공자 출신의 데이터 과학자가 수리통계학에 대한 지식이 없다면, 동료들로 부터 신뢰를 잃을 수 있지 않을까요?😓

 

수리통계학을 공부해야 하는 이유를 2가지를 들어보았습니다. 두 번째 이유는 통계학 전공 출신의 데이터 과학자에게 외부에서 기대하는 역량에 대한 개인적 생각이니 차치하더라도, 수리통계학을 공부해야 하는 가장 중요한 이유는 결국 본인을 위해서입니다.

 

수리통계학을 공부하는 방향

그럼 이 어려운 수리통계학을 어떻게 공부해야 할까요. 수리통계학은 이름에 "수리(mathematical)"라는 말이 들어가는 만큼, 수리통계학에는 기초통계학에서 우리가 당연하게 받아들였던 것들에 대한 수많은 증명이 쓰여 있습니다. 그래서 우리를 힘들게 하죠.. 하지만, 대부분의 우리는 "통계학자"를 꿈꾸는 것이 아닌 "데이터 과학자" 또는 "데이터 분석가"를 꿈꿉니다. 그래서, 수리통계학에서 하는 수많은 증명은 우리가 꼭 기억해야 할 최고 우선순위는 아니라고 생각합니다. "데이터 과학자" 또는 "데이터 분석가"를 꿈꾸는 우리에게 수리통계학을 공부하는 것에 있어 필요한 최고 우선순위는 "이해"입니다. 증명에 얽매이는 것은 때로는 오히려 수식이 갖는 의미를 잊게 만들 수도 있다고 생각합니다.

 

그럼 이 "이해" 위주의 수리통계학에 대한 공부는 어떤 방향 또는 어떤 방식으로 해야 할까요? 제가 대학원에 3월 정식 입학 전 겨울방학 내내 지도교수님과 세미나를 하며 배웠던 수리통계학을 받아들이는 방식에 대해 말해보겠습니다. 제가 이때 첫 번째로 공부한 주제는 바로 "확률분포와 기댓값"에 관한 주제입니다. 여기서 내딛은 중요한 첫걸음은 "확률변수(random variables)는 분포를 갖는다."는 개념을 받아들인 것입니다. 이 말이 제게는 이해의 깊이를 늘려주는 데에 중요했던 것 같습니다. 예를 들어 다음의 단순한 수식이 있다고 해봅시다:

 

$E(X) = 3$

 

이 수식을 보고 가장 단순하게 떠올릴 수 있는 것은 "확률변수 $X$의 기댓값은 3이구나"이지만, 확률변수는 분포를 갖는다는 개념을 받아들이고 나면 "확률변수 $X$가 갖는 분포의 무게중심은 3쯤 되는구나"를 머릿속에 그려볼 수 있습니다. 확률변수는 분포를 가진다는 기본적 개념은 그 뒤에 더 어려운 수리 통계학에 관한 개념들을 이해 하는 데에 큰 도움이 되었던 것 같습니다.

 

다음으로는 주어진 수식을 있는 그대로 읽는 것이 아닌 자기 나름대로 해석을 하는 습관입니다. 위에서 말한 "확률변수 $X$가 갖는 분포의 무게중심은 3이쯤 되는구나"와 같은 생각도 결국 이러한 습관으로 부터 나온 것이라 생각합니다. 예를 들어 다음의 수식을 생각해봅시다:

 

$\lim_{n \rightarrow \infty} P(|X_n - c| < \epsilon) = 1$

 

여기서 $\epsilon$은 임의의 양수에 해당합니다. 위 수식은 사실 확률변수 $X_n$이 상수 $c$로 확률수렴(convergence in probability)한다는 것을 나타낸 것입니다. 아무 생각 없이 보면 꽤 수식이 복잡해 보입니다만, 이를 말로 풀이해보면 당연하게 받아들일 수 있습니다:

 

"어떤 확률변수 $X_n$을 극한으로 보냈을 때($n \rightarrow \infty$) 상수 $c$와 똑같아질 확률이 1" 이면, 우리는 그 확률변수가 상수 $c$로 확률수렴한다고 표현합니다.

 

여기서 "같다"라는 개념을 수학적으로 두 개의 차이가 (엄청나게 작은) 임의의 양수 $\epsilon$보다 작다고 표현이 한 것이죠. 즉, 위 수식이 확률변수 $X_n$이 상수 $c$로의 확률 수렴함을 나타내는 것은 직관적으로도 당연합니다. 이러한 수식은 외울 필요도 없습니다. 직관적으로 받아들일 수 있기 때문이죠. 재밌지 않습니까?.. 이런 식으로 수리통계학에 등장하는 여러 수식들을 자기만의 방식으로 말로 표현해나가다 보면, 증명에만 치중하며 수리통계학을 공부하는 것보다는 훨씬 더 재밌고 깊이 있게 공부해나갈 수 있을 겁니다. 그러나, 수리통계학에 등장하는 수식 중 몇몇은 해당 수식이 담고 있는 의미를 아무리 생각해봐도 직관적으로는 이해가 안되는 경우가 간혹 있고, 이러한 경우에는 증명이 꼭 필요로 된다고 생각합니다. 그럼 직관적 이해가 안되는 그 찝찝함을 어느 정도 덜어내 실 수 있을 겁니다. 다만, 혹시 수리통계학을 처음 공부하신다면 참고하시는 책에 예제로 나와있는 증명들은 꼭 한 번씩은 해보시는 것을 추천합니다. 증명을 통해 그 안에서 얻을 수 있는 것들도 있겠죠?

 

제가 마지막으로 한번 더 당부하고 싶은 말은, 수리통계학에 나오는 유명한 이론에 대한 증명을 모두 외워서 머릿속에 넣고 싶은 개인적 욕심이 있는 분이 아니라면 절대 증명을 외우는데에만 수많은 시간을 쏟지 말라는 것입니다. 암기에 치중하다 보면 결국 수식이 갖는 의미를 생각해보는 시간에 많은 투자를 하지 않게 되고, 결국 정작 수리통계학에서 꼭 기억해야 할 수식이 담고 있는 진정한 의미를 잊게되는 경우가 많았기 때문입니다. 증명보다는 수식이 갖는 의미, 어떤 이론 또는 정리가 갖는 의미를 생각하는 것에 많은 시간을 투자하세요. 그럼 수리통계학이 재밌어질 겁니다. 사실 저는 지도교수님과 세미나를 하며 책에서는 습득할 수 없는 직관들을 배우며 공부를 했었기 때문에 좀 더 재밌고 수월하게 할 수 있었습니다. 지도교수님이 “수리통계학의 전반적 이해”라는 길에 지름길을 놓아준것이죠. 만약 수리통계학을 독학했다면, 어느순간 벽에 부딪히거나 이해에 대한 한계가 있을 수도 있었을거라 생각합니다. 그러니 꼭 유튜브 또는 구글링을 통해 좋은 자료들을 참고해가며 수리통계학에 대한 흥미를 잃지 않고 공부하셨으면 좋겠습니다. 다만, 유튜브나 여러 블로그에 올라와있는 글 중에 정확하지 않은 글도 있을 수 있으니 언제나 비판적인 시각으로 글을 바라보시기 바랍니다! 아울러, 만약 지금 통계학을 혼자 공부하고 계시다면, 저희 슬기로운 통계생활 슬랙에도 놀러와 주시기 바랍니다. 공부 자극도 받고 슬통님이 올려주시는 여러가지 최신소식을 접하며 동기부여 받을 수 있습니다.😊

 

이 글을 읽고 여러분이 '수리통계학을 공부해야겠다' 마음이 조금이라도 들었으면 좋겠습니다. 석사를 졸업하고 데이터 과학을 하는 직무로 취업을 앞둔 통계학 전공자로서, 본격적인 대학원 개강 전 수리통계학 공부를 열심히 하게끔 만들어준 지도교수님께 참 감사한 마음이 듭니다. 그 어디서도 배울 수 없는 수리통계학을 공부하는 방식, 직관 등을 배웠던 것 같네요. 그리고, 이렇게 기초를 다지고 대학원에 들어가니 많은 내용들을 좀 더 깊게 이해할 수 있었던 것 같습니다. 저도 아직 많이 부족합니다만, 통계학 전공 출신으로서 데이터 과학을 하며 결코 수리통계학을 손에서 놓는 일은 없을 것 같네요. 긴 글 읽어 주셔서 감사합니다.😊

 


🌱 필자소개 Taemo Bang (be-favorite)

📝활동 장소

 

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 학부, 석사를 통계학으로 전공하고 현재는 지마켓 AI Product 팀에서 Data Science를 하고있습니다. 데이터로부터 인사이트를 추출하는 것을 좋아합니

www.taemobang.com

Photo by Jeswin Thomas on Unsplash

반응형

댓글