안녕하세요. 이커머스 도메인에서 데이터 분석을 하고 있는 구국원이라고 합니다. 평소에 블로그에 글을 작성하고는 있었지만 특정 독자를 염두에 둔 글이 아니다 보니 글이 흐지부지 되는 경우가 많았습니다. 그러던 중 글또라는 좋은 취지의 모임(?)이 있다는 소식을 주변 동료에게 접하고 바로 지원서를 작성하게 되었습니다. 또 운이 좋게도 글또 활동을 할 수 있는 기회를 주셔서 글을 쓰는 이유와 어떤 종류의 글을 쓰고 싶은지에 대해서 정리하고 남은 올해의 목표를 간략하게 작성해 보겠습니다.
글을 쓰려는 이유?
데이터 사이언티스트는 배우고 내면화 해야할 지식이 매우 넓고 깊습니다. 특히 수리적 지식이 많이 요구되는데요. 다음은 머신러닝 속 필요한 수학을 요약한 그림입니다. 데이터 사이언스를 제대로 하기 위해서는 엄청난 수리적 지식이 요구됨을 알 수 있습니다.
잘 구축된 머신러닝, 딥러닝 라이브러리들은 많습니다. 그런데 어느 순간부터 이런 라이브러리를 수리적으로 깊게 이해하지 못하고 머신러닝 모델을 구축하는 것에 회의감이 들었습니다. 모래성을 쌓는 기분이라고 해야할까요? 이렇게 어느 순간 현타가 온 뒤로 개념적으로 알고 있던 머신러닝 이론들의 수리적인 근거들을 탐구하고 싶은 욕구가 강하게 생겼습니다. 특히 실무를 하면서 만나게 되는 머신러닝 자료들을 빠르게, 잘 이해하고 싶었습니다. 이를 위해서는 결국 기초를 탄탄히 해야 되겠다는 생각이 들었고 확률 및 통계 이론을 처음부터 다시 공부를 해보자고 결심을 했습니다. 특히 제가 알고 있는 수리적 지식들이 파편적으로 흩어져 있었기 때문에 정규 과정을 수강하고, 학습한 지식을 체계화 하는 것이 느리지만 가장 빠른 길이라고 판단했습니다.
그러나 학습한 지식들은 휘발성이 매우 강합니다. 나만의 언어로 표현하고 정리하지 않으면 금방 사라지기 마련이죠. 따라서 저는 학습한 내용을 글로 남기기로 결심하였습니다. 글을 쓰는 과정은 결국 파편적인 정보를 나만의 언어로 정리하는 과정입니다. 하나의 글을 완성하기 위해서는 어떻게 표현 해야 독자들이 이해하기 쉬울지, 교수님이 설명하진 않았지만 추가적으로 알면 좋은 정보가 어떤 것이 있을지를 끊임없이 고민하기 때문입니다. 따라서 저는 이번 글또 5기 활동을 통해서 글을 꾸준히 작성하는 습관을 들여 보려고 합니다.
어떤 글을 쓸까?
글을 쓰는 이유에서 언급했다시피 작성하는 글은 주로 아래의 세 가지 영역이 될 것 같습니다.
- 통계, 선형대수 등의 수학과 관련된 학습 내용 정리
- 머신러닝/딥러닝 관련 논문 내용 정리
그런데 두가지 영역 모두 엄청 딱딱하고 지루할 것으로 예상되는데… 어떻게 하면 쉽게 풀어 쓸지가 고민됩니다. 사실 쉽게 풀어 쓰는 방법이 있을지도 잘 모르겠네요… 🤣 그래도 제가 문돌이 출신인만큼 수리적 개념을 최대한 비유를 들어서 설명해보려고 노력하겠습니다.
남은 올해의 목표는?
일단 올해의 최대 과제 중 하나가 하버드 statistics 110 강의를 완강하는 것이었는데요. 목표는 일단 달성 했습니다 😊 그러나 자체 평가를 했을 때 강의에 대한 이해도가 50% 정도 수준인 것 같아서 11월 중에는 해당 강의 내용을 쭉 복습하는 방향으로 진행하려고 합니다. 그리고 나서는 아직 정확한 목표는 잡지 못했는데요. 선형대수학 쪽을 다시 정리할 것인지 아니면 추론 통계쪽으로 가지를 뻗어 나갈지 확실히 정하지는 못했습니다. 결국 두 가지 다 언젠가는 공부해야하는 것들이지만… 실무에 필요한 우선순위를 정해 두고 공부를 해볼 생각입니다. 앞으로 따끔한 질책 부탁드립니다. 긴 글 읽어 주셔서 감사합니다.