멘토님 저는 데이터 사이언티스트가 되기를 꿈꾸고 있는 4학년입니다. 학과 공부는 열심히 해 성적은 높은 편이지만 이론 공부 들 위주였고 배운 내용을 잘 써먹지 못하겠다는 생각이 들어 혼자 kaggle, 데이콘 데이터 분석 문제들을 풀어보고 있습니다.
©David Werbrouck
1. 주변에서 데이터 사이언스 분야는 모두 석사 이상의 학위가 필요하다고 해서 현재 대학원과 취업 사이에서 고민 중입니다.
데이터 사이언스는 데이터 분석과 데이터 엔지니어링 두 가지로 나뉜다고 알고 있는데 저는 양쪽 다 관심이 있지만 데이터 분석 분야에 보다 더 관심이 있습니다. 연구 목적의 대학원 진학 보다는 취업을 위한 대학원 진학을 생각하고 있는데 멘토님의 대학원 진학 여부에 대한 의견을 여쭙고 싶습니다.
2. 데이터 분석가가 되기 위해 멘토님이 추천해 주시는 공부 방향에 대해 여쭙고 싶습니다.
현재 파이선을 메인 코딩 언어로 사용 중이고 학과 수업을 들으며 머신러닝, 딥러닝 프레임워크들을 조금 사용해 보았습니다. 데이터사이언스 관련 취업 공고들을 보면 주로 요구하는 조건들이 딥러닝 프레임워크 사용, Hadoop or spark 같은 빅데이터 처리 기술에 대한 이해, 리눅스 사용 등이 있는데 멘토님께서 추천해 주시는 공부 방향이나 공부할 것이 있으면 추천을 해주시면 좋겠습니다.
또한 데이터 분석과 관련한 프로젝트를 진행한다면 어떤 프로젝트가 도움이 될까요?
주변에 데이터 관련 업종에서 종사하시는 분이 없어 질문이 드릴 곳이 없어 길게 질문을 드렸습니다. 여기까지 저의 긴 질문을 읽어주셔서 감사합니다.
안녕하세요. 데이터 사이언티스트로의 진로에 대해서 고민을 하고 계신 중이군요. 특히 다양한 분야로의 지식을 갖추어야 하는 데이터 과학자 분야에 있어 컴퓨터공학과 통계학 전공은 아무래도 도움이 되는 부분이 많지요.
질문에 답을 드리기 이전에 제 이야기를 조금 해볼게요.
실제 기업에서 데이터 과학자와 데이터 분석가의 경계는 애매모호한 측면이 많습니다. 일반적으로 데이터 분석가는 데이터를 바탕으로 숨어있는 의미와 현상황을 객관적으로 도출해 내는 분석을 하는 직무라면, 데이터 과학자는 거기에 더 나아가 어떤 문제점이나 결과에 대한 원인을 판단하기 위해서 또는 이후를 예측하기 위해 다양한 실험을 설계하고 진행하여 데이터를 통해 그 결과를 검증하여 결과를 만드는 직무라고 할 수 있겠습니다.
그런데 실제 회사에서는 이런 직무의 영역을 명확하게 구분하지 못하는 경우가 많습니다. 다시 말해 어떤 회사는 데이터 분석가에게 데이터 과학자의 역할을 요구하기도 하고 어떤 회사는 데이터 과학자에게 데이터 분석가의 역할만 요구하기도 합니다.
따라서 이런 혼용보다는 적어도 이 자리에서만큼은 직무/역할을 구분하여 이야기해 볼까 합니다.
©Noah Buscher
데이터 사이언스 분야는 위에서 언급한 데이터 과학자, 데이터 분석가 이외에도 인공지능 분야가 있으며 이들 데이터를 활용하는 영역에 데이터를 공급하는 데이터 엔지니어링 분야가 있습니다. 직무로만 보면 데이터 플랫폼(인프라) 엔지니어, 데이터 엔지니어 정도로 분류할 수 있겠네요.
일반적으로 석사 이상의 학위가 필요하다는 직무는 데이터 엔지니어링 분야를 제외한 데이터 사이언스 분야만을 이야기합니다. (직무로는 데이터 분석가, 데이터 과학자, 인공지능 모델 엔지니어) 따라서 멘티님께서 어떤 분야로의 진출을 희망하시느냐에 따라 진학 여부를 결정하면 좋을 것 같습니다.
데이터 엔지니어링 분야는 다양한 IT 기술을 활용해서 주어진 업무를 수행하는 것이기 때문에 사실 대학원 진학이 주는 메리트가 크진 않습니다. 대학원 진학에 필요한 시간과 비용을 들여서 얻는 것과 졸업 이후에 얻어지는 것들을 비교했을 때 말이죠.
반면 데이터 사이언스 분야는 조금 다릅니다. 데이터 사이언스 영역도 데이터를 다루다 보니 IT 기술도 필요하고 통계학이나 수학 같은 학문적 지식도 필요한 영역인데, 실제 데이터 분석가나 데이터 과학자 직무에서 기술은 극히 일부 활용될 뿐이고 전체적으로는 꽤나 학문적인 영역이다 보니 학부에서 배우는 기술과 지식과 경험으로는 한계점이 있기 때문에 대부분 진학을 이야기하게 됩니다.
하. 지. 만 단순 데이터 분석가 직무의 경우에는 데이터 분석을 위해 필요한 지식의 수준이 데이터 과학자에 비해서 적고 최근 몇 년 동안 많은 대학과 교육 기관의 과정에서 다루고 있기 때문에 데이터 분석가 직무는 대학원 진학이 주는 메리트가 예전보다 떨어진 게 사실입니다. 따라서 순수 데이터 분석 직무를 위해서는 대학원 진학 여부를 고민해 볼 필요가 있습니다.
물론 데이터 과학자나 인공지능 영역은 아직도 대학원 진학이 주는 메리트가 좀 더 크긴 하지만 학부 때 꾸준히 연구하고 노력해왔다면 필수 사항은 아니라고 말씀드릴 수 있습니다. (실제 회사에서 하는 데이터 과학의 수준이 높은 기업은 의외로 많지 않기도 합니다... 해외와의 경쟁력 등도 고민해 본다면요)
따라서 대학원 진학에 대해서는 취업을 위해서라도 직무에 따라 고민을 심도 있게 하면서 일단은 내가 무슨 직무를 원하는지부터 어떤 기업에서 그 일을 하는지부터 조사해 볼 필요가 있다고 생각합니다.
©Ryoji Iwata
데이터 분석가가 활약하는 기업은 요즘은 꽤나 많습니다. 다만 기업의 규모나 기업이 속한 산업 군 등에 따라 기업에서 활용하는 데이터 분석과 관련된 기술적인 부분은 많이 다릅니다.
어떤 기업은 하둡의 빅데이터 환경에서 스파크를 이용한 데이터 분석을 하기도 하고, 어떤 곳은 아직도 R이나 SAS를 이용한 분석을 하기도 합니다. 따라서 이들 기술들을 다 섭렵하는 것도 좋지만, 앞에서도 언급 드렸듯이 데이터 분석에서 기술은 극히 일부분일 뿐이고 데이터 분석 주제 설정에서 필요 데이터 셋 정의, 데이터 전처리 및 분석 그리고 결과 도출 및 시각화 후 최종 결론을 내리는 모든 과정이 중요합니다.
다시 말해 기술도 중요하지만 데이터 분석가로서 활동하는 주제 선정부터 결론 도출까지 심도 있게 경험을 쌓는 것이 중요하다고 생각합니다. (당연히 기술적인 부분을 공부하시는 건 빠져서는 안되겠죠. - 하지만 개발자처럼 깊게 하시는 것보다는 중요한 것들 위주로 익숙해지는 게 중요할 거 같습니다)
실제 데이터 분석가는 리눅스를 다룰 일이 거의 없지만 데이터 과학자는 실험 설계 및 데이터 실험을 위해 다루어야 하기 때문에 준비하고 공부해야 하는 영역이 다른 게 많으므로 조금 직무를 명확하게 구분해서 준비할 필요가 있을 거 같습니다.
마지막으로 데이터 분야의 직무는 혼용되어 활용되는 경우가 많으므로 기업 조사를 하실때 직무명 보다는 그 직무로 어떤 역할을 수행하는지를 확인하시어 이게 데이터 분석 직무인지 데이터 과학 직무인지를 고려하는 것이 무엇보다 중요하지 않을까 생각합니다.
명확한 직무 설정과 직무 역량을 갖추어 원하시는 결과를 얻으시길 바라겠습니다. 감사합니다.