제공 :
한빛 네트워크
저자 : Nick Kolegraff
역자 : 권정민
원문 :
Do you need a data scientist?
데이터 과학은 어렵지만 흑마법은 아니다.
데이터 과학을 성공적으로 적용시킨 몇몇 글로벌 기업에서 경영 컨설턴트로 있으면서 "데이터 과학자가 필요하십니까?"라는 질문을 많이 받았다. 어려운 이야기다. 논의하기도 힘들고 데이터 과학자에 대한 문화적 충돌도 풀기 어렵다. 데이터 과학에 대한 여러 접근법은 마치 호그와트의 흑마술같기도 하다. 하지만 아니다. 가설을 파악하는 데에는 많은 시간이 걸린다. 자체적으로 데이터가 생성되고 알아서 모델이 만들어지지 않는다. 누가 필요한 지를 알아내고 이 사람들을 조직에 적절하게 배치하는 것도 어렵다. 그 사람들을 어디에 두어야 할까? 그 사람들은 누구와 같이 일해야 할까? 연결이 필요한 지점은 어떤 걸까? 프로젝트의 구조는 누가 잡을까? 프로젝트는 어떤 식으로 실행될까? 좀 더 나가서, "이익"을 어떻게 창출할까? 물론, 여기까지 생각하기 전에, 아마 잠시 뒤로 물러서서 이를 전략적으로 생각해 봐야 할 것이다. 이에 대해 어쩌면 데이터 과학자가 필요할 수도 있고 필요하지 않을 수도 있기 때문이다.
만약 데이터 과학자가 필요한지 아닌 지에 대해 고민하고 있다면, 다음의 질문과 시사점을 고려해 보자.
데이터에 얼마나 접근하기 쉬운가?
- 알고리즘이 문제가 아니다. 어떤 데이터를 이런 알고리즘에 넣어야 하는 지를 파악하는 것이 이 문제의 핵심이다. 이를 해결하려면 접근 가능한 데이터가 필요하다.
- 데이터 과학에서는 여러 접근 패턴을 다룬다. 이런 패턴에서는 탐색, 개발, 적용, 유지를 포함한다. 이런 패턴을 지원하는 인프라 및 데이터 생명주기를 확보하는 데에는 시간이 걸린다.
- 데이터 과학자는 데이터에 대해 많은 질문을 하게 된다. 원 데이터에 대해 질문하는 것은 어렵고 시간 소모가 크다. 직관 기반의 프로젝트를 할 때 원 데이터에 대해서 데이터 과학자가 질문하는 데에는 리소스가 많이 필요하게 된다. 데이터가 마술에 사용될 수 있는 상태가 되었을 때 이들을 일에 투입하고 마음의 평안을 찾는 것이 아마 최선의 방안이 될 것이다.
- 데이터를 접근 가능하게 만들고 레포팅을 정형화하는 데에 집중하자. 그 다음에 데이터 과학에 대해서 고민하자. 이러면 돈도 절약되고 효율적으로 일할 수 있을 것이다.
어떻게 vs. 왜?
- 만약 데이터 과학을 시작하고 왜 이게 필요한 지보다 이걸 어떻게 해야 하는 지에 대해 묻는다면, 결국 쓸데없는 것에 대한 문제를 풀게 될 것이다. 예를 들어, 스케일링에 집중하다보면 결국 필요했던 것은 효과적인 샘플링 기술이었다는 것을 깨닫게 되는 것이다.
- 만약 왜에 대한 답이 나왔다면, 이를 어떻게 쉽게 해결할 수 있을 지를 고민하자.
제품이냐 프로젝트냐?
- 제품을 만드는 것인가 6개월짜리 프로젝트를 하는 것인가?
- 프로젝트는 재사용 가능한 것인가?
- 데이터 파이프라인에 문제점이 생긴 제품은 데이터 파이프라인 결과가 필요한 프로젝트와는 다르다.
- 데이터 과학자는 프로젝트를 수행하면서 직관을 얻을 수 있다. 이 때 데이터 과학자 그룹이 직관을 이끌어 낼 수 있도록 해주는 인프라를 구축하는 것은 제품 관점의 시각이 필요하다. 이 경우 데이터 재사용성과 접근성이 핵심이다.
- 데이터 과학자는 제품쪽 사람이다. 제품은 오랜 기간동안 판매할 수 있다. 데이터 과학자를 재사용하기 어려운 짧은 프로젝트에 투입해서 ROI를 창출하기는 어렵다.
기업의 모든 사람이 데이터 과학자를 필요로 할 시점이 있을 것이라고 확신한다. 다만 데이터 과학자를 요구하는 관련 제품을 찾는 것은 어려운 부분이다. 통계와 예측 모델링이 새로운 기법인 것은 아니다. 사용자 애플리케이션의 데이터를 읽어들이는 즉각적 변화가 가능한 환경의 정제되고 재사용 가능한 데이터 파이프라인이 구축되어 있다면 데이터 과학을 할 수 있을 것이다. 당신에게 필요한 질문은 "데이터 과학자가 필요하십니까?"가 아니라, "데이터 과학이 가치있을 무언가를 지금 하고 있습니까?"이다.