데이터 기반의 스타트업 만들기 : 대용량 데이터를 빠르게 처리하되 집중된 서비스로

한빛미디어

2011-09-23

by HANBIT

17,269

제공 : 한빛 네트워크
저자 : Michael Driscoll
역자 : 최종윤
원문 : Building data startups: Fast, big, and focused

작아진 비용부담과 클라우드에 기반한 도구들이 새로운 데이터 스타트업에게 힘을 실어주고 있다.

성숙한 대용량데이터 분석 도구의 에코시스템과 다양한 시장상황을 기반으로 새로운 종류의 스타트업들이 떠오르고 있다.

그들이 바로 "데이터 스타트업"이며, 비유하자면 그들은 이제 막 스타트업 무대에 오른 스모선수라고 할수 있다. 그 스타트업들에게는 처리할수 있는 데이터량이 경쟁력의 원천이 되겠지만, 스모선배들이 그들의 후배들에게 가르치는 것처럼 무게만으로 승부하려 하다가는 큰코 다칠수 있다는 것을 명심해야 할 것이다. 데이터 스타트업으로서 성공하기 위해서는 빠른 데이터 처리와 대용량의 분석능력 뿐만 아니라, 서비스에서도 집중된 모습을 보여야만 한다.

무대의 형성 : 지수함수의 공격

십 수년전과 비교해볼때, 오늘날 왜 이런 형태의 스타트업들이 떠오르는지에 대한 해답은, 내가 지수함수의 공격이라고 부르는 두가지 움직임에 기인한다고 할수 있다. 요약하자면, 지난 50년간 스토리지와 CPU, 네트워크 대역폭 비용은 기하급수적으로 떨어진 반면 네트웤 접근은 그와는 반대로 급격히 증가했다. 1980년대에는 1테라바이트 용량의 스토리지 가격이 1,400만 달러에 이르렀으나, 오늘날에는 겨우 30불에 불과하며, 그나마 그 가격도 계속 떨어지고 있다. 자동으로 생성되는 로그 파일과 같이, 과거에 경제학적으로 볼 때 전혀 저장하기도, 분석하기도 불가능해 보였던 종류의 데이터들이 오늘날에는 대표적인 사업 영역이 되는 현상이 발생하고 있는 것이다.

fig1

[그림1] 동시에, 이런 기술적 움직임은 서로 대칭적이지도 않다. CPU와 스토리지 비용은 네트워크와 Disk IO비용에 비해서 더 빨리 떨어져 왔다. 엄청난 크기의 데이터들은 그 덩치에 비례해서 스토리지와 계산능력이 집중되어 있는 곳으로 이끌려 왔다. 따라서, 클라우드로의 이전은 빅 데이터(Big Data)에게 당연한 운명이 되었으며, 클라우드는 그러한 데이터 스타트업들에게 훌륭한 사업시작의 무대가 되고 있다.

빅 데이터(Big Data) 스택의 활용

빅 데이터(Big Data) 스택의 기초 단계로서의 클라우드는 데이터를 상품화 하는 것을 가능케 하는 확장가능한 저장소와 계산능력을 제공할 수 있다.

빅 데이터(Big Data) 스택의 중간 단계는 분석으로써, 이는 데이터로부터 추출된 특성들을 분류하고 예측하는 알고리즘들이다.

스택의 최종단계는 서비스와 어플리케이션이다. 이는 음악추천서비스나 교통노선제안과 같이 소비자가 직접 데이터상품을 경험하는 단계이다.

이제 각각의 단계들을 살펴보고 경쟁축을 이야기 해보자.

fig2

[그림2] 빅데이터(Big Data) 스택에 있어 대표적인 기술과 경쟁축이 이 그림에 표시되어있다. 데이터의 바닥층에는 붉은글씨의 MySQL, Postgres, Hadoop과 같은 무료 도구들이 있으며, 우리는 InfoBright나 Greenplum, MapR 과 같이 상업버전들이 더 빠른 처리능력과 쿼리 시간을 무기로 스피드라는 축을 따라서 주로 경쟁하는 모습을 보고 있다. 그리고 이들 중 몇몇은 데이터 스택의 두번째 단계인 분석영역으로 올라가고 있다. 이 두번째 계층의 주된 경쟁 분야는 확장성 이다. 이 분야에서는 소수만이 테라바이트 사이즈의 확장성을 언급하며, 그들에 의해 장악되어지고 있다. 마지막으로 빅 데이터(Big Data) 최상위 스택에는 소비자와 기업에 접점을 유지하는 서비스들이 포진하고 있다. 여기에는 특정한 영역에 집중하면서, 분석영역을 아우르는 깊이로 승부해야만 경쟁력을 가질수 있다

빠른 데이터 처리

한때 데이터가 저장되고 처리되고 쿼리(query)되는 빅데이터 스택의 기본 영역에서 주된 경쟁분야는 확장성 이었다. 하지만 값싼 디스크 제품들의 등장과 더불어 Hadoop이 확장가능한 저장소와 처리능력을 선보이면서, 점점 경쟁분야는 확장성 보다는 처리속도로 옮겨 가게 되었다. 시장이 더 빠른 디스크를 요구하면서 최근에 상장한 Fusion-IO 같은 SSD(Solid State Disk)회사의 이익이 폭발하게 되었다. 또한 몇몇 스타트업 기업들중 특히 MapR 같은 회사는 더 빠른 하둡 버전을 내놓고 있다.

FusionIO 나 MapR 같은 회사는 데이터 영역의 또다른 트렌드, 그러니까 더 나은 소비전력이나 CPU 사이클 같은 효율성을 경쟁무기로 오픈소스나 저가형 제품들과 차별화 하려는 흐름을 대표한다. 데이터 센터 운영비용의 1/3이나 절반 정도가 에너지 비용이기 때문에 이러한 효율성은 비용측면에서 직접적인 임팩트가 된다.

결국, 다른 대용량의 NoSQL 데이터 스토어는 디스크로부터 SSD 기반으로 옮아갈 것이며, 또 전통적인 관계형 데이터 베이스는 곧 완전하게 메모리 기반으로 전환될 것이다. 이는 고객-상품 매트릭스에서의 모델링작업과 같이 데이터 풀셋을 반복적이고 빠르게 접근하고자 하는 어플리케이션들에 특별히 더 효과적인 접근법이 될 것이다. 그리고 이제 우리로 하여금 빅데이터의 다음 영역, 분석을 살펴보게 한다.

대용량 데이터 분석

빅데이터 스택의 두번째 영역에서 분석은 클라우드 컴퓨팅이라는 근육에 두뇌를 제공하는 역할을 한다. 여기서는 처리속도는 그다지 최우선 순위의 도전과제가 아니다. 그보다는 오히려 메모리에 올려진 데이터 셋으로 부터 수초만에 결과를 도출해낼수 있는 분석 알고리즘이 더 중요하다. 예를 들어 보면, 큰 데이터셋을 메모리에 상주시키고, 온라인상에서 운용하도록 알고리즘을 재작성하며, 여러 장비에 분산시켜 처리할수 있는 방법들이 관심을 받고 있는 것이다.

데이터는 무겁고 알고리즘은 가볍기 때문에, 분석에서의 핵심전략은 네트워크 IO를 최소화 하기위하여 코드를 좀더 데이터 가까이 두는 것이다. 이는 때로 데이터 저장영역과 분석영역을 뗄수 없는 관계로 만들기도 하고, 알고리즘이 데이터 영역에서도 호환 가능한 사용자 정의 함수로 재작성되게 하기도 한다. Postgres를 기반으로 한 Greenplum은 Java와 R언어로 쓰여진 사용자 정의 함수를 지원한다. Google의 BigTable을 본따 만들어진 HBase는 0.92버전부터 데이터 태블릿(data tablet)을 Java코드와 연계하는 것을 허용하도록 만들어진 전처리기법을 도입함으로써 네트워크를 통한 데이터 전송을 최소화 하고 있다. Netezza는 여기서 하드웨어(Hardware)로 더 나아가, 사용자 정의 함수 배열을 내장한 FPGA(field programmable gate array 프로그램이 가능한 비메모리 반도체 )를 스토리지 제품의 디스크에 물리적으로 함께 위치시키고 있다.

요즘에는 또 다른 비즈니스 혹은 예측 분석 영역이 떠오르고 있다. 이쪽에는 R, SPSS, SAS와 같은 전통적인 도구나 플랫폼이 존재하긴 해도, 개발된 알고리즘은 이미 소유권이 정해져 있거나 특정 분야에만 적합한 경향이 있다. 어떤 이들은 관련된 시장 생태계가 성숙하면 추천 엔진처럼 데이터 플랫폼을 상호 연동하는 분석 서비스를 판매하는 회사가 떠오를 것이라고 예측 하기도 한다. 반면 단기적으로는, Accenture나 McKinsey와 같은 컨설팅 회사들이 시간당 과금이 가능한 대용량 분석 서비스를 제공하는 쪽으로 포지셔닝을 하고 있다.

컨설팅이외의 분야에서는, 향상된 분석능력을 가진 회사들이 성공을 이루기 위해서 특정 영역에 집중된 제품과 서비스로 무장한 회사들이 떠오르고 있다.

집중화된 서비스

빅데이터 영역의 최상단에는 데이터를 기반으로 한 제품과 서비스들이 직접적으로 고객과 비즈니스 접점을 형성하는 분야이다. 이 분야의 데이터 스타트업들은 종종 정해진 형태의 제품 보다는 API와 같은 서비스의 형태를 갖추고 있다.

BillGuard는 집중화된 데이터 서비스를 제공하는 스타트업의 전형적인 예다. 이 회사는 고객의 신용카드 명세서에서 수상한 과금행위를 감시하고, 사기행위를 예측하는 기법을 향상 시키기 위해 사용자들의 행동패턴을 수집하고 활용하기도 한다.

Flipboard나 News.me 를 포함한 몇몇 스타트업들은 기사내용을 관계짓는 쉽지 않은 알고리즘을 연구하고 있다. Klout는 온라인에서의 영향력을 측정하기 위하여 소셜 미디어 활동을 활용한 순수 데이터 서비스를 제공하고 있다. 나의 회사의 Metamarkets는 컨텐츠 제공자들에게 과금분석용으로 서버 로그 분석 서비스를 제공하고 있다.

데이터 스타트업 들에게 데이터 처리와 알고리즘은 그들의 경쟁력을 결정짓는 중요한 요소이다. 사기여부나, 관련성, 영향력 혹은 가격분석등에서의 엉성한 예측력은 설사 그 회사의 웹 UI나 모바일 어플리케이션의 디자인이 아무리 훌륭하더라도 회사의 미래를 어둡게 하기에 충분하다.

물론 집중화된 데이터 서비스는 스타트업에게만 해당하는 내용은 아니다. LinkedIn의 "당신이 알지도 모르는 사람(People You May Know)"나 FourSquare의 "탐색(Explore)" 같은 서비스는 그들의 핵심 제품을 강화하는 특징을 갖지만, 그것은 그 서비스들이 사람과 장소를 정확하게 제안할 경우에만 해당되는 것이다.

데이터 민주화

빅데이터 영역에서 전략의 축 중심에는 분석이 위치한다. 데이터 플랫폼 제공자는 데이터에 근접한 빠르고 분산화된 코드 실행 능력을 선전하며 그들 스스로를 분석 영역으로 이끌고 있다. 반면 SAS나 SAP같은 전통적 분석 기업들은 그들의 스토리지 기반을 확장하고 또 다른 데이터 플랫폼을 요구하는 영역으로 도전하고 있다. 최종적으로, 데이터 스타트업들과 많은 기존 회사들은 그들의 성공여부가 그들이 소유한 알고리즘에 좌지 우지 되는 서비스 분야를 창조하고 있다.

데이터 스타트업의 등장은 무르익고있는 빅데이터 영역의 민주화된 결과를 조명하고 있다. 비로소 기업들은 높은 수준의 분석능력과 서비스를 개발하는데 집중함으로써 인프라스트럭쳐 에 대한 깊은 노하우가 없이도 성공적으로 그들만의 서비스를 제공할 수 있게 되었다. 이런 징후들로 볼 때, 이는 곧 다가올 혁신의 물결에 빗장이 풀릴것을 약속하는 데이터 민주화의 원동력이 될것이다.

***
역자 최종윤
게임회사에 다닌지 8년이 되었지만 아직도 게임보다는 책을 좋아한다.
철저한 비인기 블로그(http://rainblue.kr)을 운영하며 최근엔 트위터(@kikikiblue)에도 둥지를 틀었다.
비교적 성공적으로 시골살이에 정착한, 초보 텃밭 농부이자 아키텍트이다.

TAG :

이전 글 : 데이터 과학이란? - 미래는 데이터를 제품화하는 회사와 개인에게 달려있다.

다음 글 : 온라인 서점이 소셜화 되는 방법 : 책 사이트의 소셜 단계(layer)가 독자와 판매자와 출판인을 도울 것이다.

최신 콘텐츠

한빛출판네트워크

인기 검색어 (최근 1개월간)

책

강의/세미나

채널.H

IT/모바일

데이터 기반의 스타트업 만들기 : 대용량 데이터를 빠르게 처리하되 집중된 서비스로

최근 본 상품0