"데이터 과학이란?"에서 데이터 제품의 특징에 대한 이야기를 시작했다. 이후, 흥미로운 제품이 새로 많이 등장했는데, 그 대부분은 몇 년 전에는 상상도 못했을 만큼 확장된 데이터 분석을 수반한다. 그런데 여기서 퍽 중요한 질문을 하게 된다. 데이터가 제품이 되면, 특히, 소비자 제품이 되면 어떻게 되는가? 데이터 제품은 어디를 향하는가? 컴퓨터 엔지니어이자 데이터 과학자로서, 데이터를 다루는 멋지고 새로운 방법을 탐닉하는 경향이 있다. 그러나 소비자 입장에서, 제품이 데이터에 머물러 있다면, 우리 일은 끝나지 않은 것이다. 우리가 해낸 일에 자부심을 가지려면 제품이 데이터에 머물러 있으면 안된다. 사용자가 무엇을 원하든 할 수 있도록 해주어야 한다. 사용자가 원하는 바는 대체로 데이터와는 별로 상관이 없다.
이는 오래된 문제다. 괴짜 같은 엔지니어는 노브(knob), 다이얼, 예쁜 화면이 잔뜩 달린 뭔가 근사한 것을 원한다. 소비자는 작은 화면 하나, 헤드폰 잭 하나, 충전용 잭 하나가 달린 아이팟(iPod)을 원한다. 엔지니어는 취향에 맞게 고치고 스크립트를 만들고 싶어한다. 소비자는 그저 작동하는 멋진 무광 알루미늄으로 마감 처리된 기기를 원한다. 소비자가 스크립트를 짜야한다면, 뭔가 아주 잘못된 것이다. 우리는 지금 두 세계 사이에 사로잡혀있다. 우리에게는 데이터 계의 스티브 잡스가 필요하다. 구체적인 부분까지 개입하지 않아도 우리가 원하는 것을 디자인해 줄 수 있는 그런 사람 말이다.
사라지는 데이터
우린 가상의 제품에 익숙해졌는데, 데이터 제품이 물질적 제품을 대체하는 확장 덕분이라는 것을 인정하는 것으로 시작하는 것이 적절하다. 그리 오래지 않은 예전에는, 음악은 대략 450그램 정도되는 플라스틱 덩어리로 판매되었다. 음악이 디지털화되고 CD에 저장되었을 때, 약 30그램에 못 미치는 데이터 제품이 되었지만, 여전히 물질적인 물체였다. 이후 더욱 더 발전해서, 이 기사의 많은 독자는 이제 더 이상 CD를 사지 않으며, 이제 아이튠즈(iTunes)나 아마존(Amazon)을 통해 온라인 형식으로만 음악을 구매할 것이다. 비디오도 같은 길을 가고 있다. 아날로그 VHS 비디오 테이프가 DVD가 되었고 이제는 넷플릭스(Netflix)를 통해 순수한 데이터 상품으로 스트림된다.
그러나 물질적 제품이 가상의 제품으로 대체되는데 익숙해지고 있는 반면, 데이터가 뒷전으로 물러서는 다음 단계로 어떻게 갈 것인지에 대한 문제는 의외로 까다롭다. 데이터를 가져다주는 제품을 원하는가? 아니면 데이터에 기반한 결과를 가져다 주는 제품을 원하는가? 우리는 후자를 향해 발전하고 있지만, 아직 거기까지 이르지는 못했다. 데이터를 뒤에 숨기고 사용자가 원하는 것을 제공하는 제품으로 최선의 예는 아마도 아이팟이 되겠지만, 아이팟의 파트너 애플리케이션인 아이튠즈는 최악의 예가 된다. 아이튠즈의 사용자 인터페이스는 기본적으로 사용자의 전체 음악 콜렉션 메타데이터를 표시하는 스프레드시트이다. 이와 마찬가지로, 링크드인(LinkedIn)이나 페이스북(Facebook)같은 소셜 사이트의 "알 수도 있는 사람" 기능은 데이터베이스에서 어떻게든 사용자와 가까운 사람의 리스트를 추천해준다. 아이튠즈의 스프레드시트보다는 훨씬 더 친근하지만, 이는 여전히 고전적인 자료 구조인 리스트다. 이런 제품은 "데이터 냄새"가 난다. 제품의 일부로써 데이터가 명백히 보이기 때문에 나는 이를 "드러난(overt)" 데이터 제품이라고 부른다.
리스트는 잠재적인 지인을 제공하는데 적합한 방법일 수 있고, 스프레드시트는 음악 메타데이터를 편집하는데 적합한 방법일 수 있다. 하지만 데이터 상품이 어디를 향해야 하는지 이해하는데 도움을 주는 다른 종류의 제품이 많이 있다. IBM은 IBM 연구소의 최근 행사에서, 실시간 교통량 분석에 기반해서 버스 도착 시간을 정확하게 예측하는 애플리케이션을 시연했다. (런던에서 비슷한 것을 공개할 예정이다.) 또 다른 IBM 프로젝트는 스톡홀롬의 교통 정체 관리 시스템을 구현해서 교통량 및 대기 오염을 현저히 줄였다. 새로운 계획은 운전자가 목적지를 서비스에 문자로 보내면 현재 교통량과 기상 조건에서 최적화된 경로를 응답 받을 수 있도록 하는 것이다. 버스 도착 시간이 데이터인가? 그렇게 볼 수 있다. 잠재적 페이스북 친구의 리스트처럼 경로도 또 다른 리스트 구조인가? 그렇다. 여기에서 정말 얻어야 하는 것은 이동 시간을 단축시키고 환경을 개선하는 것이다. 데이터가 여전히 전면에 있지만, 우리는 데이터를 넘어 더 큰 그림, 즉 보다 나은 삶을 보기 시작했다.
이런 프로젝트에서는 데이터보다는 제품이 가져오는 결과를 데이터 제품 발전 상의 다음 단계로 제시한다. 포드(Ford)는 구글(Google)의 예측 및 지도 제작 기술을 사용해 운전자가 어디로 가는지를 예측해서 하이브리드 자동차의 연비를 최적화시키는 실험적인 연구에 대해 논했다. 이는 명백히 데이터 제품이다. 운행 이력과 도로 상태에 대한 지식을 기반으로 데이터 분석을 한다. 그러나 제품은 운전자가 눈으로 직접 볼 수 있는 경로 같은 것을 제공하는 것이 아니라 최적화된 엔진 사용과 연료 소비 감소를 하게 해준다. 이런 제품을 "가려진(covert)" 데이터 제품이라 할 수 있다.
보다 더 나아가 보자. 사용자가 정말 원하는 것은 단지 A라는 지점에서 B라는 지점으로 가는 것뿐이다. 구글은 자기(自己) 운행 자동차(self-driving car)를 시연해서 이 문제를 풀어냈다. 이 차는 데이터를 결과로 주지 않는 것이 확실하지만, 어마어마한 데이터가 이면에 있다. 지도, 차도에서 보는 스트리트 뷰 이미지(무엇보다 회전할 위치, 신호등, 정지 신호를 계산하는데 도움이 된다), 자동차에 달린 센서에서 감지한 데이터를 모두 포함한다. 자기 운행 자동차에서 처리되는 모든 데이터를 알게 되면, 엄청난 데이터 원(源)에서 가치를 하나하나 추출해내는 걸작을 보게 되리라 믿는다. 자기 운행 자동차는 데이터를 뒤에 감추고 사용자의 실제 문제를 풀어주는 다음 단계에 있는 것이 확실하다.
데이터보다 실 세계의 결과를 가져다 주는 데이터 제품을 일단 찾기 시작하면, 이런 제품이 도처에 있다는 것을 알게 된다. 한 IBM 프로젝트는 아이오와(Iowa)주 더뷰크(Dubuque)시 공공 용수 공급 시스템에서 누수를 찾는 일에 참여했다. 물은 항상 사용되지만, 갑작스러운 사용량의 변화는 누수를 나타낸다. 누수에만 해당하는 특징이 있다. 언제든 발생할 수 있는데, 특히 사용량이 적을 것이라고 예상했던 시점에도 발생 할 수 있다. 누군가가 잔디밭에 물을 주거나, 화장실 물을 내리거나, 수영장에 물을 채울 때와는 다르게, 누수는 멈추지 않는다. 어떤 가치를 전할 수 있을까? 수도세를 더 낮춰주고 가뭄에도 보다 강한 용수 시스템과 같은, 즉 데이터가 아닌 데이터의 결과를 전할 수 있다.
의료 분야에서, 의사와 간호사는 때로 데이터를 가지고 무엇을 해야하는지 알고 있는 경우 보다 본인들 재량에 맡겨지는 데이터를 더 많이 갖기도 한다. 문제는 데이터가 아니라, 그 데이터를 넘어 의학적인 이슈를 알아내는 것이다. IBM과 온타리오 대학(University of Ontario)의 합동 연구에서, 미숙아를 감시하는 체계에서 대부분의 데이터 스트림을 무시하는 것을 알아냈다. 몇 밀리초 마다 측정되는 아기의 활력징후(vital sign)를 읽던 것을, 연구진은 한 시간에 한 두 번씩 확인해서 한 번에 읽을 수 있도록 요약했다. 전체 데이터 스트림의 이점을 취해서, 증상을 사람이 확인할 수 있는 시간 보다 24시간 정도 전에 생명에 위협이 되는 감염의 시작을 발견할 수 있게 되었다. 바로 이런 것이, 숨은 데이터 제품이며, 숨은 데이터가 반드시 가치를 만들어낸다는 사실이다. 사람은 정리되지 않은 데이터를 다룰 수 없기 때문에 매 시간마다 정리된 데이터로 요약해서 보다 적은 데이터를 만들어야 사용할 수 있지, 더 많은 데이터가 필요한 것이 아니다. 의사와 간호사에게 필요한 것은 데이터가 아니라 아픈 아기의 병이 더 악화되는지 여부이다.
"카산드라 완벽 가이드: 페이스북, 트위터를 지탱하는 기술, NoSQL(Cassandra: The Definitive Guide)"의 저자 에븐 휴잇(Eben Hewitt, @ebenhewitt)은 거대 호텔 체인에서 근무한다. 그는 호텔 체인 자체가 데이터 제품을 제공하는 소프트웨어 회사 그 자체로 볼 수 있다고 했다. 회사의 진짜 핵심 기술은 예약 시스템, 공급 관리 시스템, 전체 기업을 하나로 엮어주는 나머지 소프트웨어가 있다. 만만한 일이 아니다. 이 시스템은 수 만개 자산에서 몇 십만의 방을 예약하는 어마어마한 수의 고객을 다양한 보상 프로그램, 특별 할인, 휴일과 계절에 따라 변동되는 숙박비용 등과 함께 추적한다. 시스템의 복잡도는 확실히 링크드인과 비슷하며, 관리하는 데이터의 양도 만만하지 않다. 호텔은 아주 실재적인 듯 하나, 사실 상, 웨스트인(Westin) 이나 매리어트(Marriott) 또는 데이즈(Day"s) 여관의 예약 정보는 데이터이다. 이를 데이터로 경험하는 것이 아니라, 긴 하루의 끝에서 안락한 침대로 경험하는 것이다. 데이터는 최대한 숨어 있다.
발전하는 또 다른 주제가 있다. 드러난 제품은 드러난 데이터 수집에 의존하는 경향이 있다. 링크드인과 페이스북에 직접적으로 준 데이터는 없지만, 그들은 예측하지 못한 방법으로 이를 결합시킬 줄 안다. 숨은 데이터 제품은, 결과로써의 데이터만 보이지 않는 것이 아니라, 수집된 데이터도 보이지 않는다. 보이지 않게 수집해야 한다. 자기 운전 자동차에 우리 운행 기록을 입력해야 한다면 만족하지 못할 것이다. 종종 데이터를 사용하는 방법을 아무도 모르기 때문에 버려진 데이터에서 이런 제품이 만들어진다. 이것이 바로 휴대 전화, 자동차 등 우리 활동 정보를 수집하는 기기에서 가끔씩 남긴 "데이터 배출 흔적"이다. 많은 도시는 실시간 교통 분석을 하는데 필요한 데이터를 모두 가지고 있다. 많은 지방 용수 공급 시스템은 용수 사용량에 대한 방대한 데이터를 가지고 있지만, 누수를 찾는데 그 데이터를 아직 활용하지 못한다. 많은 병원에서 환자를 센서에 연결하지만, 이들 센서로부터 흐르는 데이터를 정리하지 못한다. 우리는 데이터로 가득한 바다에 살고 있으며 이들 중 많은 데이터를 알지 못한다. 데이터 제품의 진화는 이렇게 숨겨진 데이터원을 사용하는 방법을 발견하는데 집중될 것이다.
데이터 결합의 힘
CDDB 같은 데이터 제품의 첫 세대는 기본적으로 단일 데이터베이스다. 링크드인의 스킬(Skills) 데이터베이스와 같이 보다 최근 제품은 합성물(composite)이다. 스킬은 사용자, 고용주, 구인 목록, 보유 기술 설명, 이력 등등의 데이터베이스가 합쳐져 있다. 사실 데이터 과학에서 가장 중요한 연산은 서로 다른 데이터베이스 간에서 각각의 데이터베이스 하나만으로는 답할 수 없는 질문에 답할 수 있는 "조인(join)"이라 할 수 있다.
페이스북의 얼굴 인식 기능은 연결된 데이터베이스의 힘을 보여주는 훌륭한 예가 된다. 대부분 일반적인 경우, 얼굴을 인식하기(수 많은 대조가 가능한 상황에서 얼굴 하나를 사진에 대조시키는)는 매우 어려운 문제다. 그러나 페이스북은 그 문제를 해결한 것이 아니다. 팀 오라일리(Tim O"Reilly)에 답변으로 제프 조나스(Jeff Jonas)는 사진 하나를 많은 사진 사이에서 식별하기는 여전히 매우 어려운 문제지만, 하나의 사진을 소수의 사진에서 식별하기는 상대적으로 쉽다고 말했다. 페이스북은 인맥을 알고 있기 때문에 사진을 볼 때, 누가 사진을 찍었으며 그 사람의 친구가 누구인지를 알고 있다. 사진의 얼굴이 사진을 찍은 이의 페이스북 친구 중에 있을 것이라는 것은 타당한 추측이다. 그래서 페이스북은 수백만의 사진을 대조해야 하는 어려운 문제를 풀 필요가 없다. 단지 친구의 사진을 대조하기만 하면 된다. 이런 힘은 수백만 장의 사진 데이터베이스에서 오는 것이 아니다. 사진을 인맥 자료와 결합시켜서 나온 것이다.
발견이라는 목표
현재 많은 제품이 추천 엔진이다. 협업 필터링이나 그 밖의 기술을 사용해서 무엇을 살지, 누구와 친구 관계를 맺을지 등을 추천해준다. "뉴 미디어"의 성배는 자동으로 사용자가 생각하는 것을 찾아 그에 부합하고 흥미를 가질만한 개인화된 맞춤형 뉴스 서비스를 구축하는 것이다. 애플의 지니어스(Genius) 같은 도구는 사용자의 앱이나 수집된 기록을 통해 또 무엇을 사야하는지 추천해준다. 많은 소셜 사이트에서 일반적인 "알 수도 있는 사람" 기능은 확실히 추천 엔진이다.
그런데 추천은 단지 표면적인 목표에 불과하다. 추천 엔진이 끝이 아니며 그래서도 안 된다. 최근 얼마동안 Woven 의 설립자인 브래드포드 크로스(Bradford Cross, @bradfordcross)와 대화를 나누고서야 결국 그가 하는 말이 내가 해오던 말과 약간 다르다는 것을 깨달았다. 브래드포드는 꾸준히 추천이 아닌 "발견"에 대해 이야기했다. 그 차이는 엄청나다. 발견은 그저 좋은 제품을 넘어 훌륭한 데이터 제품을 구축하는 핵심이다.
추천의 문제는 새로운 기사든, 노래든, 앱이든지 간에 사용자가 좋아할 만한 것을 추천하는게 전부라는 것이다. 무언가를 단지 "좋아하는 것"은 잘못된 기준이다. 몇 달 전, 아이패드에서 지니어스를 켜니, "Flipboard를 가지고 있군요, Zite도 한 번 써보세요."라고 나왔다. 맙소사. 내 앱을 모두 살펴보고는 내가 가진 앱과 유사한 앱을 더 추천하는 것이다. 내가 가진 앱과 비슷한 앱이 더 필요치 않기 때문에 이런 건 실망스럽다. 아마도 지니어스가 추천해주는 앱을 내가 좋아할 수도 있다. (사실, 개인적으로 Zite를 좋아한다.) 하지만 있는 앱이면 됐다. 내가 필요한 건 뭔가 다른걸 하는 앱이다. 나는 완전히 새로운, 이상적으로 말하면 내가 좋아하는 것을 모르고 있는 뭔가를 아니면 내가 좋아하지 않을 거라고 생각하는 그 무엇을 말해주는 소프트웨어가 필요하다. 이 부분이 발견이 할 일이다. 여기서 어떤 통찰을 얻을 수 있을까? 만약 지니어스가 "ForScore를 가졌군요. 음악하시는 분이신 것 같습니다. Smule의 Magic Fiddle을 한 번 써보세요." (음악하는 사람이 아니더라도 해 볼만하다) 라고 한다면 좋겠다. 이런 것이 추천에서 발견으로 전환되기 시작하는 부분이다.
엘리 파리저(Eli Pariser)의 "필터 버블(The Filter Bubble)"은 지나친 개인화와 단지 "좋아하기" 때문에 선택된 것으로만 구성된 미디어 편식의 위험에 대한 훌륭한 고찰이다. 내가 내 개인적 신념과 편향에 맞는 "좋아할" 뉴스만 미리 골라서 읽는다면, 피폐해질 뿐 아니라, 건전한 민주주의의 핵심인 토론에 낄 자리가 없을 것이다. 내가 "좋아할" 음악이라서 선택된 음악만 듣는다면, 내 음악적 경험은 무뎌지고 따분해질 것이다. 이는 기계가 만족스럽고 안전하게 살 수 있는 고치를 제공해주는 E.M. 포스터(E.M. Forster)의 이야기 "The Machine Stops"에 나오는 세상이다. 이 기계는 음악, 예술, 음식, 심지어는 모든 지적인 영역에서 "아이디어"의 배경을 제공하며 직접적인 관찰은 가치가 없고, 단념하도록 하는(그리고 종국에는 금지되는) 물, 공기, 잠자리까지 제공한다. 그래서 그 기계가 고장난 뒤 결과가 황폐하리라는 것은 뻔하다.
여과 없이 거대한 디지털 라이브러리를 둘러볼 수 있다고 믿지 않는다. 파리저 또한 그렇게 생각하지 않는다. 일종의 프로그램을 통한 선택은 앞으로는 피할 수 없는 부분이다. 개인화 검색 결과에 사용될 수 있는 모든 정보를 차단하는 크롬의 시크릿 모드에서 구글 검색을 해보길 바란다. 직접 해보니, 구글이 관심사에 대한 선 지식에 기반해서 걸러주지 않아서 유용한 검색 결과를 얻기 정말 어려웠다.
그러나 개인의 호불호에 따라 걸러지는 세계에 대한 경험이라는 고치를 깨고 나오려 한다면, 단순한 추천을 헤치고 나와 발견에 이르러야한다. 아이패드 Zite 앱이 출시된 직후 설치했는데, 가끔 이 앱이 발견으로 뚫고 나오는 것을 깨닫게 된다. 이 앱은 어떻게 찾는지 몰라서 내 스스로 찾지 못하는 기사를 찾아준다. 나는 "추천(thumps up)"과 "비추천(thumps down)" 버튼을 사용하지 않는데, Zite가 내 취향을 따라오지 않기를 원하기 때문이다. 불행히도, 어떻게든 따라오는 것 같다. Zite가 시간이 갈수록 흥미롭지 않게되는 것을 깨달았다. 그 버튼을 누르지 않아도, 내 트위터 스트림이 Zite에 내가 좋아하는 것을 너무 많이 알려주어 결과를 망치는 것 같다. 추천에서 진정한 발견으로 가기란 아마도 다음 세대의 데이터 제품을 디자인 하는 우리가 직면한 가장 험난한 문제인 것 같다.
인터페이스
데이터 제품의 암흑기에, 컴퓨터로 데이터에 접근했다. 노트북, 데스크톱으로, 심지어는 미니컴퓨터나 더 예전에는 메인프레임으로 데이터에 접근했다. 컴퓨터에서 보고 듣는 음악과 비디오가 우선 물리적 제품에서 데이터 제품으로 변화했다. 그런데 더 이상 컴퓨터로만 데이터에 접근하지 않는다. 음악을 아이팟으로 듣고 킨들(Kindle), 누크(Nook), 아이패드로 책을 읽으며 인터넷이 되는 텔레비전(인터넷 인터페이스가 TV 자체에 있든지, 애플 TV처럼 외장 박스에 있든지 간에)으로 온라인 동영상을 본다. 이런 변화는 거스를 수 없다. 컴퓨터는 데이터를 데이터로 인지하게 만든다. 디스크 결함이 발생하면 좋아하는 노래, 영화, 사진이 디스크 드라이브의 비트에 불과했음을 고통스럽게 절감할 것이다.
중요한 것은 애플이 이런 변화의 핵심이었다는 것이다. 애플은 제품 디자인과 사용자 인터페이스 개발에 도가 튼 회사다. 애플은 윈앰프(WinAmp)나 프리앰프(FreeAmp, 지금은 Zinf)를 통해 음악을 듣기를 선호하는 사람이 간과한 데이터의 특징에 대해 이해했다. 시스템에 컴퓨터가 설계되어 있는 한 데이터 제품은 우리 삶의 일부가 될 수 없다. 사용자 경험은 처음부터 제품으로 설계되었다. Greylock Partners에 상주하는 데이터 과학자인 DJ 파틸(@dpatil)은 데이터 제품을 만들 때, 애초에 디자이너를 엔지니어링 팀에 통합시키는 것이 핵심적이라고 한다. 데이터 제품은 데이터 입력이나 전시에 관련해 특별한 도전을 하게 된다. 엔지니어가 우선 모형을 만들고 이를 디자인으로 넘기는 것만으로는 충분치 않다. 디자이너가 제품이 무엇이고 어떻게 작동하는지에 대한 이해 없이 골격을 예쁘게 그리는 것도 마찬가지다. 초기 디자인을 생산 직군에 통합하고 디자이너가 제품을 더 깊이 이해할수록, 결과는 더 좋을 것이다. 파틸은 포스퀘어(FourSquare)가 성공한 것이 어떤 장소에 체크인하는 것을 GPS를 통해 아주 간단히 이루어지도록 했기 때문이라고 했다. 이는 디자인적인 결정이며 또한 그만큼 기술적인 결정이다. (성공은 쉽지 않다. Dodgeball 앱 후기에서 지적되었듯, 휴대전화에 위치가 통합되지 않았기 때문에 Dodgeball 사용자 인터페이스는 기본적으로 곤란할 수 밖에 없었다.) 음악을 듣자고 디스크 드라이브, 파일시스템, 마이크로소프트 오피스 같은 사용자 인터페이스를 가진 노트북을 쓰고 싶진 않을 것이다. 1960년대 트랜지스터 라디오처럼 작고 편리하지만 훨씬 더 많은 기능이 있고 유연한 것을 원한다.
괴짜 같은 망상을 넘어 소비자가 원하는 데이터 가공물을 얻으려면 또 어떤 것들이 필요할까? 아마존은 전자책을 자연스럽게 상품화하는 훌륭한 일을 해냈다. 킨들 구독기는 훌륭하다. 킨들은 필기를 하고 공유하는 기능을 제공하며 아마존은 모든 기기에 대해 위치를 동기화 시켜준다. 약간의 파일 관리가 있는데, 거의 아마존 클라우드에서 이루어진다. 또한 품질이 훌륭하다. 제품에 오타나 기타 오류가 없는 만큼 데이터 냄새도 거의 나지 않는다. Gutenberg 프로젝트를 기억하는가?
음악으로 돌아가보자. CD에서 음악을 추출하고 관리하는 걸 스스로 하는 것은 이제 끝이다. CDDB에서 가져온 메타데이터의 질도 좋지 않았다(비록 CDDB의 알고리즘을 높이 사긴 했지만, 데이터의 품질은 형편없었다. 존 "렌논"의 노래를 가진 사람은 알 것이다.). 음악을 클라우드로 옮기는 일 자체는 단순하다. 백업이나 다른 기기에 동기화를 유지하는 것을 걱정할 필요가 없다. 이건 레코드를 이방에서 저방으로 쉽게 옮기거나, 친구네 집에 가져가는 것 처럼 쉬운 예전의 축음기 만큼이나 좋다. 그러나 음악을 올리고 내려받는 일이 완전히 사라질 수 있을까? 그 길을 다 오지는 못했지만, 중간쯤 온 것 같다. 파일 관리하는 수고가 사라질 수 있을까? 소위 "파일시스템의 죽음"에 대해 크게 상관하지는 않지만, 사용자가 로컬에 저장하든 클라우드에 저장하든, 기저의 저장 메커니즘에서 분리되는 데에는 관심이 있다.
데이터 제품의 새로운 인터페이스는 데이터 그 자체를 숨기는 일이며, 사용자가 원하는 것에 다가가는 것이다. 아이팟은 벨소리나 호각소리를 더한게 아니라 노브와 조작 버튼을 없애서 혁명을 만들었다. 음악은 데이터가 되었다. 아이팟은 이를 음악으로 다시 돌려놓았다.
휴먼 타임으로
구글 검색은 배치 작업을 통해 생성된 인덱스에 기반하는데, 단 몇 주 전에 주어진 페이지도 그 인덱스에 포함될 수 있다는 것은 과거에는 거의 충격적인 것이었다. 그러나 사람의 필요와 요구사항이 데이터 제품의 발전을 이끌어 왔듯이, 배치 처리는 "휴먼 타임(human time)"으로 대체되었다. 휴먼 타임은 Basho Technologies의 저스틴 시히(Justin Sheehy, @justinsheehy) 가 만든 단어다. 검색 결과가 몇 분이나 심지어는 거의 한 시간 늦는다 하더라도 불평하지는 않겠지만, 오늘자 트위터 스트림을 검색하려고 내일까지 기다려야 하는 것은 다른 문제이다. 내가 제시한 많은 예들도 휴먼 타임 이내에 이루어져야 말이 된다. 버스가 떠난 뒤에 버스 도착 시간을 알아야 소용이 없으며, 지난 날의 교통량에 기반해서 예측하는 일은 가치가 있겠지만, 그렇게 하려면 실생활의 데이터가 필요하다. 어제의 도로 사정을 사용하는 자기 운행 자동차는 우습지 않은가. 미숙아에게 감염이 시작되었음을 예측하는 것은 사람이 직접 관찰하면서 명백히 감염을 예측해내기 전에 이루어질 때만 도움이 되며, 그래서 모니터에 나오는 모든 데이터 스트림이 필요한 것이다.
휴먼 타임의 요구를 충족시키기 위해, 데이터 도구 사용에 있어 새로운 국면에 접어들고 있다. 지난 9월, 구글은 자사에서 실시간 분석을 하는 새로운 프레임워크인 Caffeine과 Percolator에 대한 블로그 기사를 올렸다. Percolate에 대해 가용한 상세 정보는 얼마 없지만, 오픈 소스 진영에서 새로운 도구가 나오기 시작했다. Apache Flume은 하둡(Hadoop) 기반의 시스템에 실시간 데이터 수집을 추가했다. 최근 발표된 프로젝트인 스톰(Strom)은, 실시간 처리 계의 하둡을 자청한다. 이는 복잡한 메시지 처리 파이프라인을 구성하는 프레임워크이며, 실시간, 스트림 처리 부문의 데이터 제품을 어떻게 구축할지에 대해 다시 생각한 대표적인 프레임워크다.
결론
데이터 제품은 우리 삶의 보다 많은 부분을 차지해가고 있다. 페이스북이나 트위터에서 보내는 시간을 살펴보는 건 쉽지만 우리 생활의 실제 변화를 주도하는 것은 다음 버스가 10분 내에 도착할 거라는 신호나 다음 주 호텔 예약 비용은 97달러라는 것처럼 데이터처럼 보이지 않는 데이터이다. 이런 것이 확실히 애플이 취하는 정책이다. 포스트 PC로 가는 것은, 데이터 그 자체가 아닌, 데이터의 결과를 제공하는 애플리케이션과 상호작용하는 세계로 움직이고 있는 것이다. 음악과 비디오는 데이터 스트림의 형태를 갖지만, 우리의 관심사는 음악이지, 비트가 아니다. 또한 이미 이런 "비트스러움(bitly-ness)"을 다루게 하는 인터페이스, 즉 노트북, 파일, 백업 같은 것들 모두와 멀어지고 있다. LP판에서 CD로, CD가 디지털 미디어로 옮겨가는 것을 목격했지만, 이 과정은 계속 진행 중이다. CD에서 음원을 추출하는 일은 더 이상 거의 없을 것이며, MP3 인코더를 찾아서 쓰지 않아도 될 것이다. 음악은 그냥 클라우드(아마존이든, 애플이든, 구글이든, Spotify 든)에 있다. 음악은 드러난 데이터에서 숨은 데이터로 변했다. 책도 그렇다. 경로 최적화된 자기 운행 자동차를 백업해야 할까? 글쎄, 그렇지는 않을 것 같다. 그런 자동차는 확실히 데이터 제품이긴 하지만, 그 자동차를 움직이는 데이터는 보이지 않을 것이다.
올해 초 에릭 슈미트(Eric Schmidy)는 말했다.
구글은 질의를 입력하고 10개의 결과를 얻는 지금의 검색 형태를 넘어서야 한다. 찾기 전에 원하는 것을 알려주는 것이 이상적이다.
이런 논란의 여지가 있고 다소 낯 간지러운 발언은 사실상 데이터 진화의 다음 단계를 그리고 있다. 우리는 리스트나 스프레드시트를 원치 않으며, 데이터 상태로 머무른 데이터도 원치 않는다. 우리는 인간의 목표에 맞추어져서 데이터는 뒤로 물러난 그런 결과를 원한다. 많은 정보원을 섞어서(mash up) 힘을 끌어내는 데이터 제품이 필요하다. 컴퓨팅 시스템의 편의에 따라 돌아가는 배치 프로세스보다는 결과를 휴먼 타임에 가져다 주는 제품이 필요하다. 그리고 가장 결정적으로, 단지 추천을 넘어서 발견에 이르는 데이터 제품이 필요하다. 이런 제품이 있어야, 우리가 데이터를 다룬다는 것을 잊을 수 있다. 필요에 따라 잘 정리된 결과만 보면 된다.
데이터 제품으로의 전환은 과거 컴퓨터 네트워킹의 발전과 유사한 측면이 있다. 80, 90년대에는, 배선에 대한 전문적인 지식없이는 네트워크를 쓸 수 없었다. 주소, 호스트 파일, 공유 파일시스템, 심지어는 배선까지 관리해야 했다. 기술적으로 최고 수준의 괴짜 같은 기술자나 되어야 집을 이더넷으로 연결했다. 그런데 이제 모든 네트워크 배선이 벽 속으로 들어갔을 뿐 아니라, 대기 중으로 완전히 사라졌다. 기술적인 배경이 없어도 케이블 회사에 전화하는 정도만 하면 가정용, 또는 사무용 무선 네트워크를 구축할 수 있다. 데이터 제품도 같은 목적을 향해 가고 있다. 소비자는 데이터를 사용하고 있다는 것을 알고 싶어하지도 않고 알 필요도 없다. 이에 도달하면, 데이터 제품이 가진 풍부한 데이터가 데이터 그 자체로 주목받지 않을 때가 된다면, 다음 혁명으로 갈 준비가 된 것이다.