데이터 중심 조직의 동반자, 데이터 전문 기업 소프트라인

데이터로부터 가치를 만들어내는 모든 활동

“우리는 정보 속에 익사할 지경이지만 여전히 지식에 굶주려 있다.” - 존 나이스비트

데이터는 넘쳐나지만 그 속에서 유용한 지혜와 인사이트를 도출하여 가치를 창출하는 것이 그만큼 어렵다는 의미이며, 바로 이것이 데이터 사이언스의 취지입니다.

데이터 사이언스에 대한 관심이 최근 매우 높아졌음에도 불구하고 이에 대한 이해와 해석은 천차만별이며 어떤 해석이 반드시 옳고 그르다고 하기는 어렵습니다. 넓은 의미의 해석을 참조하자면 데이터 엔지니어링은 데이터 중심 조직의 인프라를 구현하고 운영하는 활동이고, 데이터 사이언스는 이 인프라를 바탕으로 데이터 자원을 활용해 실질적인 비즈니스 가치를 도출해내는 모든 활동을 지칭합니다. 이 활동에는 머신러닝을 활용해 데이터로부터 일반화된 패턴을 도출해 모델화하고 이를 실제 업무에 적용하는 과정도 포함되며 이는 좁은 의미의 데이터 사이언스로도 해석됩니다.

데이터 사이언스의 본질

그렇다면 데이터 사이언스는 어떻게 데이터로부터 가치를 창출할까요? 이 문제에 대한 답을 찾으려면 데이터 사이언스의 본질에 대해 좀 더 생각해 볼 필요가 있습니다. 데이터 사이언스는 ‘데이터’ 와 ‘사이언스 (과학)’ 의 조합입니다. 즉, 데이터로 수행하는 과학이란 의미가 됩니다. 데이터란 현실 세계에서 벌어지는 현상에 대한 추상화된 기록이며, 과학이란 주어진 문제에 대한 가설을 수립하고 반복적인 실험과 관찰을 통해 가설을 입증해 보편적인 규칙을 발견하는 과정입니다. 따라서 데이터 사이언스의 본질은 사실상 과학과 동일합니다. 그 본질을 5가지 정도로 요약하자면 아래와 같습니다.
1. 업무 중심적 접근 : 데이터 사이언스의 목적은 문제를 해결하는 것이며, 문제를 해결하기 위해서는 업무적인 맥락에 대한 이해가 필수적입니다.
2. 반복적인 실험과 검증 : 과학에서 하나의 가설이 한 번의 실험만으로 입증되는 경우는 없습니다. 데이터 사이언스 역시 마찬가지로 반복적인 실험과 검증이 필수입니다.
3. 데이터 (증거) 기반 : 증거 혹은 데이터에 기반하지 않은 이론을 과학적이라고 할 수는 없습니다. 데이터 사이언스 역시 데이터에 존재하지 않는 법칙은 인정하지 않습니다.
4. 수학 / 통계 기반 분석 : 모든 데이터의 정량적 객관적인 분석을 위한 방법론이 바로 수학과 통계학입니다. 데이터 사이언스는 수학과 통계학을 중심으로 한 과학적 분석활동입니다.
5. 일반화 가능한 패턴 도출 : 과학은 실험과 관찰을 통해 확보한 데이터를 객관적으로 분석해 보편적인 규칙을 도출합니다. 데이터 사이언스도 이와 동일하게 분석한 데이터 내에 존재하는 일반화된 패턴을 찾아 이를 통해 업무 문제를 해결하는 것이 목적입니다.

위와 같은 5가지 본질을 하나로 묶어 데이터 사이언스를 재정의하면
해결해야 할 비즈니스 문제를 명확히 정의하고,
문제를 해결하기 위한 다양한 솔루션들을 가설로 제시하여,
각 솔루션 별로 필요한 데이터를 정의, 수집, 정제하고,
수집된 데이터에 대해 수학 / 통계적 방법론 기반의 반복적 실험을 수행해,
수집한 샘플 데이터로부터 일반적으로 적용 가능한 패턴을 찾아내어,
가설을 입증하고 솔루션을 구현해 비즈니스 문제를 해결하는 과정

데이터 사이언스 = 팀 스포츠

데이터 사이언스는 단순히 데이터를 분석하는 활동이 아닙니다. 데이터 분석의 결과물을 실제 업무에 적용하지 못한다면 궁극적인 목적을 달성하지 못한 의미없는 활동이 되고 맙니다. 따라서 모든 데이터 사이언스 활동의 대미는 업무 담당자 및 개발자들과의 적극적인 커뮤니케이션과 설득 작업을 통해 데이터 사이언스의 산출물을 업무에 적용하도록 만드는 것입니다. 고객 승인 (Customer acceptance) 를 확보하는 것은 데이터 사이언티스트들에게 요구되는 여러가지 역량 중 중요한 부분 중 하나임에도 불구하고 의외로 많은 사람들이 경시하는 영역입니다. 이러한 커뮤니케이션 과정에서 데이터 사이언티스트들이 핵심적으로 활용해야 하는 도구가 바로 시각화 (Visualization) 입니다. 많은 데이터 중심 조직에서는 시각화 전문가를 육성 혹은 채용하기도 합니다.

이처럼 데이터 사이언스는 데이터 사이언티스트들이 온전히 모든 것을 담당하고 처리하는 활동이 아닙니다. 업무 담당자, 업무 분석가, 시스템 개발자 / 운영자, 그리고 데이터 사이언티스트들이 긴밀하게 협업해야 성과를 낼 수 있는 팀 스포츠입니다. 그리고 데이터 사이언티스트들은 다양한 이해 관계자들을 묶어주는 중간자 역할을 수행해야만 합니다. 그렇기 때문에 커뮤니케이션이야말로 실질적인 성과를 산출하게 해주는 핵심 역량입니다.