데이터 중심 조직의 동반자, 데이터 전문 기업 소프트라인

데이터 시스템의 설계, 구축, 운영을 위한 기술 역량

데이터 엔지니어링이란 한 조직이 데이터 자산으로부터 최대한의 가치를 얻을 수 있도록 데이터 시스템을 설계 및 구축하고, 운영하는 일련의 활동을 지칭합니다. 데이터 시스템은 지난 이십여년 간 정보계라는 별칭으로 불려왔으며 오랜 기간 동안 많은 조직들이 리포팅, 현황 파악, 통계분석 등의 다양한 용도로 활용해 왔습니다. 2000년경 초반 빅데이터 시대에 들어서면서부터 수집 / 정제 / 처리해야 할 데이터의 양과 종류가 대폭 증가하고, 데이터에 대한 수요가 늘어나고 복잡해짐에 따라 정보계는 변화의 압력을 받게 됩니다.

과거의 데이터 시스템 (정보계)

다양한 원천 데이터로부터 데이터 소비자들이 원하는 데이터를 선별해 통합 저장하는 데이터 웨어하우스의 등장은 데이터 시스템 (혹은 정보계 시스템) 의 서막을 열었습니다. 빠른 트랜잭션 처리를 위해 만들어졌던 OLTP (Online Transaction Processing) DBMS 와는 달리 대용량의 데이터를 한 번에 벌크 (bulk) 로 처리하는 워크로드에 적합한 데이터 웨어하우스는 데이터 시스템을 필요로 했던 많은 조직의 갈증을 해소하며 빠르게 자리잡았습니다.

복수의 원천으로부터 필요한 데이터를 선별 / 정제하고 데이터 웨어하우스에 적재하는 ETL (Extract, Transform, Load), 그리고 데이터 웨어하우스에 저장된 데이터를 다양한 다각도로 분석하고 분석결과를 시각화하기 위한 BI (Business Intelligence) / OLAP (Online Analytical Processing) 이 연계된 모습이 정보계라고 불리는 과거 혹은 지금까지의 데이터 시스템의 모습입니다.

하지만 빅데이터 시대에 접어들며 정보계 시스템은 여러가지 한계를 드러내기 시작합니다.
1. DBMS 기반이므로 비정형 데이터 처리 불가
2. 주기적인 일괄 배치 처리 기반이므로 실시간 (혹은 준실시간) 데이터 처리 불가
3. DBMS 외 다른 원천 데이터로부터 데이터 유입 불가
4. 성능부족으로 인해 자유로운 비정형 (ad-hoc) 질의 불가
이러한 한계를 극복하기 위해 2000년대 초반부터 다양한 기술과 제품들이 폭발적으로 등장하며 본격적인 빅데이터 시대의 막이 열린 것입니다.

현재의 데이터 시스템 (빅데이터 플랫폼)

빅데이터란 단순하게 정의하자면 디지털 데이터의 양과 종류의 폭발적인 증가현상입니다. 빅데이터 시대의 데이터 시스템은 당연히 이러한 현상에 발맞추어 변화해야 했습니다. 다양한 포맷의 데이터, 시간 당 몇 TB의 초대용량 데이터를 수집, 처리, 저장하고 데이터 소비자들이 데이터에 원활히 접근하여 각종 실험을 통해 가설을 검증하고 비즈니스 문제를 해결할 수 있는 솔루션을 만들어 낼 수 있는 환경으로 진화해야 했습니다. 이러한 요건을 갖춘 빅데이터 시대의 데이터 시스템을 빅데이터 플랫폼이라고 합니다. 빅데이터 플랫폼은 빅데이터 시대의 요건에 맞추어 진화한 데이터 시스템으로서 기존 정보계와는 큰 차이가 있습니다.

당연하게도 기존 정보계의 요소 기술만으로는 빅데이터 플랫폼을 구성할 수 없으므로 빅데이터 플랫폼은 기존 정보계에 새로운 기술요소들이 추가된 새로운 아키텍쳐를 갖추게 됩니다. 상기 아키텍쳐는 하나의 예시이나 빅데이터 플랫폼이 갖추어야 할 기본요소들을 갖추고 있습니다.

정보계 시스템에 비해 훨씬 다양한 기술과 제품들이 복합된 빅데이터 플랫폼에 대한 데이터 엔지니어링은 단위 기술에 대한 전문성은 물론 플랫폼 전체 관점에서 데이터 시스템의 워크 플로우와 특성을 이해하고 그 바탕에서 단위 기술들을 통합하는 역량을 요구합니다.

소프트라인은 회사 설립 당시부터 오직 데이터 시스템만을 설계, 구축, 운영한 데이터 전문가 집단으로서 누구보다 데이터 시스템의 특성과 요건을 잘 이해하고 있으며 단위 기술에 대한 풍부한 경험을 가지고 있어 최고 수준의 빅데이터 플랫폼 데이터 엔지니어링 서비스를 제공합니다.

소프트라인 데이터 엔지니어링 서비스
1. 데이터 통합 및 정제 : 복수의 원천에서 생성된 로우 데이터를 의미있는 단위로 통합하고, 데이터 시스템에 저장할 수 있는 품질의 데이터로 정제.
2. 데이터 저장 : 대용량 데이터를 비용 효율적으로 저장하면서도 데이터 유실을 방지하는 병렬 아키텍쳐 기반의 초고성능 데이터 웨어하우스 구축.
3. 데이터 유통 : 조직 내 데이터 소비자들이 정합성을 갖춘 데이터에 적시에 접근할 수 있도록 보장하는 통합 데이터 파이프 라인 구축.