IoT 시대, 실시간 빅데이터 분석의 부상
IT News 2015. 11. 9. 16:52
[컴퓨터월드] 세상은 점점 더 빨라지고, 복잡해지고 있다. IT기술의 발전에 따라 데이터는 폭증하며 급류를 이루기 시작했고, 만물이 이어지는 초연결사회(Hyper-Connected Society)의 도래가 임박했다. 이러한 변화로 인해 경쟁마저 더욱 빠르고 복잡하게 전개되는 양상을 보인다. 치열해지는 경쟁에서 생존하기 위해서는 보다 빠르고 명확한 의사결정이 필수적이다. 이에 빅데이터 속에서 실질적인 인사이트를 실시간으로 얻는 것이 화두가 되고 있다. 최근 관련업계에서는 사물인터넷(IoT) 시대를 맞아 각종 기계로부터 쏟아지고 있는(machine-generated) 데이터에 대한 관심이 점차 늘어나고 있다. 사람들이 만들어내는(human-generated) 데이터와 달리, 기계는 끊임없이 정보를 쏟아내면서도 그 속에 거짓말은 찾을 수 없다. 이곳을 출발지로 삼으면서 실시간 빅데이터 분석 시장이 태동하고 있는 것이다. 각자 고유의 무기를 내세워 이 새로운 전장에 출사표를 던진 이들의 행보를 간단히 살펴본다.
IoT 시대, 분석거리가 쏟아진다 ‘IoT’와 ‘분석’은 현재 가장 각광받고 있는 IT트렌드에 속한다. 시장조사기관 가트너는 지난해 말 ‘2015년 10대 전략 기술 동향’을 발표, 향후 3년간 기업에 주요한 영향을 미칠 가능성이 있는 기술들 가운데 이 두 가지를 선정했다. IoT 시대를 맞아 디지털화로 인해 생성되는 데이터 흐름과 서비스의 융합은 관리(manage), 현금화(monetize), 운영(operate), 확장(extend)이라는 네 가지 IoT 사용 모델을 창조, 모든 기업들은 산업과 무관하게 이 기본 모델을 활용해 디지털 비즈니스를 영위할 수 있게 됐다. 아울러 임베디드(embedded) 시스템이 생성하는 데이터의 양이 증가하고 기업 내외 정형·비정형 데이터 풀(pool) 분석이 가능해지면서 분석이 보편화되고 있다. 기업들은 IoT, 소셜 미디어, 웨어러블 기기에서 생성된 대량의 데이터를 적절히 분류, 알맞은 정보를 제때 필요한 곳에 정확히 전달하는 것을 과제로 안게 됐다. 이에 가트너는 분석 기술이 모든 곳에 내장돼 끝단에서 데이터가 처리되는 ‘엣지 애널리틱스(Edge Analytics)’가 대두될 것으로 보고 있다. 이러한 변화는 점차 가속화되고 있다. 시장조사기관 IDC는 오는 2018년까지 IoT에서 생성된 데이터의 40%가 보관되고 프로세스를 거쳐 분석될 것으로 예상했다. 또한 현재는 IoT의 50% 이상이 제조, 운송, 스마트시티 및 컨슈머 애플리케이션 분야에 집중돼있지만, 향후 5년 내 전 산업에서 IoT가 활성화될 전망이다. IDC는 기업들이 네트워크에 연결된 수많은 디바이스로부터 쇄도하는 데이터를 효과적으로 조율하기 위한 방안을 고심해봐야 한다고 강조했다. IDC에 따르면, 글로벌 IoT 시장은 지난해 6,558억 달러에서 연평균 16.9% 성장, 오는 2020년에는 1조 7천억 달러 규모를 형성할 것으로 전망된다. 특히 한국을 비롯한 아시아·태평양지역(일본 제외)의 IoT 산업도 높은 성장세를 지속, 연결된 기기 및 사물(things) 대수가 31억 대에서 86억 대 규모로 증가할 것으로 내다봤다. 동기간 이 지역의 IoT 시장은 2,500억 달러에서 5,830억 달러 규모로 성장할 것으로 바라보고 있다. 기업이 관리하는 데이터 중 비정형데이터가 정형데이터보다 더 많아지고 있고, 빅데이터가 IoT와 결합하면서 웨어러블 시장 및 맞춤형 추천, 유통과 교통에 이르기까지 폭넓은 분야에 새로운 기술이 적용될 것으로 보인다. 지능적 보안 및 안보 분야에서도 실시간 모니터링과 리스크 감지 시장이 급격히 성장하고 있다. 특히 제조업 중심의 한국은 스마트팩토리 등 인더스트리 4.0 구현의 중요한 시장이 될 것이다.
IoT 시대의 도래에 따라 빅데이터의 ‘실시간 분석’에 대한 니즈가 급증하고 있다. ‘온라인 분석’은 데이터의 생성 시점과 분석 시점의 구분이 없는 반면, ‘실시간 분석’은 데이터가 생성되는 시점에 최대한 가깝게 분석이 함께 이뤄진다. 이 ‘실시간’에 대한 기준은 업무 성격에 따라 분 단위, 초 단위, 1초 미만 등으로 다양하게 정의되고 있으나, 갈수록 이에 대한 요건이 다양화되는 동시에 강화되고 있는 추세다. IoT 시대의 실시간 분석은 수많은 센서나 소셜미디어에서 생성되는 시계열(time series) 데이터를 그 대상으로 하며, 특히 각종 기계로부터 생성되는 로그데이터가 주재료가 되고 있다. 머신데이터는 빅데이터 중에서도 증가세가 가장 빠른 영역이며, 다양한 트랜잭션과 고객 행동, 센서 기록, 기계 설비 거동, 보안 위협, 사기 행위 등을 파악할 수 있다는 점에서 보다 빠르고 정확하게 실질적인 가치를 얻을 수 있다는 특징을 지녔다. 실시간 분석 솔루션을 표방하는 소프트웨어(SW) 기술들은 기존 OLAP(온라인분석처리) 영역의 분석용 데이터베이스관리시스템(DBMS)나 데이터웨어하우스(DW)와도 다소 차이를 보인다. 마치 라면을 조리할 시간과 여건이 부족할 때는 간단히 취식할 수 있는 컵라면을 찾는 것과 같다. 데이터를 분석하기 위해 ETL(추출·변환·적재)을 비롯한 여러 과정을 거쳐 DW에서 주기적으로 배치(batch) 처리할 필요 없이, 생성되는 데이터를 바로 처리하고 분석해 필요한 만큼의 인사이트를 빠르게 얻을 수 있는 것이다. 이러한 민첩성(agility)은 하둡(Hadoop)을 위시한 오픈소스 빅데이터 플랫폼과의 가장 큰 차이점이다. 하둡은 배치성 아키텍처를 근간으로 하므로 실시간성과는 동떨어져 있어, 인메모리(in-memory) 기술이 적용된 ‘아파치 스파크(Apache Spark)’ 등을 통해 이에 대한 보완도 진행되고 있다. 그러나 기업이 하둡에코시스템을 제대로 활용하기 위해 요구되는 대규모 컴퓨팅파워와 이를 유지관리하기 위해 필요한 고급인력은 결국 TCO(총소유비용)의 증가를 야기한다는 점에서 여전히 생각해볼 문제로 남는다. 더불어 실시간 분석 솔루션들은 짧은 구축기간, SQL 활용 등 사용성을 무기로 삼아 이 틈새를 공략하고 있다. 스트리밍 데이터를 메모리상에서 바로 연관분석을 수행하는 CEP(복합이벤트처리) 기술은 실시간 분석 솔루션과 상호보완적인 관계로 볼 수 있다. CEP 기술은 데이터의 저장 단계 전에 특정 로직을 통해 예외상황 등의 이벤트를 확인하고 처리하는 방식이므로, 저장된 데이터를 가공하거나 검색하는 기능이 없고 입력되는 데이터를 다루는 범위도 한계를 지니게 된다. 그러나 CEP 기술은 빠른 응답속도에 강점을 갖고 있어, 실시간 분석 솔루션의 앞단에 위치하거나 또는 내장돼 공존하며 시너지를 내는 것이 가능하다.
실시간 분석 솔루션은 빠르게 성장하는 새로운 시장으로, 장차 우리에게 어떤 영향을 미치게 될 것인지 아직 가늠하기 어려운 부분도 있다. 그러나 현재까지의 활용사례는 빙산의 일각에 불과하다는 것이 업계의 중론이다. IT벤더들은 ‘빅데이터’와 ‘실시간’이라는 두 축을 모두 지원하기 위해 다양한 형태의 솔루션을 선보이며 시장을 공략하고 있다. 이러한 실시간 분석 솔루션은 공통적으로 빠른 색인(indexing)을 지원하며, 크게 컬럼형DBMS에서 파생된 유형과 로그처리시스템에서 발전된 유형으로 구분할 수 있다. 컬럼형DBMS에서 파생된 유형의 경우 DML(데이터조작언어) 가운데 수정(update)과 삭제(delete)를 지원하지 않는 대신 입력(insert)과 검색(select)을 위한 성능을 극대화시키는 등의 방식을 취한다. 로그처리시스템에서 발전된 유형의 경우 NoSQL DB처럼 스키마(schema)를 고정하지 않고 로(raw)데이터 자체를 실시간 인덱싱하고 향후 분석 대상을 재정의하는 스키마리스(schema-less) 형태로 저장한다. 이 같은 일률적인 기준으로 구분하기에는 적절치 못할 수 있으나, 컬럼형DBMS에서 파생된 솔루션으로는 ▲파스트림 ▲아이리스DB ▲인피니플럭스 등을 들 수 있고, 로그처리시스템에서 발전된 솔루션으로는 ▲스플렁크 ▲테라스트림 바스 ▲로그프레소 ▲D2 등을 꼽을 수 있다. IoT 시대의 실시간 빅데이터 분석 니즈를 고유의 방식으로 풀어가고 있는 이 솔루션들과 각사의 전략에 대해 알아본다.
굿모닝아이텍이 국내 총판을 맡고 있는 ‘파스트림(ParStream)’은 병렬처리의 ‘Parallel’과 스트리밍 데이터의 ‘Streaming’을 조합해 만들어진 이름이다. 파스트림사는 지난 2008년 독일에서 설립돼 현재는 실리콘밸리에 본사를 두고 있으며, 대부분의 기술진들이 C++에 대한 세계 최고 수준의 기술력을 가진 R&D 전문 인력이다. ‘파스트림’의 시초는 창업자들이 이전에 진행했던 여행 패키지 관리 프로젝트였다. 독일은 여행사가 판매한 여행 패키지 서비스에 대해 모든 것을 책임지는 구조로, 기상 조건에 의해 결항된다거나 예기치 못한 상황이 일어나는 것을 실시간으로 조정하고 관리할 필요가 있었다. 수십억 건의 데이터를 대상으로 모든 서비스에 응답속도 3초 이내가 요구사항이었으나, 이를 충족하는 솔루션을 찾지 못했다. 그래서 이를 위해 독자적으로 새로운 시도를 꾀한 끝에 탄생한 결과물이 바로 ‘파스트림’이다.
‘파스트림’ 분석플랫폼은 IoT와 빅데이터 환경의 대량 데이터를 초고속으로 처리할 수 있도록 개발된 컬럼형 DBMS로, 기존 DBMS나 DW시스템과는 추구하는 목적이 다르다. 기본적으로 OLTP(온라인트랜잭션처리)를 목적으로 하지 않기 때문에, 데이터의 업데이트와 딜리트 등을 지원하지 않고 빠르게 대량 인서트 및 스트리밍 데이터를 처리하면서 동시에 질의(쿼리)가 가능하도록 설계됐다. 실시간 분석을 지원하기 위해, 기존 DBMS에서 정합성을 보장하기 위한 고유 기술 중 하나인 록킹(locking) 메카니즘을 과감하게 제거한 제품이다. MPP(대용량병렬처리) 및 인메모리 기술 등 기존의 검증된 기술을 채용해 대량의 데이터를 빠르게 처리할 수 있고, 나아가 HPCI(고성능압축인덱스)와 GDA(지역분산분석) 등의 고유 기술을 특징으로 삼고 있다. 대개의 경우 압축된 데이터를 메모리상에서 처리하기 위해서는 다시 압축을 풀어야 하지만, HPCI 기술은 압축을 풀지 않고도 가능하므로 기존 분석용 DBMS 대비 수십 배 빠르면서 더 적은 용량을 필요로 한다. 또 GDA 기술은 데이터를 중앙에 모아 처리할 필요 없이 지역별로 데이터 소스 가까이에서 실시간 분석과 저장을 지원, 가트너의 ‘엣지 애널리틱스’나 시스코의 ‘포그 컴퓨팅(Fog Computing)’을 구현할 수 있도록 돕는다. ‘파스트림’은 기하급수적으로 증가하는 IoT 빅데이터 처리 및 분석을 목적으로 순수하게 C++로 개발된 솔루션으로, 하둡 기술을 이용하지는 않았지만 분산처리 및 확장성에서는 일부 하둡 사상을 채용했다. 일반적인 RDBMS(관계형DBMS) 구조를 가지면서 표준 SQL을 지원하며, AWS(아마존웹서비스)를 비롯한 클라우드 환경에서도 ‘파스트림’을 사용할 수 있다. 다양한 기업들과 IoT를 위한 협업 생태계를 구축해 BI(비즈니스인텔리전스)나 ETL 등의 분야에서 기존 검증된 대부분의 솔루션을 연계 및 활용할 수 있는 것도 강점으로, 굿모닝아이텍과 함께 국내에서도 IoT 생태계 구축에 나서고 있다.
지난 2000년 설립된 모비젠은 창사 이래로 대규모 통신망 및 네트워크 관리, 대용량 데이터 및 트래픽 처리에 기술을 쌓아온 기술 주도형 벤처다. 장기간 누적된 대용량 데이터 처리 및 분석 능력을 기반으로 빅데이터 처리 솔루션 및 망수준의 관리운용 솔루션(품질관리, 장애관리, 보안관리)을 공급하고 있다. 회사의 주요 고객 가운데 이동통신사가 포함되는 모비젠은 통신망의 발전에 따라 빠르게 증가하는 데이터 트래픽을 분석하기 위해 필연적으로 대용량 빅데이터 시스템을 구축, 실제적인 통신망의 요구에 부응하기 위해 빅데이터 분석 솔루션을 개발하게 됐다. 경쟁이 치열한 이동통신사들의 데이터 분석 요구는 항상 시장을 선도하는 것으로, 이에 대응하는 솔루션을 만드는 것이 필요했다. 이에 따라 PB(페타바이트) 수준의 대규모 데이터를 준실시간으로 모니터링하기 위한 데이터 분석 플랫폼 ‘아이리스DB(IRIS DB)’를 선보였다. 어플라이언스 형태로 공급되는 ‘아이리스DB’는 겉보기에는 기존 OLAP 영역의 DBMS 제품들과 별반 다르지 않지만, 급속도로 발전하는 이동통신환경에서의 통신데이터 처리에 초점을 맞춰 개발돼 일일 100 TB(테라바이트)에 이르는 데이터를 분 단위로 처리 및 분석 가능한 것이 강점이다. 주로 네트워크 모니터링에 사용되며, 보안관제에 쓰이기도 한다.
‘아이리스DB’는 메모리와 디스크를 모두 활용하는 하이브리드 방식으로, 메모리를 마치 파일시스템처럼 쓸 수 있게끔 구현됐다. 메모리에 데이터를 우선적으로 저장하면서 시간이 지나면 디스크로 보내는 구조로, 100% 메모리상에서 처리된다. 특히 인서트 성능을 극대화하기 위해 PB 규모의 데이터도 1 GB(기가바이트) 단위로 나눠 저장되는 점이 특징이다. 이를 통해 실시간 색인을 지원, IT운영에 필수적인 장애 대응과 품질 관리에 적합하도록 설계됐다. ‘아이리스DB’는 분산 환경에서의 데이터 처리를 위한 SQL을 대부분 지원해 추가적인 교육을 필요로 하지 않고, 단기간에 비용효율적으로 구축 가능하다. 최근에는 ‘아파치 스파크’를 통합, 하둡을 사용하고 있는 기존 고객들에게 편의를 더했다. 실시간 SQL 성능과 함께 장기간의 SQL 및 배치성·대화형 SQL 성능까지 향상시켰고, 대규모 빅테이블에 대한 조인(JOIN) 연산을 포함한 모든 SQL 분석 작업이 가능해져 기존 단일 DBMS 기반 레거시(legacy) 시스템을 대규모 분산 병렬화하는 작업에도 활용할 수 있게 됐다. 향후 모비젠은 세계적으로 앞서있는 국내 통신망 환경에서의 경험을 바탕으로 글로벌 시장 공략에 박차를 가할 계획이며, 주요 타깃은 중국과 일본 등 아시아 시장이다. 아울러 고급분석(Advanced Analytics)에 대한 고객들의 니즈에 부응, 그간 SI(시스템통합) 성격으로 진행해오던 기계학습(머신러닝) 관련 요소를 더욱 발전시켜 솔루션 형태로 상용화하는 것을 목표로 하고 있다.
김성진 전 알티베이스 대표가 지난 2013년 설립한 인피니플럭스(InfiniFlux)는 빅데이터 가운데 센서나 머신으로부터 발생하는 시계열 데이터를 실시간으로 저장하고 처리할 수 있는 DBMS를 전문적으로 개발하는 벤처기업이다. 기존 DBMS에서 처리하지 못하던 대량의 실시간 데이터를 새로운 아키텍처를 기반으로 분석할 수 있는 솔루션을 개발하는데 초점을 맞추고 있다. 전통적인 DBMS들은 트랜잭션 처리를 위해 ACID(원자성·일관성·고립성·지속성)를 만족해야 하는 제약사항이 있어 안정적이고 일관성 있는 데이터 처리에 주안점을 뒀으나, 최근 들어 폭증하는 수많은 센서 및 머신 데이터를 적절하게 처리하고자 하는 요구가 많아지고 있다. 이에 인피니플럭스는 전통적인 DB기술과 실시간 빅데이터 처리 기술을 결합, 기존 DB처럼 조작하면서도 실시간 시계열 데이터 처리에 특화된 새로운 솔루션을 개발해 선보였다.
기업명과 동명인 ‘인피니플럭스’는 정형·반정형데이터를 실시간으로 처리하기 위한 컬럼 기반 DBMS로, 데이터 발생량이 클수록 데이터의 발생시점과 실제 저장되고 다시 검색되는 시점의 시간적인 간격이 벌어지게 되는 기존 솔루션들과 달리 이러한 간격이 최소화되도록 설계된 점이 특징이다. 이를 위해 실시간 인덱스 구성, 실시간 질의처리, 실시간 데이터 압축, 병렬 디스크 활용 등의 기술을 자체 개발해 적용했다. DBMS로서의 트랜잭션 처리는 배제, DML 가운데 업데이트를 지원하지 않으나 인서트와 셀렉트를 위한 성능이 강화됐다. 이를 통해 싱글노드에서의 데이터 저장 및 분석 속도를 극대화하면서 효율성까지 갖춰, 초당 10만 건 이상의 데이터를 저장하고 검색할 수 있을 뿐만 아니라 4TB 수준 디스크의 경우 100억 건 이상의 데이터를 저장하고 분석할 수 있는 성능을 지녔다. 특히 임베디드 환경에서 데이터를 빠르게 처리하는데 특장점을 지녔으며, 사용성도 중시해 누구나 웹사이트에서 다운로드 받아 테스트해볼 수 있게끔 패키지화가 진행됐다. ‘인피니플럭스’는 최근 시큐아이의 차세대 방화벽 MF2 시리즈에 도입됐으며, 모든 네트워크 패킷 정보의 저장·감시·관리를 위해 ETRI(한국전자통신연구원)에서 개발하고 있는 ‘사이버 블랙박스’ 프로젝트에도 채택됐다. 내년에는 MPP를 지원하는 차기 버전도 선보일 예정이다.
스플렁크(Splunk)는 실시간 운영 인텔리전스(Operational Intelligence) SW를 개발·공급하는 미국 기업으로, 로그데이터 검색엔진에서 발전해 현재는 실시간 분석 솔루션 시장을 선점하고 있다. 지난 6월 기준으로 포춘지 선정 100대 기업 중 80개를 포함해 글로벌 기업과 정부기관 9,500여 곳을 고객사로 확보하고 있으며, 스플렁크를 통해 매일 400TB가 넘는 데이터를 분석하는 고객도 존재한다. 최근에는 가트너 매직쿼드런트 SIEM(보안정보이벤트관리) 부문에서 3년 연속 리더로 선정된 바 있다. 스플렁크는 세 가지 키워드로 설명할 수 있다. 첫 번째는 엔터프라이즈다. 품질이나 확장성 및 다양한 유스케이스(use case)를 지원한다는 점에서 엔터프라이즈급 플랫폼을 제공한다. 두 번째는 솔루션이다. 전문가들과 외부 개발자 및 파트너들은 고객의 구체적인 유스케이스에 맞는 앱과 애드온(add-on)을 제공, 현재 ‘스플렁크베이스(Splunkbase)’에는 700여 건이 넘는 앱이 올라와 있다. 세 번째는 클라우드다. 모든 솔루션을 하나의 서비스로 제공할 수 있도록 설계해 개발기간을 단축하는 한편, 클라우드 솔루션과 온프레미스(on-premises) 솔루션 및 하이브리드 솔루션도 제공하고 있다.
핵심 플랫폼인 ‘스플렁크 엔터프라이즈’는 웹사이트, 비즈니스 애플리케이션, 소셜미디어 플랫폼, 앱 서버, 하이퍼바이저, 센서, 전통적인 DB, 오픈소스 데이터 저장소 등에서 준실시간으로 데이터를 수집·검색해 분석하고 시각화할 수 있다. ‘서치(search)’라는 고유의 명령 언어를 가졌고, 재인덱싱할 필요 없는 분산 구조로 데이터를 시계열 형태로 저장해 빠른 검색과 높은 확장성을 지원한다. 플랫폼으로서 앱 생태계가 잘 갖춰져 있어 전문적인 용도로도 다양하게 활용할 수 있고, 패키지화가 잘 이뤄져 웹사이트에서 다운로드받아 간편하게 테스트해볼 수도 있다. 이와 함께 스플렁크는 ‘스플렁크 엔터프라이즈’ 플랫폼을 기반으로 다양한 제품들을 제공하고 있다. 하둡용 분석 솔루션 ‘헝크(Hunk)’, 개인 사용자나 소규모 IT환경 대상 ‘스플렁크 라이트’, 클라우드 및 하이브리드 환경을 위한 ‘스플렁크 클라우드’, 모바일 앱의 성능과 문제 및 사용량을 파악할 수 있는 ‘스플렁크 민트(MINT)’ 등이다.
데이터스트림즈는 데이터관리SW 전문기업으로, 자체 개발한 데이터 통합 및 데이터 품질 관리 솔루션을 공급하고 있다. 주력 제품인 ETL 툴 ‘테라스트림(TeraStream)’은 데이터 통합 시장에서 1위를 차지하고 있으며, 지난 2012년 이후부터는 DW 및 BI 분야로 사업을 확장하면서 다양한 데이터 기반 비즈니스를 아우르는 기업으로 변화하고 있다. 지난해에는 다양한 IoT 데이터를 실시간 분석하는 인메모리 기반 실시간 스트리밍 데이터 처리 플랫폼 ‘테라스트림 바스(TeraStream BASS)’를 출시하며 신성장동력 발굴에 나섰다. ‘테라스트림 바스’는 메모리 기반 분산저장 플랫폼으로, 인덱싱과 동시에 저장하는 아키텍처가 기반이 된다. 각종 솔루션 전문 분야를 탑재하기 위한 부분과 OLTP성 FDS 또는 운영 인텔리전스 처리를 지원하며, 웹서버를 탑재해 고급 분석 및 정보 예측 분야를 지원한다. 150바이트(byte) 기준 1개 노드당 초당 200만 건의 저장속도, 60ms(밀리초)의 검색속도, PB급까지 속도가 유지되는 검색 용량을 제공한다.
특히 정형은 물론 반정형·비정형까지 다양한 데이터를 메모리에 빠르게 저장해 실시간으로 분석할 수 있게 해주며, 시각화 구현방식의 유연성과 고객사 구축환경에 따른 커스터마이징을 지원한다. 과거 데이터는 메모리에서 HDFS(하둡분산파일시스템)로 내리는데, MR(맵리듀스) 관련 알고리즘을 자체적으로 개선해 이 데이터에 대한 관리성능이 향상된 것도 특징이다. ‘테라스트림’과의 호환성도 좋아 기존 RDB의 데이터도 원활하게 활용할 수 있다. ‘테라스트림 바스’는 실시간 빅데이터 기반 전력 감시 및 분석, 보안장비 로그 분석, 실시간 서버장비 이벤트 로그 분석, 실시간 IDC 센터 관제 및 모니터링, VOIP 이상징후 검색, 각종 센서 데이터 실시간 로그 분석, 빅데이터 기반 실시간 빌딩 에너지 최적화, 실시간 도로위험기상정보 생산 위한 관측, 공장 설비 데이터 실시간 분석, 실시간 통신 서비스 품질 분석, 제조업 공정라인 실시간 데이터 분석, MES 데이터 실시간 연계, 홈 서비스 장애 진단 시스템, IoT 융합 서비스 등에 적용해 활용 가능하다.
이디엄은 지난 2013년 세 명의 공동창업자가 설립한 스타트업이다. 이들은 설립 이전인 2008년부터 로그데이터 처리 기술을 함께 연구해왔으며, 현재 이디엄은 ‘실시간 역인덱스 생성 및 검색 기술’, ‘이벤트 처리시스템의 이벤트 처리방법’ 등의 특허를 보유하고 있다. 설립과 함께 출시한 ‘로그프레소(LogPresso)’는 ‘로그데이터의 핵심 의미를 에스프레소 커피머신처럼 빠르게 추출한다’는 뜻를 담은 실시간 빅데이터 분석 플랫폼으로, 올해 3.0버전 출시를 앞두고 있다. 5년여의 엔진 개발을 거쳐 출시된 ‘로그프레소’는 시계열 머신데이터에 대한 실시간 풀텍스트/필드 인덱싱 기술을 지원, 1년 이상 운영하더라도 데이터 누적에 의한 성능 저하가 일어나지 않는다. 또한 실시간 데이터 수집, 분석, 저장, 시각화의 전 과정을 하나의 솔루션에서 구현한 점이 특징이다. 일반적으로 스트림 엔진과 쿼리 엔진은 별개 제품이지만, ‘로그프레소’는 이 두 가지가 결합돼 높은 유연성과 성능을 제공한다.
아울러 이벤트 연관 분석을 수행할 수 있도록 자체 CEP 엔진이 내장돼 FTP, SFTP, HDFS, JDBC 등 다양한 외부 리소스를 스트림에서 조인할 수 있으며, 별도 개발 없이 모든 ETL 작업이 쿼리로 가능하다. 필드 암호화 및 테이블 단위 암호화까지 자체적으로 지원하며, 이러한 모든 기능이 통합돼 있으므로 데이터와 목적이 분명하다면 당일 분석을 시작할 수 있을 정도로 간편하게 구축할 수 있는 것이 강점이다. 더불어 사용성 측면에서도 드래그앤드롭으로 다양한 위젯을 배치해 대시보드를 구성할 수 있고, 웹 관리화면에서 수집 설정부터 시각화까지 전 과정을 수행할 수 있다. 페더레이션 기반 분산처리를 지원하며, 최소한의 하드웨어 장비로 운영 가능한 비용효율성과 간단한 구성에 따른 관리편의성도 제공한다.
솔트룩스는 정형·비정형데이터 융합·분석과 인공지능(시맨틱) 기술 기반의 B2B 솔루션 사업 및 클라우드 컴퓨팅 기술을 접목한 B2C 소셜서비스를 제공하고 있다. GS인증 등 다양한 인증과 수상, 80건의 특허 출원 및 31건의 등록 특허 등 다수의 지적재산권을 보유하고 있으며, 배트남 개발센터를 포함해 일본, 중국 지사뿐만 아니라 미국, 유럽 등 전 세계적으로 사업 및 연구개발 파트너를 확보하고 있다. 솔트룩스는 10년 전부터 대규모 비정형데이터 또는 통신데이터, 유럽과의 R&D 사업, 센서 및 IoT 관련 공동연구 사업을 추진해오면서 시장 변화를 감지해 실시간 데이터 분석 플랫폼 ‘D2’를 비롯한 모든 아키텍처와 기술을 발전시켜왔고, 시맨틱 검색과 텍스트마이닝을 넘어 빅데이터 기반 기계학습과 온톨로지 기반 추론을 융합한 스마트데이터 제품과 빅데이터 검색·분석 솔루션을 선보이게 됐다고 밝혔다.
‘D2’는 ▲단일 서버에서 초당 5만 건 이상의 실시간 스트림 빅데이터 처리 ▲정형·비정형 빅데이터의 융합 분석 ▲시계열 패턴 감지를 포함한 실시간 패턴 감지와 CEP ▲집합연산, 고급 통계 분석과 개체명 인식 및 감성분석 등 강력한 실시간 분석 질의어 ▲예측과 자동 알림 기능 ▲실시간 시각화와 R 연동 등을 주요 특징으로 내세우고 있다. 텍스트, 트위터, 기업 내부 문서, 이메일 등 비정형데이터를 실시간 분석할 수 있고, 고객의 사용목적에 맞게 커스터마이징 가능하고 비용효율적으로 제공되는 것이 장점이다. 솔트룩스는 오픈소스와 결합된 ‘빅O(BigO)’ 플랫폼도 선보이고 있다. 얀(YARN)을 포함한 하둡뿐 아니라 ‘아파치 스파크’, 실시간 스트림 데이터 처리를 위한 ‘스톰(STORM)’과 UIMA 프레임워크를 ‘IN2’, ‘D2’, 솔트룩스 ‘스톰’ 등과 통합 구성함으로써 대용량, 실시간 데이터의 수집, 저장, 검색과 병렬/분산 분석 및 시각화 등의 기능을 하나의 플랫폼에 구현했다는 설명이다.
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
reference : http://www.itdaily.kr/news/articleView.html?idxno=68224
'IT News' 카테고리의 다른 글
MIT 공대 유투브 컴퓨터 공학과 프로그래밍 소개 강의 (0) | 2016.01.18 |
---|---|
TensorFlow Mechanics 101 (0) | 2015.11.10 |
Magic Quadrant for Operational Database Management Systems (0) | 2014.10.28 |
User Guide for Amazon RDB Service (0) | 2014.06.13 |
Remote Collaboration Survey Report ASIA (0) | 2014.06.13 |