[테크리포트]중요해진 비정형 데이터 관리…'오브젝트 스토리지'로 경제성·효율성 잡는다

글자 작게 글자 크게 인쇄하기

여러 산업에서 클라우드의 빠른 확산과 디지털 혁신 가속으로 데이터가 폭증하고 있다. 확장성과 개방성, 높은 데이터 보호 기능으로 대용량 데이터 저장, 아카이빙, 백업이 가능한 오브젝트 스토리지가 주목받고 있다. 대용량 데이터 저장에 최적화 기반인 오브젝트 스토리지는 △비즈니스 성장에 따른 유연한 스토리지 용량 추가 △스토리지 관리 비용 절감 △비즈니스 민첩성 향상 △데이터 분석 기능 향상을 통한 빠른 비즈니스 의사결정 지원에 널리 활용되고 있다.

이향선 전자신문인터넷기자 hyangseon.lee@etnews.com

스토리지 종류별 데이터 접근방식
<스토리지 종류별 데이터 접근방식>

◇폭증하는 기업 비정형 데이터 관리, 최적 대안은?

기업 비정형 데이터 중요성이 점차 높아지고 있다. 설계 도면, 소스코드, 프로젝트 산출물 등 기업 정보자산 관리, 금융권 비대면 서비스 확대, 콘텐츠 기반 사회관계망서비스(SNS) 이용 증가, 스마트 팩토리의 실시간 사물인터넷(IoT) 데이터 수집과 활용, 사용자 성향 분석을 위한 웹 로그 데이터 수집과 빅데이터 분석 등 비정형 데이터가 기업 업무 환경에서 다수를 차지하고 있다. 그런데 비정형 데이터는 서비스 종류, 분야, 성격 등에 따라 달라 통일된 관리 체계나 보호 방법을 적용할 수 없어 데이터 운영 관리나 업무 효율 저하, 데이터 보호와 보안 및 인프라 비용 부담이 있다. 이 문제점을 오브젝트 스토리지가 해결할 수 있다.

비정형 데이터 관리의 고민
<비정형 데이터 관리의 고민>

오브젝트 스토리지는 파일 상세 정보를 포함한 메타데이터를 자동으로 생성·보관·관리한다. 수억 또는 수십억 개 파일을 객체화해 고유 ID만으로 데이터를 관리, 경제성과 효율성이 높고 데이터 관리, 보호 자동화, 검색을 통한 거버넌스 대응 등 여러 장점이 있다. 성능을 담당하는 '컴퓨트(Compute)'자원과 데이터가 저장되는 '스토리지' 자원으로 분리해 구성할 수 있는 스케일 아웃(Scale-out) 아키텍처로 폭증하는 데이터에 유연하게 대응할 수 있다.

메타데이터 태그가 포함된 오브젝트 방식으로 정기 백업과 대량 데이터 검색 시간이 단축되고 커스텀 메타 데이터 기능과 빌트인(Built-in)된 분산 데이터베이스로 안정적인 데이터 관리와 운영이 가능하다. 데이터 티어링(Tiering, 계층화)과 자동 삭제 기능 등 정책 기반 운영 자동화로 데이터 운영이 쉽고 성능 저하가 없어 비용도 절감된다. NAS와 오브젝트 스토리지를 결합해 논리적인 하나의 저장 장치로 만들고 데이터 티어링을 구현해 응답 속도와 효율이 높다. 클러스터 내 복제본 저장, 파일 셀프 체크·복구, 버저닝(Versioning), 원격 복제 기능으로 파일 훼손 및 위·변조와 랜섬웨어를 막아 기업 데이터 자산 보안에도 최적화됐다.

◇기업 데이터 운영을 혁신하는 '데이터 레이크' 핵심 기술

기업에는 기존 정형 데이터 소스 외에 센서 데이터, 이미지, 동영상, SNS 메시지 등 비정형, 반정형 등 데이터가 폭증하고 있다. 이에 모든 형태의 데이터를 통합하여 분석, 서비스할 수 있는 데이터 레이크(Data Lake) 채택이 늘고 있다. 오브젝트 스토리지 기술은 데이터 분석을 위한 데이터 레이크의 핵심이다. 파일 계층 또는 블록을 규정하는 기존 스토리지 시스템과 달리 오브젝트 스토리지 플랫폼은 파일을 플랫(flat) 구조로 동등하게 배치하고 저장해 효율과 성능을 높였다. 스토리지 및 컴퓨팅 리소스도 독립적으로 확장할 수 있어 수조 개의 객체 및 엑사바이트급의 대규모 확장이 가능하다.

인터넷 기반 HTTP 프로토콜을 비롯한 산업 표준 프로토콜 지원으로 언제 어디서든 간단한 설정만으로 데이터를 이동, 저장하고 모든 S3 엔드포인트를 지원해 온프레미스는 물론 퍼블릭 클라우드까지 포괄하는 데이터 레이크를 구현할 수 있다. 또 보안 및 규정 준수, 데이터 수명주기 정책 관리를 지원하며, 자동화된 데이터 무결성 검사를 통해 데이터 거버넌스 및 가용성까지 제공한다.

◇오브젝트 스토리지 'HCP'의 기업 워크로드 혁신 최적 활용법

국내 오브젝트 스토리지 시장을 견인하고 있는 효성인포메이션시스템 HCP(Hitachi Content Platform) G11은 대규모 비정형 데이터 환경의 안정적 운영과 공유 서비스를 단일 플랫폼에서 지원하는 오브젝트 스토리지 솔루션이다. 중앙에서 에지까지 아우르는 데이터 관리, 모바일 및 분산된 업무 환경 지원, 퍼블릭〃호스팅 클라우드 티어링, 통합 데이터 인텔리전스 기능을 제공하며 클라우드, IoT, 머신러닝 등 차세대 워크로드로 확장되고 있다.

효성인포메이션시스템 오브젝트 스토리지 HCP 아키텍처
<효성인포메이션시스템 오브젝트 스토리지 HCP 아키텍처>

HCP G11은 올플래시, 고성능 CPU와 메모리, 표준 프로토콜을 지원하며 뛰어난 검색 성능으로 수억 개 파일을 단 0.2초 만에 검색하고 데이터 생성부터 보관, 삭제까지 데이터 수명관리를 자동화할 수 있다. 하이브리드 클라우드 환경도 지원한다. 특히 빅데이터 플랫폼 '펜타호', 콘텐츠 인덱싱 솔루션, 머신러닝 기반 데이터 카탈로그 솔루션 '워터라인', 데이터 포털 솔루션 등 폭넓은 서비스로 데이터를 빠르게 분석하고 필요한 구성원이 적시에 활용할 수 있다.

HCP는 대용량 비정형 데이터 처리가 필요한 금융, 물류, 유통 등 다양한 분야에서 데이터 안정성을 확보하고 고객 만족도를 높이고 있다. 효성인포메이션시스템은 국내 시장에 맞는 다양한 오브젝트 스토리지 기반 애플리케이션을 개발하고, 오브젝트 스토리지 시장을 적극 공략할 방침이다.

[활용 1] 지능형 데이터 티어링으로 하둡 데이터 최적화

하둡 분산파일 시스템 HDFS(Hadoop Distributed File System)는 데이터 블록을 3개씩 복제해 분산 저장해 특정 데이터 블록이 유실돼도 다른 복제본을 활용해 데이터 저장 및 관리의 신뢰성을 높일 수 있다. 반면에 데이터 양이 많아지면 컴퓨팅과 스토리지가 하나의 풀로 구성된 하둡 노드를 증설해야 하고 노드당 부과되는 HDFS 라이선스 비용도 증가한다. HCP는 HDFS 운영비용을 줄이고 실시간 분석이 가능하다. 데이터 최적화 프로그램은 HDFS에 저장된 데이터 중 사용 빈도가 낮은 콜드 데이터를 티어링해 HCP에 저장하고, 활성 데이터는 HDFS 리소스에 남겨둔다. 동적으로 HCP와 HDFS 데이터를 티어링해 HDFS를 통해 모든 데이터에 실시간 액세스할 수 있어 중단 없이 하둡 데이터를 분석하고 운영할 수 있다. 오브젝트 스토리지에 활용도 낮은 데이터를 보관해 라이선스 비용도 줄일 수 있다.

HCP는 15페타바이트(PB)의 랙당 고용량 스토리지 제공으로 하둡 인프라 자체의 도입, 확장 비용뿐만 아니라 데이터 센터 상면 운영 비용 절감 효과도 있다. 99.9999999999999%의 데이터 내구성 및 데이터 무결성과 보존성은 비즈니스 의사 결정을 위한 데이터 안정성도 보장한다.

[활용 2] 퍼블릭 클라우드 출구전략

최근 금융권의 퍼블릭 클라우드 전환 활성화가 예상되며, 퍼블릭 클라우드 출구 전략이 중요한 이슈가 되고 있다. 금융감독원은 퍼블릭 클라우드 서비스 사업자의 경영 악화, 데이터 센터 재해·장애, 보안 등의 이슈로 갑작스럽게 서비스가 중단되거나 금융 정책 변화를 고려해 퍼블릭 클라우드 서비스로 전환 시 출구 전략을 반드시 마련할 것을 요구하고 있다. HCP는 빅데이터 분석 플랫폼 '펜타호'와 연계해 다양한 데이터를 수집하고 활용한다. 금융 기업은 전략과 방향에 따라 운영 플랫폼과 애플리케이션에 구애 받지 않고 온프레미스 환경 혹은 다른 퍼블릭 클라우드로 유연하게 전환할 수 있다.

HCP는 파일 리스트와 메타 정보를 데이터베이스로 구성해 현황 관리와 메타 데이터 활용 범위를 확대할 수 있다. 퍼블릭 클라우드에서 운영하는 다양한 콘텐츠, 빅데이터 분석을 위한 하둡 애플리케이션 데이터, 컨테이너 운영 시 가상 서버 이미지, 데이터 파일 등도 오프로드해 온프레미스 환경에서 복구할 수 있다.

[활용 3] NAS와 오브젝트 스토리지 결합한 통합 플랫폼 'DM2C'

효성인포메이션시스템은 NAS와 오브젝트 스토리지, 클라우드 인프라를 동시에 구축 가능한 'DM2C(Data Migrator to Cloud)' 패키지로 효율적인 데이터 보관 및 활용, 미래지향적 아키텍처를 구현한다. DM2C 패키지는 고성능 전용 FPGA(Field Programmable Gate Array:프로그래머블 반도체) 프로세서가 탑재된 NAS 제품 'VSP N'과 수백 PB 대용량으로 확장되는 오브젝트 스토리지 'HCP'를 정책 기반 자동 티어링으로 구성, 효율적인 데이터 운용 환경과 데이터 보호 기능을 제공한다.

DM2C 패키지는 모든 유형의 데이터를 저장 및 관리할 수 있는 통합 플랫폼으로 공공, 금융, 통신, 제조, 병원, 미디어 등 전 산업 분야에서 다양하게 활용될 수 있다. 제조 생산라인의 비정형 데이터 관리 시스템, 기업 프라이빗 클라우드 백업 시스템, 공공기록물 아카이빙 시스템, 이메일 아카이빙 플랫폼, 방송사의 영상 다시 보기 서비스 등에 적용되고 있다.