[ICT시사용어]디지털 아카이브

국내 대표적인 디지털 아카이브 서비스인 네이버 뉴스 라이브러리.
국내 대표적인 디지털 아카이브 서비스인 네이버 뉴스 라이브러리.

디지털 아카이브는 문화유산 및 아날로그 정보를 디지털화해 모아 놓은 시스템을 말한다. 또 디지털 상에 조성된 데이터 저장고를 지칭하는 용어로 사용된다. 두 개념 모두 시간 경과에 의해 질이 떨어지거나 소실될 우려가 있는 데이터를 장기 보존하려는 데 목적을 둔 기술이다. 구분을 위해 전자는 디지털 보존으로 표현되기도 한다.

물리 형태의 기록물은 안정 보존이 가장 중요하다. 전산화된 자료라 해도 원본 자료는 고유성을 띠며, 손실 시 대체가 불가능하다. 일반 사유로는 열람이 금지되는 편이다. 반면에 디지털 아카이브는 데이터 보존 못지않게 접근 및 사용에 방점을 둔다. 검색과 활용이 쉽게 이뤄지고, 사용자 목적에 맞게 원본을 다시 변형할 수 있다. 특히 공공 아카이브는 여러 사람의 참여로 만들어지기 때문에 내용이 지속 확장되며, 강한 개방성과 공공성을 띤다.

인터넷에서 생성되는 수많은 기록물도 영구적이지 않다. 최근 불거진 싸이월드 서비스 중단 문제가 대표 사례다. 이 같은 문제를 방지하기 위해 필요한 기술도 웹아카이브다. 웹사이트 전체 또는 일부를 크롤링해서 아카이브를 생성하면 사이트가 삭제되더라도 내용을 보존할 수 있다.

미국은 1996년부터 인터넷 아카이브 프로젝트를 추진해 왔다. 전 세계 웹사이트를 수집·보관해 기록하고 있다. 국내에서는 2004년부터 국립중앙도서관이 '오아시스' 프로젝트를 운영하고 있다. 시간이 흘러 없어진 우리나라 주요 웹사이트 모습을 찾아볼 수 있다. 공개된 웹 자료 수량은 적고 선정 웹사이트 기준은 알려져 있지 않다. 공공성이 높고 가치 있는 웹사이트는 유형별로 구분, 정기 아카이빙이 필요하다는 목소리가 높아지고 있다.

통상 데이터 백업과 아카이브를 같은 의미로 사용하는 경우가 있지만 이 둘은 엄연히 다른 용어다. 백업은 사고 발생 시 복구를 위해 특정 시점 데이터를 모두 사본화한 저장물이다. 이에 따라 시간이 지나면 현재 원본과는 차이가 난다. 아카이빙은 원본 자체를 저장하고 관리하기 때문에 계속 원본 속성을 유지한다는 특징이 있다.

이형두기자 dudu@etnews.com