[KISTI과학향기]예술계를 떠들썩하게 달구고 있는 'AI 화가', 이미지 생성 AI

2022년은 그림을 그리는 인공지능(AI)의 성능이 크게 발전한 한 해로 기억된다. 지금까지 AI는 인간을 모방할 뿐 창의적인 부분까지는 재현할 수 없다고 알려져 왔다. 그러나 최근 들어 그림이나 디자인, 영상, 음악, 문학과 같은 창의력이 필요한 영역에서 AI를 활용하는 움직임이 확산되고 있다.

그중 최근 가장 극적인 발전을 이뤄낸 분야가 '이미지 생성 AI'이다. 그림을 그리는 AI는 미국 OpenAI의 이미지 생성 AI 'DALL-E2'을 필두로 구글의 'Imagen' 'Parti'가 등장했다. 최근에는 미국 항공우주국(NASA) 엔지니어 출신인 데이비드 홀츠가 개발한 AI 화가 '미드저니(Midjourney)'가 그린 그림이 미국 콜로라도주에서 열린 미술 박람회의 디지털아트 부문에서 우승을 차지해 화제를 모았다. 눈부시게 발전하는 이미지 생성 AI의 원리와 가능성 그리고 예상되는 문제점에 관해 알아보자.

◇이미지 생성 AI의 원리

'DALL-E2'는 OpenAI가 2022년 4월에 발표한 이미지 생성 AI이다. 화가 살바도르 달리와 픽사의 장편 애니메이션 영화 '월리(WALL-E)'의 캐릭터에서 따온 이름을 가진 DALL-E2는 인간이 입력한 문장을 이미지로 구현한다.

DALL-E2가 주어진 문장을 통해 구현한 이미지들. 살바도르 달리와 로봇의 반반 자화상(첫번째), 화가 모자와 검은 터틀넥을 입은 시바견(두번째), 타임스퀘어에서 스케이트보드를 타는 테디베어(마지막) 등 지시문에 어울리는 다양한 이미지를 생성한다. (출처: OpenAPI 논문)
DALL-E2가 주어진 문장을 통해 구현한 이미지들. 살바도르 달리와 로봇의 반반 자화상(첫번째), 화가 모자와 검은 터틀넥을 입은 시바견(두번째), 타임스퀘어에서 스케이트보드를 타는 테디베어(마지막) 등 지시문에 어울리는 다양한 이미지를 생성한다. (출처: OpenAPI 논문)

DALL-E2는 언어-그림 사전 학습 모형(CLIP; Contrastive Language Image Pre-training)을 사용해 훈련 데이터 이미지에 '무엇이 찍혀 있는가'를 가리키는 라벨링 없이 '어떤 카테고리에 속하는 이미지인가'라는 정보만으로 학습이 가능하다. 이미지 생성 AI는 생성기(Generator)라고 불리는 신경망과 CLIP 모형을 사용해 작업을 수행한다. 생성기는 주어진 잠재변수 Z를 바탕으로 이미지를 생성한다.

그렇다면 Z의 값은 어떻게 정할까? 인간이 입력한 지시문(예:파란 모자를 쓴 소년)과 생성한 이미지를 CLIP 모형이 읽어 들여 '두 데이터가 얼마나 다른가'를 '거리'로 나타낸다. CLIP은 이 거리가 점점 짧아지도록 잠재변수 Z의 값을 교정한다. 이러한 과정을 반복해 CLIP이 인식하는 거리가 짧아질수록 그림은 더 그럴듯하게 변한다. 이러한 CLIP의 학습 방법은 '약지도 학습'이라고 불리며 이 방법을 통해 막대한 비용이 드는 라벨링 공정을 생략할 수 있다.

DALL-E2의 CLIP 모형은 지시문과 그림 사이의 거리를 측정한다. (출처: OpenAPI 논문)
DALL-E2의 CLIP 모형은 지시문과 그림 사이의 거리를 측정한다. (출처: OpenAPI 논문)

CLIP이 출시된 것을 계기로 AI 커뮤니티에서 단번에 이미지 생성 AI 개발이 확산되었다. 지금 세계 각국에서 개발 중인 그림 생성 AI는 해상도를 높이기 위해 고해상도화를 담당하는 신경망을 추가하거나 인물을 강조하기 위해 또는 인물을 배제하기 위한 필터를 넣는 등 세세한 방식은 다르지만 대체로 CLIP을 활용하는 방식을 따른다. 따라서 그림의 완성도를 결정하는 것은 사실 실제 그림을 생성하는 생성기가 아니라 그림과 문장의 위화감을 느끼고 생성기를 지도하는 CLIP 쪽이라고 할 수 있다. 말하자면 생성기는 화가, CLIP은 디렉터인 셈이다. CLIP이라는 디렉터에게 지시를 내리는 역할은 지시문을 주는 '인간'의 몫이다.

◇이미지 생성 AI의 활용 가능성

이미지 생성 AI는 누구나 간단한 조작만으로 품질 높은 예술 작품을 생성할 수 있는 세상을 만들었다. 이는 미술의 범용화가 진행되고 있음을 의미한다. 2022년 8월 26일 콜로라도주에서 열린 미술전의 디지털 아트 부분 수상작인 <스페이스 오페라 극장(Thtre D'opra Spatial)>의 작가는 다름 아닌 AI 화가였다. 이 사건은 작품을 평가하는 심사위원이라 하더라도 작품의 작가가 인간인지 AI인지 분간할 수 없을 정도로 AI 아티스트의 수준이 올라왔음을 세상에 널리 알렸다.

미드저니라는 AI 이미지 생성 프로그램을 이용해 그린 스페이스 오페라 극장. 이 그림으로 제이슨 앨런은 콜로라도주 미술 박람회 디지털 아트 부문 수상자가 되었다. (출처: Ascannio/shutterstock.com)
미드저니라는 AI 이미지 생성 프로그램을 이용해 그린 스페이스 오페라 극장. 이 그림으로 제이슨 앨런은 콜로라도주 미술 박람회 디지털 아트 부문 수상자가 되었다. (출처: Ascannio/shutterstock.com)

AI 화가에 의한 예술의 범용화는 그림을 잘 그리는 사람이나 일부 예술가의 특별한 스킬에 의존하지 않아도, 누구나 그리고 싶은 풍경·인물이나 공상을 표현할 수 있는 방법을 제공하며 미술계의 혁신까지 일으킬 가능성이 있다. 스페이스 오페라 극장을 그려낸 AI 프로그램, 미드저니(Midjourney)의 사용자층을 분석하면 앞으로 어떤 식으로 이미지 생성 AI가 사용될지 가늠할 수 있다. 현재 미드저니를 사용하는 30%의 사용자가 프로페셔널한 목적으로 미드저니를 사용하며 특히 그래픽 아티스트가 콘셉트 개발의 일환으로 활용한다고 한다. 아이디어나 콘셉트 수준에서 미드저니에게 지시를 내려 상상 가능한 다양한 이미지를 손쉽게 얻을 수 있다는 것이다. 그래픽 아티스트는 이 이미지들을 클라이언트에게 제시해 클라이언트의 이해를 돕고, 작업의 결과물이 어떤 모습일지 구체적으로 제시해 인식의 오차를 줄이는 데 사용한다.

또 20%의 사용자는 미술 치료를 목적으로 미드저니를 사용한다. 미술 치료는 그림을 통해 마음에 안정을 찾는 치료 방법이다. 예를 들어, 이미 죽은 반려견의 사진을 미드저니를 통해 그려내는 과정에서 자신의 감정과 마주한다. 단순히 그림을 그리는 과정만으로 힐링이 된다고 느끼는 사용자들도 많아 인스타그램에도 '미드저니로 심야 미술 치료하기'라는 태그가 있을 정도다.

◇AI 화가의 등장을 둘러싼 우려

이미지 생성 AI가 상업화됨에 따라 여러 우려의 목소리도 나온다. 가장 흔한 우려는 이미지 생성 AI의 성능이 향상되면 예술가나 그래픽 디자이너의 일자리를 빼앗을 수 있다는 것이다. 하지만 AI 화가는 인간 예술가를 대체하지는 않을 것이다. 현장에서는 이미지 생성 AI의 등장으로 예술가가 더 뛰어난 능력을 발휘할 것이라는 의견이 우세하다. 이미지 생성 AI를 사용하는 예술가는 같은 조건 아래서 일반인보다 뛰어난 결과물을 얻어낸다. 이미지 생성 AI를 사용해 이미지를 생성하기 위해서는 미술 지식이나 풍부한 단어 능력, 생성했으면 하는 이미지를 언어화해 프롬프트라고 하는 형태로 AI에게 전달하는 능력 등 다양한 전문 지식이 필요하기 때문이다.

'이미지 생성 AI가 그린 그림은 누구의 것인가'와 같은 저작권 문제도 시급히 해결해야 하는 문제다. 많은 국가에서 저작권은 인간의 창작물에 한정되며 인간이 창작에 관여하지 않고 AI를 이용해 완전히 자율적으로 작성된 콘텐츠에는 저작권이 발생하지 않다. 예를 들어 '인류가 지금까지 본 적이 없는 그림'이라는 지시문을 입력해 생성된 이미지가 아무리 훌륭해도 그 이미지에는 저작권이 발생하지 않는다. 다만 이미지 생성 AI의 결과물에는 처음에 지시문을 주거나 중간에 '이렇게 변형하라' '이것으로 결정한다' 등 AI를 사용하는 인물의 '표현 의도'가 포함되기 때문에 저작권을 주장할 만한 여지가 남는다. 특히 미드저니는 처음으로 이미지를 생성할 때 4개의 이미지를 생성하며 그중 마음에 드는 이미지를 골라 기초로 삼아 더욱 발전시켜 나가는 기능을 제공하므로 이미지 생성을 위한 시행착오가 작품에 대한 구체적인 기여로 보일 수 있다.

AI가 그린 그림에 대한 저작권 문제도 뜨거운 논란이 되고 있다. (출처: shutterstock)
AI가 그린 그림에 대한 저작권 문제도 뜨거운 논란이 되고 있다. (출처: shutterstock)

AI가 학습을 위해 참조한 이미지의 저작권 또는 인물 사진의 초상권을 둘러싼 논의도 흥미롭다. 예를 들면 할리우드 배우의 이름을 입력해 어떤 영상이 생성되었다고 해도 그것을 광고나 선전 목적, 혹은 마음대로 「○○(배우명)를 그린 화집」등으로 발매하면 초상권 침해가 발생할 가능성이 있다. 이를 피하기 위해 DALL-E2나 미드저니를 비롯한 이미지 생성 AI는 유명인이나 정치가, 실재하는 인물의 사실적 화상이나, 폭력적·성적·정치적인 영상을 생성할 수 없게 제한을 설정했다. 미드저니는 40명의 모니터링 전용 직원을 고용하여 미드저니를 악용한 콘텐츠가 유통되지 않도록 감시하고 있다.

CLIP을 사용한 이미지 생성 AI가 인터넷 커뮤니티에 크게 유행하면서 최근에는 이들이 만들어낸 이미지가 인터넷에 너무 많이 확산될 경우 오히려 AI의 발전을 방해할지도 모른다는 연구 결과도 나왔다. 일본 이화학연구소(RIKEN)의 하타야 류이치로(Hataya Ryuichiro) 연구팀은 인간이 생산한 이미지에 더해 AI가 생산한 이미지를 섞어 학습할 경우 이미지 생성 AI가 내놓는 이미지의 품질이 낮아지는 현상을 발견했다. 학습 데이터에 AI가 생성한 이미지가 더 많이 포함될수록 AI가 생성한 이미지와 실제 모습 사이 차이가 더 심해졌다. 연구팀은 AI 이미지가 인터넷에 확산하면 AI 이미지 프로그램의 데이터 세트가 오염돼 이미지 생성 AI의 성능에 치명적인 영향을 끼칠지도 모른다고 진단했다. 이 연구는 인터넷에 돌이킬 수 없을 만큼 많은 AI 생성 이미지가 퍼지기 전에, 인간이 그린 그림과 AI가 그린 그림을 구분하는 방법을 고안해야 할 필요성을 강하게 시사한다.

글: 이형석 과학칼럼니스트