[기고]대규모 언어모델에서 중요한 것은 양보다 질

발행일 : 2023-11-27 16:00 지면 : 2023-11-28 27면

알고리즘 혁명의 원동력은 데이터다. 알고리즘 투명성(Transparency)과 책임성(Accountability)에 대한 관심이 높아지고 있는 이유도 여기에 있다. 일각에선 이러한 담론이 지적 재산을 공개하라는 은밀한 요구로 잘못 해석되는 일도 있다. 그러나 미묘한 차이를 살펴보면 대규모 언어와 독점 모델을 구분하는 더 복잡한 내러티브(narrative·이야기)를 발견할 수 있다.

대규모 언어 모델은 포괄적인 텍스트 데이터세트로, 학습된 인공지능(AI) 시스템이다. 이 모델의 설계 의도는 입력에 대한 응답을 통해 사람과 유사한 텍스트를 생성하는 것이다. '대규모'라는 용어는 매개변수 수와 학습 데이터 양에 관한 모델의 규모를 반영한다. 예를 들어 오픈AI의 GPT-3는 방대한 양의 텍스트로 구성된 1750억개의 매개변수가 포함된 거대한 모델을 학습에 통합했다.

이러한 모델은 생성하는 텍스트에 담긴 의도를 이해할 수 있어야 한다. 학습 데이터에서 식별 가능한 패턴에 의존해 예측 결과를 생성하는 방식이다. 포괄적이고 고품질의 학습 데이터는 모델이 정확한 예측을 생성할 수 있도록 일관된 원칙을 유지한다.

반면 '독점 모델'은 일반적으로 특정 단체나 기업이 만든 것으로, 설계, 구조 및 알고리즘이 제작자의 지적 재산을 보호하도록 돼 있다. 일반적으로 '오픈소스'와 대치되는 용어로 사용되지만, 중요한 것은 독점 모델 또한 대규모 언어 모델과 근본적으로 다르지 않다는 점이다. 이 용어 핵심은 다른 특성을 강조하는 데 있다.

오픈AI의 GPT-3과 같은 모델은 대규모 언어 모델이자 독점적 사용이 가능하다. 사이버 보안에선 '무가치한 데이터를 넣으면 무가치한 결과가 나온다(GIGO·Garbage in, garbage out)'는 격언이 있다. 예측 모델에 공급되는 데이터의 품질과 큐레이션이 결과에 영향을 미쳐 이상 징후를 정확하게 측정하고, 혁신의 속도를 좌우한다.

데이터 오염을 방지하는 것이 중요한 이유가 여기에 있다. 핵심은 무분별한 데이터 축적을 대신할 세심한 데이터 수집과 큐레이션에 있다. 고품질 데이터 수집에 집중하면 독점 모델이든 오픈소스 모델이든 상관없이 정확도 높은 결과를 보장할 수 있다. 데이터의 양이 모델의 효율성을 결정하는 것이 아니라 데이터의 품질과 관련성이 궁극적인 결정 요인이 된다.

알고리즘 투명성은 알고리즘의 일반적인 작동에 대한 명확성을 요구한다. 예를 들어, 대출 의사 결정 알고리즘은 소득, 신용 점수 등의 고려 요인과 각 요소의 가중치를 명확히 설명해야 한다. 이에 대응하는 알고리즘 책임성은 알고리즘의 결정에 대해 책임지도록 하는 것으로, 특히 결과에 편견이나 차별의 징후가 있을 때는 더욱 그러하다.

잠재적인 위협이나 정책 위반이 있는지 네트워크를 모니터링하는 침입탐지시스템(IDS)에서 머신러닝(ML)을 사용하는 경우, 과거 데이터를 기반으로 위협을 인식한다. 기술 발전에도 불구하고 투명성과 책임성 문제는 여전히 남아 있는 것이다.

즉, 알고리즘 투명성은 IDS 사용자가 의사결정 근거를 이해해야 한다는 것을 의미한다. 위협을 알리는 특징은 무엇인지, 정상 활동과 악성 활동을 어떻게 구분하는지, 정확한 시스템 메커니즘을 공개하는 것은 잠재적 공격자를 도울 수 있으므로 피해야 하지만, 사용자가 시스템을 효과적으로 신뢰하고 탐색할 수 있는 충분한 정보를 가지고 있어야 한다.

알고리즘 책임성은 오탐 또는 미탐 발생에 의문을 제기한다. 이러한 오류는 특히 알고리즘 결함으로 인해 발생하는 경우, IDS 제공업체가 책임을 져야 한다.

여기서 문제는 투명성과 책임성, 그리고 독점적 이익을 보호하는 한편 잠재적 공격자가 부당한 이득을 취하지 못하도록 하는 조치들 사이의 균형을 유지하는 데 있다. 이는 다양한 고려사항과 균형있는 접근 전략을 요구하는 다면적인 작업이다. 신경망과 같은 일부 알고리즘의 의사 결정 과정을 이해하고 독점 정보를 보호하는 데 따르는 기술적 복잡성을 인정하는 것 또한 중요하다. 이러한 어려움에도 불구하고 알고리즘의 투명성과 책임성을 강화하기 위한 노력은 계속돼야 할 것이다.

션 두카 팔로알토네트웍스 아태지역 최고보안책임자 sduca@paloaltonetworks.com

기고