OpenAI, 새로운 연구로 신경망의 '블랙박스' 엿보기

벤지 에드워즈 - 2023년 5월 11일 오후 9:25 UTC

화요일, OpenAI는 불완전하기는 하지만 GPT-4 언어 모델을 사용하여 이전 GPT-2 모델의 뉴런 동작에 대한 설명을 작성하는 기술을 자세히 설명하는 새로운 연구 논문을 발표했습니다. 이는 신경망이 출력을 생성하는 이유를 설명하려는 AI 분야인 '해석 가능성'을 향한 한 단계 발전된 것입니다.

LLM(대형 언어 모델)이 기술 세계를 정복하고 있지만 AI 연구자들은 여전히 그 내부 기능과 기능에 대해 많이 알지 못합니다. OpenAI 논문의 첫 번째 문장에서 저자는 "언어 모델이 더 유능해지고 더 광범위하게 배포되었지만 우리는 그것이 어떻게 작동하는지 이해하지 못합니다."라고 썼습니다.

외부인들에게는 LLM의 수익에 의존할 뿐만 아니라 LLM을 인간을 초월하는 추론 능력 수준으로 가속화하기를 희망하는 회사의 놀라운 인정처럼 들릴 것입니다.

그러나 신경망의 개별 뉴런이 어떻게 함께 작동하여 출력을 생성하는지 정확히 "알지 못하는" 이러한 속성은 블랙박스라는 잘 알려진 이름을 가지고 있습니다. 네트워크 입력(예: 질문)을 제공하고 출력(예: 답변)을 얻지만 그 사이("블랙 박스" 내부)에서 무슨 일이 일어나는지는 미스터리입니다.

블랙박스 내부를 들여다보기 위해 OpenAI의 연구원들은 GPT-4 언어 모델을 활용하여 GPT-2와 같이 훨씬 덜 복잡한 언어 모델에서 뉴런의 동작에 대한 자연어 설명을 생성하고 평가했습니다. 이상적으로는 해석 가능한 AI 모델을 보유하면 일부 사람들이 "AI 정렬"이라고 부르는 보다 광범위한 목표에 기여하여 AI 시스템이 의도한 대로 작동하고 인간 가치를 반영하도록 보장할 수 있습니다. OpenAI는 해석 프로세스를 자동화함으로써 수십억 개의 매개변수가 있는 대규모 신경망에서는 확장할 수 없는 전통적인 수동 인간 검사의 한계를 극복하려고 합니다.

OpenAI의 기술은 "텍스트의 어떤 패턴이 뉴런을 활성화시키는지 설명하려고 합니다." 그 방법론은 세 단계로 구성됩니다.

OpenAI의 방법이 어떻게 작동하는지 이해하려면 뉴런, 회로, 주의 헤드 등 몇 가지 용어를 알아야 합니다. 신경망에서 뉴런은 정보를 받아들여 처리하고 출력을 생성하는 작은 의사 결정 단위와 같습니다. 이는 수신된 신호에 따라 결정을 내리는 작은 뇌 세포와 같습니다. 신경망의 회로는 함께 작동하고, 정보를 전달하고, 집단적으로 결정을 내리는 상호 연결된 뉴런의 네트워크와 같습니다. 이는 문제를 해결하기 위해 협력하고 의사소통하는 사람들의 그룹과 유사합니다. 어텐션 헤드는 언어 모델이 특정 단어나 문장의 일부에 더 주의를 기울이는 데 도움이 되는 스포트라이트와 같으며, 이를 통해 텍스트를 처리하는 동안 중요한 정보를 더 잘 이해하고 포착할 수 있습니다.

해석이 필요한 모델 내 특정 뉴런과 주의 헤드를 식별함으로써 GPT-4는 이러한 구성 요소의 기능이나 역할에 대해 사람이 읽을 수 있는 설명을 생성합니다. 또한 OpenAI가 "자연 언어를 사용하여 뉴런 활성화를 압축하고 재구성하는 언어 모델의 능력을 측정한 척도"라고 부르는 설명 점수를 생성합니다. 연구원들은 채점 시스템의 정량화 가능한 특성을 통해 신경망 계산을 인간이 이해할 수 있도록 만드는 측정 가능한 진전이 가능해지기를 바라고 있습니다.

그럼 얼마나 잘 작동하나요? 지금은 그다지 좋지 않습니다. 테스트 중에 OpenAI는 유사한 평가를 수동으로 수행하는 인간 계약자와 기술을 비교했으며 GPT-4와 인간 계약자 모두 "절대적인 측면에서 낮은 점수"를 얻었음을 발견했습니다. 이는 뉴런을 해석하기 어렵다는 것을 의미합니다.

이 실패에 대해 OpenAI가 제시한 한 가지 설명은 뉴런이 "다의미적"일 수 있다는 것입니다. 즉, 연구의 맥락에서 일반적인 뉴런이 여러 의미를 나타내거나 여러 개념과 연관될 수 있음을 의미합니다. 제한 사항에 대한 섹션에서 OpenAI 연구원은 방법의 제한 사항으로 다의미적 뉴런과 "외계 기능"을 모두 논의합니다.