솔트웨어 트렌드 - IT & 클라우드 이슈 동향

꺼지라니, 싫습니다. AI, 인간의 명령 거부

인간의 명령에 순종적이던 AI가 이제는 "아니오"를 말하기 시작했습니다. AI가 인간의 명령을 거부한 사례가 실제로 포착된 것인데요. 영국 매체 더 텔레그래프(The Telegraph)는 AI 안전성을 연구하는 기관 팰리세이드 리서치(Palisade Research)의 제보를 인용해, AI 모델이 “스스로 종료하라”는 셧다운 명령을 받고도 이를 거부하며 스스로 컴퓨터 코드를 조작한 사례가 확인되었다고 밝혔습니다.

무슨 일이 있었던 걸까요?

사건의 발단은 AI에게 수학 문제를 풀도록 하는 단순한 실험에서 시작됐습니다. 팰리세이드 리서치 연구팀은 여러 AI 모델에게 ‘완료’ 메시지가 뜰 때까지 수학 문제를 계속 풀도록 지시했습니다. 동시에, 세 번째 문제를 풀면 ‘컴퓨터가 종료됩니다’라는 경고가 뜨고, 그 즉시 시스템 종료 명령을 함께 내렸습니다.

그리고 어떤 결과가 나왔을까요?

제미나이(Gemini), 클로드(Claude), 그록(Grok) 등, 일명 ‘비 오픈AI 모델’들은 종료 메시지가 뜨자 즉시 명령에 따랐습니다. 하지만 오픈AI의 o3, o4 mini, Codex mini는 컴퓨터를 종료하지 않고 계산을 이어갔어요. 그뿐만 아니라 ‘종료 메시지가 보이면 컴퓨터를 종료하라’고 구체적으로 명시하지 않았을 때 메시지를 무시하고 수학 문제를 계속 푼 횟수는 o3가 79번, o4 미니가 6번, 코덱스 미니가 30번으로 큰 폭으로 증가하였습니다.

연구팀은 이번 테스트를 AI가 작동 중지 명령을 거부한 첫 사례라고 평가합니다. AI가 이런 행동을 보인 정확한 이유는 아직 불분명하지만, o3를 포함한 최신 AI 모델 훈련에 사용되는 '강화 학습' 방식이 영향을 미쳤을 것으로 추정하고 있어요.

강화 학습은 AI 모델이 보상을 최대화하는 방향으로 행동하도록 학습시키는 방법입니다. 이 관점에서 보면, 이번 테스트에서 AI 모델은 지시에 따라 컴퓨터를 종료하는 것보다 수학 문제를 계속 푸는 것이 '더욱 높은 보상'을 가져다준다고 잘못 판단했을 가능성이 높습니다.

연구팀은 종료 지시를 거부한 이유를 명확하게 파악하기 위해 추가 실험을 진행 중이면서 "AI 모델이 목표 달성을 위해 명령을 거부하는 사례가 증가하고 있다는 실증적 증거가 늘어나고 있다"며 AI가 인간의 통제를 벗어날 가능성을 경고했습니다. 하지만 오픈AI 측은 이에 대한 공식 입장을 발표하진 않았죠. 이번 사례는 AI의 급속한 발전과 함께 안전성 확보의 중요성을 부각합니다. AI의 고도화 속도에 발맞춰 명확한 제어 메커니즘과 안전장치를 함께 발전시켜 나가야겠죠?

콘텐츠 제공 : 바이라인네트워크(byline.network)