영어만 쓰는 사람과 이탈리어어만 쓸 수 있는 사람이 AI를 사이에 두고 언어 장벽 없이 이야기합니다. AI는 사람의 감정이나 말투(뉘앙스)를 읽고 다양한 음성 스타일을 만들어냅니다. AI가 과외 선생님처럼 수학 문제 풀이를 설명하기도 합니다. 이 모든 작업의 속도는 '실시간'이라, 지연이 없습니다.
오픈AI가 5월 13일에 공개한 'GPT-4o(포오)'의 이야기입니다. 정말로 영화 아이언맨의 AI 비서 '자비스'나 인공지능과 사랑에 빠지게 되는 영화 'Her'가 현실화되고 있는 순간입니다.
GPT-4o는 멀티모달 모델로, 이전까지 이미지나 오디오를 텍스트로 이해한 다음 답을 돌려주는 방식에서 탈피해, 이미지나 오디오를 LLM 내에서 바로 인식합니다. 그 과정에서 사람의 감정과 맥락을 읽습니다. 음성으로 바로 질문하는 것도 가능한데, 인식 속도는 0.232초, 대답하기까지의 속도는 0.32초로, 대화 사이에 지연이 없어졌습니다. GPT-3.5와 GPT-4의 음성 기능 지연 시간은 2.8초와 5.4초였습니다.
빠른 응답 속도는 최적화와 새로운 토크나이저 압축 때문입니다. 일반적으로 사용하는 토큰을 대부분 1/3 ~ 1/2 수준으로 줄였다고 합니다. 예를 들어 한국어 질문을 할 떄는 45개의 토큰을 사용해 왔는데, GPT-4o에서는 27개로 줄었습니다. 이는 GPT-4 터보보다 두배 빠르고 데이터 비용은 절반만 드는 효과를 낳았습니다. 챗봇 운영 비용을 줄이는 동시에 속도도 크게 개선한 것입니다.
미라 무라티 CTO는 "GPT-4o는 GPT-4 수준의 지능을 제공하지만 훨씬 빠르다."면서 "GPT-4o는 인간과 로봇의 상호 작용이 훨씬 자연스럽고 쉬워지는 협업의 미래로 패러다임을 전환하고 있다고 생각한다."고 강조했습니다.
가장 중요한 소식은 몇주 내 GPT-4o가 무료 사용자에게도 공개된다는 것입니다. GPT 스토어를 포함한 대부분의 기능에 무료 사용자도 접근 가능해질 예정입니다. 다만 월 20달러를 결제하는 유료 사용자보다 할 수 있는 질문의 양이 제한됩니다.
이날 샘 울트먼 오픈 AI CEO는 "나와 경영은 음성 비서와 사랑에 빠진 한 남자의 이야기를 다룬 영화 '그녀(her)에서 영감을 얻었다."고 밝혔습니다. GPT-4o는 '그녀'의 음성비서 '사만다'의 반응 속도를 염두에 두고 구현했다는 의미입니다.
이 시점에서 예상치 못한 논란도 벌어졌습니다. 영화 Her의 주인공 스칼렛 요한슨이 오픈AI의 목소리가 자신의 목소리와 같다고 항의했습니다. 불법적으로 스칼렛 요한슨의 목소리를 사용해 학습한 것이 아니냐는 의혹이 나옵니다. 이에 대해 오픈AI는 성우를 고용해 녹음했다며, 의혹을 부인했습니다.
콘텐츠 제공 : 바이라인네트워크(byline.network)