Google Cloud Next 2025_TOP.png

구글 클라우드 넥스트 2025 : AI 역량 과시

올해도 ‘구글 클라우드 넥스트 2025’가 개최되었습니다. 기업 고객을 대상으로 다양한 IT 신제품과 클라우드 서비스를 선보이는 이 자리는 마이크로소프트의 ‘이그나이트’, 하반기에 진행되는 아마존웹서비스(AWS) ‘리인벤트’보다도 앞서 열리면서 본격적인 클라우드 경쟁의 서막을 알리는 무대가 되고 있습니다.

올해 구글 클라우드 넥스트 행사의 화두는 단연 인공지능(AI)이었습니다 인프라부터 최상위 AI 에이전트에 이르기까지 전 계층에 걸친 다양한 발표가 이어졌는데요. 기업 운영의 핵심에 AI가 자리 잡기 시작한 이 시점에서, 구글 클라우드는 AI를 기업 시스템 전반에 구현하는 전략에 어떻게 초점을 잡고 있을까요?

■ ‘제미나이2.5 플래시’ AI 성능과 효율성의 정점을 향해

구글 클라우드는 ‘제미나이 2.5 플래시’와 ‘제미나이 2.5 프로’ 두 가지 모델을 제공하고 있습니다. 이 가운데 ‘제미나이 2.5 플래시’는 구글의 가장 비용 효율적인 사고(reasoning) 모델로, 주요 경쟁 모델과 유사한 성능을 유지하면서도 더 저렴한 비용과 가벼운 크기를 갖춘 것이 특징이에요. 프리뷰 버전의 가격은 입력 토큰 100만 개당 0.15달러, 출력 토큰 100만 개당 0.60달러(사고 기능 비활성 시), 토큰 100만 개당 3.50달러(사고 기능 활성 시)로 책정됐습니다.

제미나이 2.5 플래시는 구글 클라우드가 AI 모델의 적용 범위를 확대하려는 전략의 일환입니다. 제어할 수 있는 추론 기능과 비용 효율성을 갖춘 이 모델은, 대규모 처리량과 낮은 지연 속도를 바탕으로 중요한 고객 서비스, 실시간 요약, 챗봇, 데이터 추출 등의 엔터프라이즈 애플리케이션에 적절하게 활용될 수 있습니다.

또한 ‘사고 예산(Thinking Budget)’ 기능을 제공하는데요. 개발자는 토큰 단위(플래시의 경우 0~24,576 토큰)로 예산을 설정하고 그에 따른 추론 프로세스를 제한할 수 있습니다. 응답 품질, 지연 시간, 비용 간의 균형을 관리할 수 있게 한 거죠. 프롬프트의 복잡성에 따라 동적으로 사고량을 조절할 수도 있습니다.

초기 LLM은 모델별로 고정된 기능을 제공했지만, 제미나이 2.5 플래시의 ‘사고 예산’ 기능은 단순히 모델 크기를 선택하는 수준을 넘어, 실행 시점에서 비용, 성능, 지연 시간 간의 균형을 동적으로 세밀하게 제어하여 리소스 소비를 유연하게 조절할 수 있습니다. 이는 운영 관리 비용이 AI 도입에 있어 더욱 중요해지고 있는 시장의 요구를 반영한 결과라고 할 수 있어요.

■ AI 추론, 7세대 TPU로 새로운 도약

구글 클라우드는 오랜 시간 AI 모델 학습과 추론을 위해 전용 프로세서와 인프라를 꾸준히 개발해 왔습니다. 올해는 기존의 학습 중심 인프라에서 한 단계 발전해, AI 활용에 중점을 둔 인프라 구축에 집중하고 있어요.

Google Cloud Next 2025_1

그중 하나로 7세대 TPU인 ‘아이언우드(TPU v7p)’를 공개했습니다. 아이언우드는 추론(Inference) 워크로드에 최적화된 AI 가속 프로세서입니다. 초기 TPU보다 3,600배 높은 성능을 구현했어요. 단일 프로세서는 4,614 테라플롭스(TFLOPs)의 최고 연산 능력을 제공합니다. 칩당 192GB의 고대역폭메모리(HBM) 용량과 7.37TBps의 HBM 대역폭을 지원합니다. 칩 간 상호연결(ICI) 대역폭도 양방향 12.TBps로 향상되었고, 6세대 TPU인 트릴리움(Trilium) 대비 와트당 성능이 두 배 향상되었습니다.

아이언우드는 최대 9,216개의 수랭식 칩으로 구성된 대규모 포드(POD)로 확장할 수 있으며, 포드당 42.5 엑사플롭스(Exaflops)의 연산 능력을 제공할 수 있습니다. 이전 세대 대비 열 배 이상 성능이 향상되었습니다. 그뿐만 아니라 이러한 성능을 제공하면서도 전력 소비는 약 10메가와트(MW) 수준에 불과해, 전력 효율성까지 갖춘 설계입니다.

소프트웨어도 추론 워크로드에 최적화했습니다. 일단 구글 자체 머신러닝 런타임인 ‘패스웨이(Pathways)’를 공개하고, 최적의 비용으로 탁월한 성능과 동적 확장을 위한 최첨단 다중 호스트 추론 기능을 활용하게 했습니다.

아이언우드를 추론에 특화된 프로세서로 설계하고, GKE 추론 게이트웨이와 vLLM의 TPU 지원 등 소프트웨어 개선을 함께 내놓은 것은, 추론이 앞으로 AI 인프라의 효율성과 비용 경쟁에서 핵심 전장이 될 것이라는 구글 클라우드의 판단이 반영된 것 같네요.

■ 모두를 위한 AI 에이전트 도구, 에이전트를 위한 프로토콜

구글 클라우드는 모델과 인프라에 이어 ‘에이전틱 AI’를 핵심 영역으로 삼고 있습니다. 이번 행사에서는 개발자와 비즈니스 사용자가 AI 에이전트를 직접 생성하고 관리하며 배포할 수 있도록 지원하는 다양한 기능들이 소개됐습니다.

Google Cloud Next 2025_2

‘구글 에이전트스페이스(Google Agentspace)’는 모든 직원에게 AI 에이전트와 기업 지식을 제공하도록 설계된 엔터프라이즈 플랫폼입니다.

‘에이전트 갤러리’ 기능을 통해 직원들은 구글, 내부 팀 또는 파트너가 구축한 다양한 AI 에이전트를 중앙에서 검색하고 활용할 수 있습니다. 노코드(No-code)기반의 AI 구축 도구인 ‘에이전트 디자이너’ 기능을 활용하면 기술적 전문성이 낮아도 데이터 소스에 연결하고 작업을 자동화하여 자신의 워크플로우에 맞는 맞춤형 에이전트를 만들 수 있어요.

엔터프라이즈 통합 기능으로 크롬 브라우저 검색창에서 바로 에이전트스페이스 검색 및 리소스에 접근할 수 있죠. 또한 ‘심층 연구(Deep Research)’ 나 ‘아이디어 생성(Idea Generation)’ 같은 전문 에이전트도 활용할 수 있습니다.

또한 개발자를 위해 ‘에이전트 개발 키트(ADK)’를 공개했습니다. 단일, 또는 다중 에이전트 시스템의 엔드투엔드(End-to-end) 개발을 단순화하도록 설계한 새로운 오픈소스 프레임워크입니다. 에이전트 행동 정의, 오케스트레이션, 인간과 유사한 상호작용(양방향 오디오/비디오 스트리밍), 테스트, 디버깅, 배포를 위한 도구를 제공합니다.

구글 클라우드는 기업 내외의 다양한 에이전트 간 협업을 고려한 멀티 에이전트 협업 표준 규약인 ‘에이전트-투-에이전트(Agent2Agent, A2A) 프로토콜’을 공개했습니다. A2A 프로토콜은 개방형 표준으로, 에이전트가 기본 기술에 상관없이 다양한 엔터프라이즈 플랫폼에서 안전하게 기능을 검색하고, 정보를 교환하며, 작업을 조율할 수 있도록 공통 언어를 제공하는 것이 목적입니다. 구글 클라우드는 현재 이 이니셔티브에 50개 이상의 업계 리더들과 협력하고 있다고 밝혔습니다.

AI 에이전트와 관련된 발표는, 단일 AI 모델 중심에서 벗어나 전문화하고 협력하는 AI 에이전트 생태계를 주도하겠단 의도를 보여줍니다. 현재 AI 상호작용은 주로 챗봇 위주의 단일 모델에 집중되어 있지만, 기업의 복잡한 업무는 다양한 시스템 접근과 여러 단계의 전문 지식을 요구하죠. 구글 클라우드는 이러한 요구에 대응해 ‘멀티 에이전트 시스템’을 일찍부터 강조해 왔으며, 에이전트의 구축부터 관리, 협업까지 포괄하는 다양한 도구를 제공하고 있습니다.

■ 오즈의 마법사와 라스베이거스 스피어

이번 행사에는 기술뿐 아니라 감성을 자극하는 순간도 있었습니다. 구글 클라우드는 행사 전야제에서 고전 영화 ‘오즈의 마법사’를 재해석한 작품을 라스베이거스의 스피어에서 상영했습니다. 스피어 엔터테인먼트, 미그노퍼스, 워너브라더스 디스커버리 등과 협력해, 오즈의 마법사를 공연장에 최적화된 몰입형 콘텐츠로 새롭게 선보였죠.

재해석된 오즈의 마법사는 생성형 AI 기술이 어디까지 발전했는지를 보여주며, 현재의 가능성과 미래의 방향을 함께 제시합니다. 구글 딥마인드의 제미나이, 이마젠3, 비오2와 같은 미세 조정된 미디어 생성 모델을 통해, 하나의 작은 화면이 몰입형 공간 전체로 확장될 수 있게 되었어요.

공개된 작품은 원본 자료를 바탕으로 새로운 화면을 창조했지만, 새로운 대사나 음악은 추가하지 않았습니다. 어떻게 가능했을까요? AI 아웃페인팅 기술을 활용해 원본 프레임을 확장하고 장면 간의 간극을 자연스럽게 메움으로써, 기존 촬영과 편집의 한계를 넘어서는 끊김 없는 몰입형 시야를 구현한 것입니다.

기존 CGI로는 구현이 어렵거나 시간과 비용이 많이 드는 원본 캐릭터의 연기 또한 디지털 방식으로 재현해 확장된 환경에 자연스럽게 합성했습니다. 구글 클라우드는 기존의 대본, 사진, 세트 도면 등 아카이브 자료들을 바탕으로 TPU와 GKE를 포함한 AI 최적화 인프라와 1.2페타바이트에 달하는 방대한 데이터 처리와 고도화된 렌더링 요구를 지원하며 정확도를 높이는 데 큰 역할을 했습니다.

Google Cloud Next 2025_3

이번 협업은 구글 클라우드와 딥마인드의 기술력에 콘텐츠 기업과 전문가의 역량이 결합할 때 어떤 성과가 가능한지를 잘 보여주었습니다. 엔터테인먼트 산업의 새롭고 창의적인 도전에 직면한 구글과 구글 클라우드는, 필요한 순간마다 새로운 도구를 직접 개발했다고 전했습니다. AI가 단순한 업무 자동화를 넘어, 전혀 새로운 방식의 창작과 관객 경험을 가능하게 하는 강력한 잠재력을 지니고 있음을 시사합니다.

 

콘텐츠 제공 : 바이라인네트워크(byline.network)

 
 
구독하기 버튼