구글 딥마인드, 제미나이 기반 가상 세계 에이전트 ‘시마2’ 공개
IT/기술 전문 정보
구글 딥마인드가 다양한 3D 가상 환경에서 자유롭게 이동하며 문제를 해결할 수 있는 새로운 비디오게임 에이전트 ‘시마2(SIMA 2)’를 공개했다. 딥마인드는 시마2에 대해 “범용 에이전트와 현실 세계 로봇 개발로 나아가는 중요한 진전”이라고 주장했다. 딥마인드는 지난해 범용 AI 모델 ‘시마’를 처음 선보였다. 그러나 이번에 공개된 시마2는 구글의 대표적인 대형언어모델(LLM) 제미나이를 기반으로 설계돼 성능이 크게 향상됐다. 시마는 ‘확장과 지시가 가능한 멀티월드 에이전트’를 뜻하는 영어 scalable i
핵심 특징
고품질
검증된 정보만 제공
빠른 업데이트
실시간 최신 정보
상세 분석
전문가 수준 리뷰
상세 정보
핵심 내용
구글 딥마인드가 다양한 3D 가상 환경에서 자유롭게 이동하며 문제를 해결할 수 있는 새로운 비디오게임 에이전트 ‘시마2(SIMA 2)’를 공개했다. 딥마인드는 시마2에 대해 “범용 에이전트와 현실 세계 로봇 개발로 나아가는 중요한 진전”이라고 주장했다. 딥마인드는 지난해 범용 AI 모델 ‘시마’를 처음 선보였다. 그러나 이번에 공개된 시마2는 구글의 대표적인 대형언어모델(LLM) 제미나이를 기반으로 설계돼 성능이 크게 향상됐다. 시마는 ‘확장과 지시가 가능한 멀티월드 에이전트’를 뜻하는 영어 scalable instructable multiworld agent의 앞글자를 따서 만든 이름이다. 연구진은 시마2가 가상 세계에서 더 복잡한 작업을 수행하고, 스스로 해결책을 찾아내며, 사용자와 자연스럽게 대화할 수 있다고 소개했다. 또 난도가 높은 과제를 반복적으로 수행하며 시행착오를 통해 스스로 성능을 끌어올리는 능력도 갖췄다고 한다. 조 마리노(Joe Marino) 구글 딥마인드 연구원은 시마2를 소개하는 기자회견에서 “게임은 오랫동안 에이전트 연구를 견인해 온 동력이었다”고 말했다. 그는 이어 “랜턴에 불을 켜는 것처럼 겉보기에는 단순해 보이는 행동조차 여러 단계를 차례로 거쳐야 한다”며 “게임에서 한 걸음 나아가기 위해서는 복잡한 과제를 연달아 해결해야 한다”고 설명했다. 딥마인드의 궁극적 목표는 웹 브라우저보다 훨씬 복잡한 환경에서도 지시를 이해하고, 정해진 정답 없이 다양한 결과로 이어지는 ‘개방형(open-ended)’ 작업을 수행할 수 있는 차세대 모델을 개발하는 것이다. 더 먼 미래에는 이 같은 에이전트를 현실 세계 로봇에 적용하는 구상도 갖고 있다. 마리노는 “시마2가 학습한 환경 탐색, 도구 활용, 인간과의 협업 능력은 미래 로봇 개발을 위한 핵심 요소”라고 강조했다. 이번 접근 방식은 2016년 바둑에서 인간 챔피언을 이긴 알파제로(AlphaZero)나 2019년 스타크래프트2에서 상위 99.8%의 플레이어를 제친 알파스타(AlphaStar)와는 다르다. 시마의 목적은 사전에 설정된 목표를 공략하는 것이 아니라, 인간이 내리는 지시를 이행하고 수행하는 ‘개방형 에이전트’를 만드는 데 있다. 사용자는 텍스트 채팅뿐 아니라 음성 대화나 게임 화면에 직접 그림을 그리는 방식으로도 시마2를 조작할 수 있다. 에이전트는 화면의 픽셀 정보를 프레임 단위로 받아 분석하며, 지시를 수행하기 위해 어떤 행동을 해야 하는지 스스로 판단한다
상세 분석
. 시마2는 전작과 마찬가지로 ‘노 맨즈 스카이(No Man’s Sky)’, ‘고트 시뮬레이터 3(Goat Simulator 3)’를 비롯한 8종의 상용 게임과 딥마인드가 자체 제작한 3개 가상 세계에서 인간 플레이어의 조작 영상을 학습했다. 이를 통해 키보드와 마우스 입력이 실제 행동과 어떻게 연결되는지 익혔다. 제미나이와 결합한 시마2는 사용자 지시를 따르는 과정에서 필요한 질문을 하거나 진행 상황을 보고할 정도로 상호작용 능력이 크게 향상됐다. 더 복잡한 과제도 스스로 해결 방식을 찾아낼 수 있게 됐다. 딥마인드는 시마2를 한 번도 접해본 적 없는 가상 환경에 투입해 성능을 시험했다. 한 실험에서는 주변 정보를 토대로 현실 세계의 역학을 학습하는 구글의 최신 월드 모델(world model) ‘지니3(Genie 3)’에게 완전히 새로운 환경을 생성하도록 하고, 그 안에 시마2를 배치했다. 그 결과 연구진은 에이전트가 낯선 환경에서도 지시를 이해하고 작업을 수행하는 모습을 확인했다. 연구진은 또 제미나이를 이용해 시마2가 해결해야 할 새로운 과제를 생성했다. 시마2가 실패하면 제미나이가 팁을 제공했고, 에이전트는 이를 반영해 같은 과제를 반복해 수행했다. 마리노는 “이런 반복 과정에서 시행착오를 거듭하며 시마2의 성능이 스스로 향상되는 경우가 많았다”고 설명했다. 첫발을 뗀 시마2, 한계는 분명 아직 실험 단계에 있는 시마2는 여러 단계를 거쳐야 하는 복잡한 작업이나 시간이 오래 걸리는 과제에서는 여전히 한계를 드러낸다. 반응 속도를 높이기 위해 연구진이 장기 기억 기능을 일부 제거한 탓에 최근의 상호작용 정도만 기억할 수 있다는 제약도 생겼다. 가상 환경에서 마우스와 키보드를 다루는 숙련도 역시 인간과 비교하면 아직 큰 격차가 있다. 뉴욕대학교에서 창의성과 비디오게임을 연구하는 줄리안 토겔리우스(Julian Togelius) AI 연구원은 이번 성과를 “흥미로운 결과”라고 평가하며 “그동안 단일 시스템이 여러 게임을 동시에 수행하도록 훈련한 시도는 대체로 좋은 성과를 내지 못했다”고 설명했다. 화면에서 들어오는 시각 정보만으로 여러 게임을 제어하는 것 자체가 까다로운 과제이기 때문이란 것이다.
정리
그는 “시각적인 입력만으로 실시간 플레이를 한다는 건 말 그대로 ‘하드 모드’”라고 말했다. 토겔리우스는 특히 딥마인드의 이전 시스템인 ‘가토(GATO)’를 언급했다. 가토는 한때 큰 주목을 받았지만 다양한 가상 환경에 걸쳐 능력을 발휘하는 데 실패한 사례였다. 그는 시마2가 더 나은 로봇 개발로 이어질 수 있을지에 대해서는 신중한 낙관론을 보였다. 그는 “현실 세계는 게임보다 더 어렵고 동시에 더 쉽다”며 “현실에서는 단순히 A 버튼을 눌러 문을 열 수 없기 때문에 더 어렵지만, 로봇은 언제든 자신의 신체가 할 수 있는 행동과 할 수 없는 행동을 정확하게 알고 있다는 점에서 오히려 단순해지는 측면이 있다”고 설명했다. 반면 가상 세계는 게임마다 규칙과 작동 방식이 크게 달라져 에이전트에게 더 까다로운 환경이 될 수 있다. 회의적인 시각도 존재한다. 앨버타대학교의 매튜 구즈다이얼(Matthew Guzdial) AI 연구원은 “시마2가 여러 비디오게임을 수행할 수 있다는 점이 그리 놀랍지 않다”고 말했다. 대부분의 게임이 유사한 키보드 및 마우스 입력 체계를 공유하기 때문이다. 그는 “하나를 배우면 다른 게임에도 적용되는 경우가 많다”며 “입력 방식이 독특한 게임을 주면 제대로 수행하지 못할 것”이라고 지적했다. 구즈다이얼은 또 “시마2가 학습한 능력 중 얼마나 많은 부분이 실제 로봇에 적용될 수 있을지도 의문”이라고 밝혔다. 그는 “현실 세계의 카메라 영상은 게임 화면보다 훨씬 복잡하고 해석하기 어렵다”며 “게임은 인간에게 쉽게 보이도록 설계돼 있지만 현실은 그렇지 않다”고 덧붙였다. 그럼에도 마리노와 동료 연구진은 지니3를 활용한 후속 연구를 이어갈 계획이다. 지니가 새로운 가상 세계를 끊임없이 만들어내고, 시마가 그 안에서 시행착오를 거치며 제미나이의 피드백을 통해 지속적으로 성장하는 일종의 ‘무한 가상 훈련 도장’을 구축하겠다는 구상이다. 마리노는 기자회견에서 “우리는 이제 막 가능성을 확인했을 뿐”이라고 말했다. The post 구글 딥마인드, 제미나이 기반 가상 세계 에이전트 ‘시마2’ 공개 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.
자주 묻는 질문
Q. 어떤 정보를 제공하나요?
A. IT/기술 관련 최신 정보를 제공합니다.
Q. 신뢰할 수 있나요?
A. 검증된 출처만 선별합니다.
Q. 더 궁금한 점은?
A. 댓글로 문의하세요.
원문 출처
이 글은 원본 기사를 참고하여 작성되었습니다.