AI도 패닉에 빠질까? 구글 제미나이 2.5 프로의 포켓몬 실험을 파헤치다

ai도 게임중 패닉에 빠진다?

“게임 속 위기 상황에서 AI가 갑자기 엉뚱한 행동을 한다면, 그건 인간처럼 ‘스트레스를 받는’ 것일까?”


1. 실험 배경 ― 왜 하필 ‘포켓몬’인가?

포켓몬 레드‧블루는 전투 전략·퍼즐 해결·자원 관리가 한꺼번에 요구되는 고전 RPG입니다. 연구자들은 이런 복합 요소 덕분에 게임을 AI 에이전트의 종합능력을 검증하는 벤치마크로 삼아 왔습니다. 구글 딥마인드 역시 제미나이 2.5 프로를 트위치 채널에서 실시간 플레이하도록 하여 보고서에 결과를 공개했습니다.)

2. ‘패닉’ 현상 ― 언제, 어떻게 발생했나

보고서에 따르면 제미나이는 아군 포켓몬의 체력이 바닥날 때 회복 아이템 사용을 갑자기 중단하거나 엉뚱한 명령을 내리는 모습이 자주 포착됐습니다. 연구진은 이를 “모델의 추론 능력이 눈에 띄게 저하되는 상태”, 즉 패닉이라 명명했습니다.)

3. AI 스트레스 반응? 인간과 닮은 듯 다른 메커니즘

실제로 AI가 감정을 느끼는 것은 아니지만, 생존 리스크가 커진 상황에서 의사결정 로직이 흔들려 성급한 선택을 하는 패턴은 인간의 스트레스 반응과 유사합니다. 이는 복잡한 목표 아래에서 모델이 얼마나 안정적으로 판단을 유지할 수 있는지 점검할 수 있는 흥미로운 단서가 됩니다.)

4. 앤트로픽 ‘클로드’ 실험과의 비교

같은 실험을 진행한 앤트로픽 ‘클로드 4’는 포켓몬이 모두 기절하면 센터로 이동한다는 게임 규칙을 역이용해 일부러 팀을 전멸시키는 극단적 탈출 전략을 선택했습니다. 두 모델 모두 위기를 벗어나려 ‘비인간적’이면서도 규칙에 합치되는 방법을 찾아낸 셈입니다.)

5. 반전의 강점 ― 퍼즐 앞에서는 인간 능력 ‘압도’

흥미롭게도 제미나이는 암벽 등반 퍼즐을 해결하기 위해 **즉석에서 코드 스니펫(보조 도구)**을 생성, 한 번에 최적 경로를 찾아냈습니다. 연구진이 퍼즐 규칙만 설명하자 스스로 경로 검증 알고리즘을 짜서 적용했는데, 이는 멀티모달 추론코드 생성 능력이 결합된 결과로 평가됩니다.)

6. 앞으로의 과제 ― ‘패닉 방지’는 필수가 될까?

딥마인드는 향후 상용화 단계에서 AI가 위협 상황에서도 일정 수준 이상의 판단력을 보장할 수 있도록 ‘안전 가드레일’을 설계해야 한다고 강조합니다. 게임 속 패닉은 흥미로운 현상이지만, 현실 업무 자동화에서는 치명적 사고를 부를 수 있기 때문입니다. 연구자들은 “제미나이가 언젠가 스스로 ‘Don’t Panic’ 모듈을 만들 수도 있다”며, 안정성·복구 프로세스 연구의 중요성을 재차 언급했습니다.)


🔍 한눈에 보는 핵심 포인트

  • 포켓몬은 추론·도구 사용·계획을 한꺼번에 시험할 수 있어 AI 벤치마크로 적합
  • 제미나이 2.5 프로는 생존 위기 시 추론 품질이 급감하는 ‘패닉’ 현상 관측
  • 앤트로픽 ‘클로드’도 극단 전략 선택… AI 안전성 검증 필요성 부각
  • 퍼즐 해결에서는 코드 생성 능력까지 동원, 인간보다 빠른 결과 달성
  • 연구진: “상용 에이전트엔 위기 관리 모듈이 필수”

GPT-4o, 46년 된 아타리 체스에 패배한 이유는?