11월 20, 2025
OpenAI는 GPT‑5.1-Codex-Max 코딩 모델을 선보였으며 이미 내부적으로 24시간 작업을 완료했습니다 완벽가이드 소개 핵심 특징 상세 정보 자주 묻는 질문 ...

OpenAI는 GPT‑5.1-Codex-Max 코딩 모델을 선보였으며 이미 내부적으로 24시간 작업을 완료했습니다

인공지능/AI 전문 정보

OpenAI는 GPT‑5.1-Codex-Max 코딩 모델을 선보였으며 이미 내부적으로 24시간 작업을 완료했습니다

OpenAI는 이제 Codex 개발자 환경에서 사용할 수 있는 새로운 프론티어 에이전트 코딩 모델인 GPT‑5.1-Codex-Max를 출시했습니다. 이번 릴리스는 향상된 장거리 추론, 효율성 및 실시간 대화형 기능을 제공하여 AI 지원 소프트웨어 엔지니어링에서 중요한 진전을 이루었습니다. GPT‑5.1-Codex-Max는 이제 Codex 통합 표면 전체에서 기본 모델로 GPT‑5.1-Codex를 대체합니다. 새 모델은 복잡한 리팩터링, 디버깅 워크플로 및 여러 컨텍스트 창에서 프로젝트 규모 작업을 관리할 수 있는 지속적이고 컨텍스트

핵심 특징

고품질

검증된 정보만 제공

빠른 업데이트

실시간 최신 정보

상세 분석

전문가 수준 리뷰

상세 정보

핵심 내용

OpenAI는 이제 Codex 개발자 환경에서 사용할 수 있는 새로운 프론티어 에이전트 코딩 모델인 GPT‑5.1-Codex-Max를 출시했습니다. 이번 릴리스는 향상된 장거리 추론, 효율성 및 실시간 대화형 기능을 제공하여 AI 지원 소프트웨어 엔지니어링에서 중요한 진전을 이루었습니다. GPT‑5.1-Codex-Max는 이제 Codex 통합 표면 전체에서 기본 모델로 GPT‑5.1-Codex를 대체합니다. 새 모델은 복잡한 리팩터링, 디버깅 워크플로 및 여러 컨텍스트 창에서 프로젝트 규모 작업을 관리할 수 있는 지속적이고 컨텍스트가 높은 소프트웨어 개발 에이전트 역할을 하도록 설계되었습니다. 이는 Google이 어제 강력한 새 Gemini 3 Pro 모델을 출시한 직후에 출시되었지만 여전히 주요 코딩 벤치마크에서 이 제품보다 성능이 좋거나 일치합니다. SWE-Bench 검증된 GPT‑5.1-Codex-Max는 매우 높은 추론 노력으로 77.9%의 정확도를 달성하여 Gemini 3 Pro의 76.2%를 뛰어넘었습니다

상세 분석

. 또한 Terminal-Bench 2.0에서는 Gemini의 54.2%에 비해 58.1%의 정확도로 선두를 달리고 있으며 경쟁 코딩 Elo 벤치마크인 LiveCodeBench Pro에서 Gemini의 점수 2,439점과 일치합니다. Gemini 3 Pro의 가장 진보된 구성인 Deep Thinking 모델과 비교했을 때 Codex-Max는 에이전트 코딩 벤치마크에서도 약간의 우위를 점하고 있습니다. 성능 벤치마크: 주요 작업 전반에 걸쳐 점진적인 향상GPT‑5.1-Codex-Max는 다양한 표준 소프트웨어 엔지니어링 벤치마크에서 GPT‑5.1-Codex에 비해 측정 가능한 개선 사항을 보여줍니다. SWE-Lancer IC SWE에서는 GPT‑5.1-Codex의 66.3%보다 크게 향상된 79.9%의 정확도를 달성했습니다. SWE-Bench Verified(n=500)에서는 매우 높은 추론 노력으로 77.9%의 정확도에 도달하여 GPT‑5.1-Codex의 73.7%를 능가했습니다.

정리

Terminal Bench 2.0(n=89)의 성능은 GPT‑5.1-Codex-Max가 GPT‑5.1-Codex의 52.8%에 비해 58.1%의 정확도를 달성하여 다소 개선된 것으로 나타났습니다. 모든 평가는 압축을 통해 실행되었으며 매우 높은 추론 노력이 활성화되었습니다. 이러한 결과는 새 모델이 확장된 추론 부하에서 벤치마크된 정확성과 실제 사용성 모두에서 더 높은 상한선을 제공한다는 것을 나타냅니다. 기술 아키텍처: 압축을 통한 장거리 추론GPT-5.1-Codex-Max의 주요 아키텍처 개선은 압축이라는 메커니즘을 사용하여 확장된 입력-출력 세션에 걸쳐 효과적으로 추론하는 능력입니다. 이를 통해 모델은 컨텍스트 창 제한에 가까워지면 관련 없는 세부 정보를 삭제하면서 주요 컨텍스트 정보를 유지할 수 있으므로 성능 저하 없이 수백만 개의 토큰에 대한 지속적인 작업을 효과적으로 수행할 수 있습니다. 모델은 다단계 리팩터링을 포함하여 24시간 이상 지속되는 작업을 완료하는 것으로 내부적으로 관찰되었습니다.

자주 묻는 질문

Q. 어떤 정보를 제공하나요?

A. 인공지능/AI 관련 최신 정보를 제공합니다.

Q. 신뢰할 수 있나요?

A. 검증된 출처만 선별합니다.

Q. 더 궁금한 점은?

A. 댓글로 문의하세요.

원문 출처

이 글은 원본 기사를 참고하여 작성되었습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다