DeepSeek, 차세대 R2 모델 신호, SPCT를 통한 스케일링 추론에 대한 새로운 접근 방식 공개 완벽가이드
DeepSeek, 차세대 R2 모델 신호, SPCT를 통한 스케일링 추론에 대한 새로운 접근 방식 공개
인공지능/AI 전문 정보
대규모 언어 모델 분야의 저명한 플레이어인 DeepSeek AI는 최근 추론 단계에서 일반 보상 모델(GRM)의 확장성을 향상시키는 것을 목표로 하는 새로운 기술을 자세히 설명하는 연구 논문을 발표했습니다. 동시에 회사는 차세대 모델인 R2의 출시가 임박했음을 암시하며 AI 커뮤니티 내에서 기대감을 불러일으켰습니다. “일반 보상 모델링을 위한 추론 시간 확장”이라는 제목의 이 논문에서는 GRM이 원칙과 비평을 동적으로 생성하여 보상 생성을 최적화할 수 있는 새로운 방법을 소개합니다. 이는 거부 미세 조정 및 규칙 기반 온라인 강화
핵심 특징
고품질
검증된 정보만 제공
빠른 업데이트
실시간 최신 정보
상세 분석
전문가 수준 리뷰
상세 정보
핵심 내용
대규모 언어 모델 분야의 저명한 플레이어인 DeepSeek AI는 최근 추론 단계에서 일반 보상 모델(GRM)의 확장성을 향상시키는 것을 목표로 하는 새로운 기술을 자세히 설명하는 연구 논문을 발표했습니다. 동시에 회사는 차세대 모델인 R2의 출시가 임박했음을 암시하며 AI 커뮤니티 내에서 기대감을 불러일으켰습니다. “일반 보상 모델링을 위한 추론 시간 확장”이라는 제목의 이 논문에서는 GRM이 원칙과 비평을 동적으로 생성하여 보상 생성을 최적화할 수 있는 새로운 방법을 소개합니다. 이는 거부 미세 조정 및 규칙 기반 온라인 강화 학습을 통해 달성됩니다[1-1]. 이러한 개발은 OpenAI의 o1과 같은 모델의 출현에 따라 LLM 확장 패러다임이 사전 훈련 단계에서 사후 훈련, 특히 추론 단계로 전환되는 시기에 이루어졌습니다.
상세 분석
이 접근 방식은 증가된 강화 학습(훈련 중 계산 노력)과 보다 광범위한 “사고 시간”(테스트 중 계산 노력)을 활용하여 모델 성능을 지속적으로 향상시킵니다. 특히 o1은 사용자에게 응답하고, 추론 프로세스를 개선하고, 다양한 전략을 탐색하고, 자체 오류를 식별하기 전에 긴 내부 사고 체인을 생성합니다. DeepSeek의 자체 R1 모델 시리즈는 순수 강화 학습 훈련(지도 미세 조정에 의존하지 않음)의 잠재력을 더욱 검증하여 LLM 추론 기능을 크게 향상시켰습니다. LLM의 기본 “다음 토큰 예측” 메커니즘은 방대한 지식을 제공하지만 심층적인 계획과 장기적인 결과를 예측하는 능력이 부족하여 근시안적인 결정에 취약한 경우가 많습니다. 강화 학습은 LLM에 “내부 세계 모델”을 제공하는 중요한 보완 역할을 합니다.
정리
이를 통해 다양한 추론 경로의 잠재적 결과를 시뮬레이션하고, 이러한 경로의 품질을 평가하고, 우수한 솔루션을 선택할 수 있어 궁극적으로 보다 체계적인 장기 계획을 세울 수 있습니다. LLM과 RL 간의 시너지 효과는 복잡한 문제를 해결하는 능력을 향상시키는 핵심으로 점점 더 인식되고 있습니다. Tsinghua 대학의 학제간 정보 과학 연구소(IIIS)의 조교수인 Wu Yi는 최근 팟캐스트에서 LLM과 강화 학습 간의 관계를 “곱하기 관계”에 비유했습니다. 강화 학습은 의사 결정에 탁월하지만 본질적으로 이해가 부족합니다. 이해의 구성은 사전 훈련된 모델에 의존하며, 이를 바탕으로 강화 학습은 의사 결정 기능을 더욱 최적화할 수 있습니다.
자주 묻는 질문
Q. 어떤 정보를 제공하나요?
A. 인공지능/AI 관련 최신 정보를 제공합니다.
Q. 신뢰할 수 있나요?
A. 검증된 출처만 선별합니다.
Q. 더 궁금한 점은?
A. 댓글로 문의하세요.
원문 출처
이 글은 원본 기사를 참고하여 작성되었습니다.