트랜스포머 이후 가장 중요한 논문이 나왔다
IT/기술 전문 정보

2017년 구글의 <주의가 전부다(Attention Is All You Need)> 논문이 트랜스포머 구조를 제시하며 대형언어모델(LLM) 시대의 시작을 알렸다면, 2025년 11월 1일 중국 스타트업 문샷 AI가발표한 <키미 리니어(Kimi Linear)>는 AI 에이전트 시대의 기술적 대전환을 보여주는 논문으로 기록될 전망이다. <키미 리니어> 논문은 AI 모델 설계 패러다임 자체를 바꿨다는 점에서 의미가 크다. 지금까지의 트랜스포머 기반 LLM은 모든 정보를 동일한 방식으로 처리하는 ‘풀 어텐션
핵심 특징
고품질
검증된 정보만 제공
빠른 업데이트
실시간 최신 정보
상세 분석
전문가 수준 리뷰
상세 정보
핵심 내용
2017년 구글의 <주의가 전부다(Attention Is All You Need)> 논문이 트랜스포머 구조를 제시하며 대형언어모델(LLM) 시대의 시작을 알렸다면, 2025년 11월 1일 중국 스타트업 문샷 AI가발표한 <키미 리니어(Kimi Linear)>는 AI 에이전트 시대의 기술적 대전환을 보여주는 논문으로 기록될 전망이다. <키미 리니어> 논문은 AI 모델 설계 패러다임 자체를 바꿨다는 점에서 의미가 크다. 지금까지의 트랜스포머 기반 LLM은 모든 정보를 동일한 방식으로 처리하는 ‘풀 어텐션(full attention)’ 구조의 제약에서 벗어나지 못했다. 반면 키미 리니어 모델은 중요한 정보만 선택적으로 기억하고 나머지는 효율적으로 잊는 채널별 망각 게이트((channel-wise gating) 구조를 도입해 이를 하이브리드 방식으로 구현함으로써 속도와 성능을 동시에 극대화했다. 그 결과 100만 개 단어(토큰)를 생성할 때, 구글이 제시한 트랜스포머 구조 기반의 기존 풀 어텐션 모델보다 6배 빠르고 메모리 사용량은 최대 75% 적다. 이는 장문 처리와 에이전트 운영의 효율뿐만 아니라, 모델이 정보를 저장하고 활용하는 방식의 변화를 보여준다. 논문이 던지는 질문은 ‘앞으로의 AI가 어떤 구조로 진화할 것인가’이다. 이는 본문에서 살펴볼 논의의 출발점이기도 하다. 트랜스포머의 성공 그리고 한계 2017년 구글이 제시한 트랜스포머 구조는 간단하지만 강력했다. 문장 속 모든 단어가 서로를 참조하며 관계를 계산하는 방식으로 의미를 이해했다. 마치 30명 학급에서 모든 학생이 서로 눈을 맞추며 “너 이해했어?”라고 확인하는 것과 비슷하다. 이 풀 어텐션 방식 덕분에 GPT, 클로드, 라마 같은 LLM이 탄생했다. 하지만 한계도 뚜렷했다. 계산량이 문장 길이의 제곱에 비례해 급격히 늘어난다는 점이다. 가령, 문장이 100개 단어로 구성되어 있다면 100×100, 즉 1만 번의 비교가 필요하다. 1,000개 단어라면 100만 번 비교해야 한다. 최근 AI 에이전트들은 수십만 개의 토큰을 처리해야 하는데, 100만 단어를 처리하려면 1조 번 이상의 비교가 필요하다. 아무리 빠른 컴퓨터라도 현실적으로 수행하기 어려운 수준이다.AI 업계는 이 문제를 해결하려 애썼다. 2020년 경에는 안젤로스 카타로풀로스(Angelos Katharopoulos) 등 유럽 연구진이 리니어 어텐션(linear attention)이라는 대안을 제시하기도 했다. 모든 단어를 비교하는 대신, 핵심 정보만 압축해서 저장하는 방식이다. 30명이 전부 눈 맞추는 것이 아니라 반장 한 명이 요약본을 들고 있다가 필요할 때 꺼내 보는 식이다. 계산량이 문장 길이에 정비례해 엄청나게 빠르다.하지만 초기 리니어 어텐션은 치명적 결함이 있었다. 요약본만 보다 보니 디테일을 놓쳐 정확도와 성능이 떨어졌다. 이후 연구자들은 개선을 시도했다. 2023년 앨버트 구(Albert Gu)와 트라이 다오(Tri Dao)는 맘바(Mamba)를 발표하며 선택적 기억 메커니즘을 도입했고, 2024년 양 송린(Yang Songlin) 연구진은 게이티드 리니어 어텐션(GLA)으로 게이트 방식을 개선했다. 하지만 여전히 풀 어텐션만큼의 성능은 나오지 않았다.AI 업계는 딜레마에 빠졌다. 느리지만 정확한 풀 어텐션을 사용할 것인가, 빠르지만 다소 성능이 낮은 리니어 어텐션을 선택할 것인가. 11월 문샷 AI가 공개한 <키미 리니어> 논문은 이 딜레마를 정면으로 돌파하며 새로운 기준을 제시했다. 키미 델타 어텐션, 128개 서랍장의 정교한 기억술 문샷 AI는 2023년 중국 베이징에서 설립됐다
상세 분석
. 창업자 양 즈린(Yang Zhilin)은 카네기멜론대학교 출신으로 자연어 처리(NLP) 분야에서 손꼽히는 연구자다. 그가 이끄는 연구진은 긴 텍스트 처리에 특화된 키미챗(Kimi Chat)으로 중국 시장에서 주목을 받아왔고, 이번에 공개한 키미 리니어 모델은 그들의 기술력을 집대성한 결과물로 평가된다. 문샷AI 로고 키미 리니어 모델의 핵심은 두 가지로 요약된다. 중요한 정보만 선별해 기억하는 키미 델타 어텐션(KDA)과 풀 어텐션을 3:1 비율로 섞은 하이브리드 구조다.기존 리니어 어텐션은 무엇을 기억하고 무엇을 잊을지에 대한 기준이 불분명했다. 중요한 것과 덜 중요한 것을 구분하지 못한 채 모두 필기해 두었다가, 정작 필요한 순간에 원하는 정보를 제대로 찾아내지 못하는 상황과 비슷했다. 키미 델타 어텐션은 여기에 채널별로 세밀하게 작동하는 망각 게이트(channel-wise gating)를 도입해, 각 정보 채널이 독립적으로 “얼마나 기억할지”를 결정하도록 설계했다.이 구조를 비유하자면, 우리의 뇌에 128개의 서랍장이 있다고 상상하면 이해하기 쉽다. 기존 방식은 서랍 전체에 “50%만 기억해라”라는 일괄 명령을 내리는 식이었다면, 키미 델타 어텐션은 각 서랍마다 다른 지시를 내린다. 1번 서랍은 ‘90% 기억’, 2번 서랍은 ‘20%만 기억’처럼 정보의 중요도에 따라 기억 비율을 달리한다. 이 덕분에 중요한 정보는 오래 보관하고, 덜 중요한 정보는 과감히 빨리 잊어버리며 메모리 자원을 훨씬 효율적으로 쓸 수 있다.기술적으로는 두 가지 계산 방식을 조합하는 방향을 택했다. 하나는 각 정보를 서로 독립적으로 처리하는 방식이고, 다른 하나는 정보들 사이의 관계를 압축해 요약본으로 저장하는 방식이다. 이는 학생들의 개별 성적표를 모두 보관하면서도, 동시에 학급 평균이나 분포를 하나의 요약본으로 유지하는 것과 비슷하다. 기존 방식은 이런 결합 구조를 구현할 때 연산량이 지나치게 커지는 문제가 있었지만, 키미 리니어 모델은 연산량을 절반 수준으로 줄이면서도 AI 학습의 기본 원리인 ‘델타 규칙(틀린 만큼만 수정하는 원칙)’과의 일관성을 유지하는 데 성공했다.델타 규칙은 AI가 정답과 자신의 예측 사이의 차이만큼만 가중치를 조정하는 방식이다. 시험에서 100점 만점에 70점을 받았다면, 맞힌 70점은 그대로 두고 틀린 30점에 해당하는 부분만 집중적으로 보완하는 식이다. 키미 리니어 모델은 원리를 충실히 따르면서도 연산 속도를 절반 수준으로 줄였다. 논문 벤치마크 결과에 따르면, 키미 델타 어텐션은 비슷한 구조를 가진 기존 방식에 비해 최대 두 배에 가까운 속도 향상을 보여준다.그럼에도 문샷 AI는 순수 리니어 어텐션만으로는 한계가 분명하다고 판단했다. 특히 긴 텍스트 속에서 특정 정보를 정확히 찾아내는 ‘검색(retrieval)’ 능력이 충분하지 않았다. 이 문제를 보완하기 위해 문샷 AI는 키미 델타 어텐션 레이어 3개와 풀 어텐션 레이어 1개를 번갈아 배치하는 하이브리드 구조를 채택했다. 핵심은 두 방식을 섞되, 어느 한쪽에도 치우치지 않는 적절한 비율을 찾는 것이었다. Kimi Linear model architecture출처: <키미 리니어> 논문 연구진은 수십 차례의 실험 끝에 3:1이라는 비율이 가장 안정적인 균형점이라는 결론을 얻었다. 풀 어텐션 비중을 높이면 성능은 좋아지지만 계산 속도가 급격히 느려진다. 반대로 키미 델타 어텐션 비중을 과하게 높여 7:1 또는 15:1과 같은 구성을 사용하면 처리 속도는 빨라지지만 정확도가 눈에 띄게 떨어진다. 문샷 AI는 훈련 손실과 검증 손실이라는 두 지표를 동시에 고려해 이 균형을 맞췄다. 훈련 손실은 AI가 학습 데이터(이미 본 문제)를 얼마나 잘 외우는지를 보여주고, 검증 손실은 처음 보는 새로운 문제를 얼마나 잘 푸는지를 측정한다. 시험 문제를 통째로 외우는 데만 집중하면(훈련 손실만 낮추면) 응용력이 떨어지고, 반대로 개념 이해에만 치중하고 문제 풀이 연습이 부족하면(검증 손실만 낮추면) 실전에서 점수가 나오지 않는 것과 같다이 하이브리드 구조에서는 역할 분담도 분명하다. 먼저 키미 델타 어텐션 레이어 3개가 대부분의 정보를 빠르게 1차 처리한다. 그다음 주기적으로 배치된 풀 어텐션 레이어가 전체 문맥을 조망하며 흐름을 다시 점검한다. 100페이지짜리 계약서를 읽는 상황을 예로 들면, 각 조항의 내용은 델타 어텐션이 빠르게 훑어보되, 풀 어텐션이 일정 간격으로 등장해 ‘이 조항이 앞부분의 기본 조건과 충돌하지 않는가’를 전체 관점에서 다시 점검하는 것이다.위치 인코딩 전략도 눈에 띄는 변화 지점이다. 대부분의 AI 모델은 단어의 순서 정보를 기억하기 위해 ‘RoPE(Rotary Position Embedding, 로프)’라는 기법을 활용한다.
정리
‘나는 밥을 먹었다’와 ‘밥은 나를 먹었다’를 구분하려면, 단어 자체보다 단어가 등장하는 위치와 순서가 더 중요하다. RoPE는 일종의 위치 표지판을 각 단어에 달아주는 방식으로 이 문제를 해결해 왔다.그런데 키미 리니어는 풀 어텐션 레이어에서 이 위치 표지판을 과감히 제거했다(NoPE). 대신 키미 델타 어텐션 레이어가 데이터를 읽어 나가면서 스스로 위치 정보를 학습하고 감각을 익히도록 맡겼다. 이는 긴 문맥을 다룰 때, 기계적으로 부여된 좌표보다 데이터 자체에서 드러나는 구조를 더 잘 반영할 수 있다는 점에서 중요한 설계 선택이다. 압도적 성능과 열리는 가능성 성능 지표만 놓고 보면, 결과는 인상적이다. 문샷 AI는 1.4조 토큰이라는 동일한 학습 데이터로 세 가지 모델을 비교했다. 풀 어텐션 기반 MLA, 하이브리드 구조의 게이티드 델타넷(GDN-H), 그리고 키미 리니어다. 짧은 컨텍스트(4,000 토큰)를 대상으로 한 벤치마크에서 키미 리니어 모델은 대학원 수준 문제 해결 테스트에서 51.0점을 기록하며 풀 어텐션(47.2점)을 크게 앞섰다. 수학 테스트에서도 83.9점을 기록해 풀 어텐션(83.7점)과 사실상 동등한 수준을 보여줬다. 긴 컨텍스트(12만 8,000 토큰)를 대상으로 한 평가에서는 격차가 더 뚜렷해진다. 장문 맥락 이해를 평가하는 RULER 테스트에서 키미 리니어 모델은 84.3점을 기록해 풀 어텐션(81.3점)을 앞질렀고, 대규모 코드 저장소를 이해하는 능력을 평가하는 벤치마크에서는 68.5점으로 1위를 차지했다. 속도 역시 눈에 띄게 개선됐다. 키미 리니어는 MMLU-Pro(컨텍스트 길이 4,000)에서 최고 성능(51.0)을 기록했으며, RULER(컨텍스트 길이 128,000, 파란 원)는 128K 컨텍스트에서 최고 성능(84.3)과 3.98배 가속을 동시에 달성했다.출처: <키미 리니어> 논문 특히 주목할 지점은 강화학습 단계다. 최근 GPT-o1이나 딥시크 R1이 보여주듯, 추론 능력을 끌어올리기 위해 강화학습을 통해 모델을 추가로 학습시키는 흐름이 뚜렷해지고 있다. 키미 리니어 모델은 수학 테스트를 대상으로 한 강화학습 과정에서 풀 어텐션 모델보다 더 빠르게 수렴했고, 최종 정확도 또한 더 높게 나타났다. ‘생각하는 AI’를 만드는 데 필요한 핵심 단계인 강화학습에서 키미 리니어가 구조적으로 유리하다는 점을 시사한다.문샷 AI는 키미 리니어 모델의 핵심 코드와 추론 엔진 통합 코드, 학습이 끝난 모델 가중치까지 모두 오픈소스로 공개했다. 기존 풀 어텐션 기반 파이프라인에 비교적 손쉽게 끼워 넣어 쓸 수 있도록 설계되어 있어, 연구자와 기업 모두가 곧바로 실험과 서비스에 활용할 수 있다.이 기술이 여는 가능성은 향후 AI가 나아갈 방향 중 한 축과 맞닿아 있다. 우선, AI 에이전트가 수십만 토큰에 이르는 복잡한 작업을 사실상 실시간에 가깝게 처리할 수 있는 길이 열렸다. 거대한 코드 저장소 전체를 분석하거나, 긴 법률 문서를 검토하거나, 수백 페이지에 달하는 연구 논문을 묶음으로 요약하는 작업이 훨씬 빨라진다. 연산 비용도 크게 줄어든다.더 나아가 멀티 에이전트 오케스트레이션(mult-agent orchestration)의 가능성에 한층 가까워졌다. 문샷 AI는 클로드처럼 큰 모델(소넷)이 상위 전략을 수립하고, 여러 개의 작은 모델(하이쿠)이 병렬로 세부 작업을 처리하는 구조를 제시했다. 이 방식은 비용을 약 60% 절감하면서 처리 속도는 10배까지 끌어올릴 수 있다고 보고된다. 단일 거대 모델이 모든 일을 처리하던 방식에서 벗어나, 여러 모델이 역할을 나누어 협력하는 AI 시스템 설계 패러다임이 본격적으로 전환되는 지점이다.물론 전문가들은 여전히 신중한 태도를 유지해야 한다고 말한다. AI 업계는 매년 ‘트랜스포머를 대체할 새로운 구조’ 이론을 봐왔지만, 실제로 대체에 성공한 사례는 없었다. 키미 리니어 모델 역시 대규모 실서비스 환경에서의 안정성과 일반화 능력에 대한 충분한 검증이 필요하다. 그럼에도 불구하고 <키미 리니어> 논문이 던진 메시지는 분명하다. “가장 큰 모델이 아니라, 가장 효율적인 모델이 승부를 가를 수 있다”는 가능성이다. 오픈AI와 구글이 초거대 단일 모델을 앞세워 정면 돌파를 시도하는 동안, 문샷 AI는 정교하게 설계된 하이브리드 구조와 연산 효율성을 무기로 전혀 다른 방향에서 경쟁에 뛰어들었다. AI 에이전트가 복잡한 작업을 수행하고, 수십만 토큰이 실시간으로 오가며 협력하는 시대가 오고 있다
자주 묻는 질문
Q. 어떤 정보를 제공하나요?
A. IT/기술 관련 최신 정보를 제공합니다.
Q. 신뢰할 수 있나요?
A. 검증된 출처만 선별합니다.
Q. 더 궁금한 점은?
A. 댓글로 문의하세요.
원문 출처
이 글은 원본 기사를 참고하여 작성되었습니다.