LLM의 진짜 병목은 '기억력'이었다 — δ-mem이 던진 질문

요즘 LLM 이야기를 하면 다들 파라미터 크기나 벤치마크 점수에만 관심을 두는데요. 정작 현장에서 모델을 굴려보면 가장 답답한 건 따로 있습니다. 바로 기억력입니다. 어제 한 대화를 오늘 모델이 기억하지 못하는 그 문제, arxiv에 올라온 δ-mem 논문이 정면으로 다루고 있어서 한번 정리해 봅니다.

왜 지금 ‘메모리’가 화두인가

LLM은 입력 컨텍스트 안에 들어온 정보만 볼 수 있습니다. 컨텍스트 윈도우가 100만 토큰으로 늘어났다고 해도, 그건 한 번의 호출 안에서만 유효한 단기 기억입니다. 세션이 끝나면 모델은 다시 백지 상태로 돌아갑니다.

문제는 비용입니다. 컨텍스트가 길어질수록 어텐션 연산이 제곱으로 늘어나기 때문에, “그냥 다 넣으면 되지"라는 무식한 접근은 금방 한계에 부딪힙니다. 토큰당 비용도, 응답 지연도 모두 컨텍스트 길이를 따라 폭발적으로 증가합니다.

그래서 등장한 게 외부 메모리 개념인데요. 모델 바깥에 별도의 저장소를 두고, 필요할 때만 꺼내 쓰는 방식입니다. RAG(검색 증강 생성)가 대표적이죠. 하지만 RAG는 “한 번 인덱싱하고 검색한다"는 정적인 구조라, 대화가 흐르면서 메모리가 함께 진화해야 하는 상황에는 약합니다.

δ-mem이 제시한 접근

5월 13일 공개된 한 리서치 페이퍼 리뷰 영상(64회 조회, 좋아요 3)과 5월 15일 AI 리서치 라운드업 영상에서 δ-mem 논문이 다뤄졌습니다. 조회수가 폭발한 건 아니지만, 핵심 연구자들 사이에서 조용히 회자되고 있는 주제입니다.

δ-mem의 핵심 아이디어는 이름 그대로 델타(δ), 즉 변화량에 있습니다. 매번 전체 메모리를 다시 계산하지 않고, 새로 들어온 정보가 만든 차이만큼만 메모리를 업데이트하는 방식입니다.

기존의 메모리 메커니즘은 보통 두 가지 중 하나였습니다. 첫째, 메모리 전체를 통째로 재계산하는 방식. 정확하지만 비싸죠. 둘째, 일부만 캐싱하고 나머지는 버리는 방식. 빠르지만 중요한 정보를 놓칠 수 있습니다. δ-mem은 이 둘 사이에서 증분 업데이트라는 균형점을 찾으려 합니다.

‘온라인’이라는 단어의 무게

논문 제목에 들어간 “online"이라는 단어가 중요합니다. 머신러닝에서 온라인 학습은 데이터가 한꺼번에 주어지지 않고 순차적으로 흘러들어오는 상황을 가리킵니다. 챗봇과의 대화, 에이전트의 작업 흐름, 코드 어시스턴트의 세션 — 모두 이 온라인 상황에 해당합니다.

오프라인이라면 데이터 전체를 보고 최적의 메모리 구조를 한 번에 만들 수 있습니다. 하지만 온라인에서는 그게 불가능합니다. 매 순간 들어오는 새 정보를, 과거를 잊지 않으면서 즉시 반영해야 합니다. 이게 생각보다 어려운 문제입니다.

δ-mem이 흥미로운 건 이 온라인 시나리오에 특화된 효율성을 들고나왔다는 점입니다. 단순히 정확도만 자랑하는 게 아니라, “긴 시간 동안 계속 돌아가도 메모리와 계산이 폭발하지 않는다"는 실용적 가치를 내세웁니다.

에이전트 시대의 전제조건

왜 이게 중요할까요. 지금 업계가 가장 뜨겁게 달려가는 방향이 에이전트이기 때문입니다. 며칠씩 작업을 이어가는 코딩 에이전트, 수십 단계의 도구를 호출하는 리서치 에이전트, 사용자와 몇 달간 관계를 이어가는 컴패니언 봇.

이런 시스템들이 진짜로 쓸 만해지려면, 모델이 어제 한 대화와 결정을 기억해야 합니다. 컨텍스트에 매번 다 욱여넣는 방식은 한계가 명백합니다. 그렇다고 RAG로만 해결하기엔 “어제의 나"라는 동적인 상태를 표현하기 어렵습니다.

δ-mem 같은 온라인 메모리 연구가 주목받는 이유가 여기에 있습니다. 에이전트 시대의 진짜 병목은 모델의 지능이 아니라 기억의 구조일지도 모릅니다.

마무리하며

솔직히 δ-mem 한 편의 논문이 모든 걸 해결하지는 못합니다. 아직 커뮤니티의 검증도, 대형 시스템에서의 실전 적용도 부족합니다. 하지만 이 논문이 던지는 질문은 분명히 중요합니다. “우리는 지금까지 LLM의 무엇을 키워온 걸까”라는 질문 말이죠. 더 큰 모델, 더 긴 컨텍스트가 아니라, 더 똑똑하게 기억하는 모델 — 다음 1년의 진짜 승부처는 여기서 갈릴지도 모릅니다.

LLM의 진짜 병목은 '기억력'이었다 — δ-mem이 던진 질문

왜 지금 ‘메모리’가 화두인가

δ-mem이 제시한 접근

‘온라인’이라는 단어의 무게

에이전트 시대의 전제조건

마무리하며

댓글

관련 글

26M 파라미터로 Gemini를 흉내낸다고? Needle이 던진 작은 모델의 반란

로컬 AI가 '기본값'이 되어야 한다 - 클라우드 LLM 의존을 끊자는 목소리가 커지는 이유

AI에게 문서 맡겼더니 조용히 망가뜨리고 있었다 — 위임의 숨은 비용