[Tech Deep Dive] Jamba: Transformer의 한계를 넘는 Mamba 하이브리드 아키텍처 완전 분석
[Tech Deep Dive] Jamba: Transformer의 한계를 넘는 Mamba 하이브리드 아키텍처 완전 분석
요약: AI21 Labs가 공개한 Jamba 는 기존 Transformer의 막대한 메모리 비용 문제를 해결하기 위해 Mamba(SSM) 와 Transformer 를 결합한 하이브리드 모델입니다. 256K 에 달하는 긴 문맥을 단일 GPU에서 처리하며, RAG와 긴 문서 분석에서 GPT-4o에 비견되는 효율성을 보여주는 Jamba의 아키텍처와 성능을 심층 분석합니다.
1. 프롤로그: Transformer 전성시대, 그 이면의 병목
지난 몇 년간 LLM 시장은 구글의 Attention is All You Need 논문 이후 Transformer 아키텍처가 지배해 왔습니다. 하지만 모델이 커지고 입력해야 할 데이터(Context)가 길어질수록 치명적인 단점이 드러났습니다.
이차적 복잡도 ($O(n^2)$): 입력 길이가 2배 늘어나면 연산량과 메모리는 4배로 폭증합니다.
KV Cache의 압박: 긴 문서를 처리하려면 엄청난 양의 GPU 메모리(VRAM)가 필요합니다.
이러한 상황에서 카네기 멜론 대학 연구진이 발표한 Mamba (State Space Model, SSM) 는 선형적 ($O(n)$)인 처리 속도로 주목받았지만, 복잡한 추론 능력에서는 Transformer에 미치지 못한다는 평이 있었습니다.
"그렇다면 둘을 섞으면 어떨까?"
이 질문에서 출발한 것이 바로 Jamba(Joint Attention and Mamba) 아키텍처입니다.
2. Jamba의 핵심: MoE와 Mamba의 결합
Jamba는 단순히 두 모델을 병렬로 배치한 것이 아닙니다. Experts(MoE) 구조를 활용하여 Transformer 레이어와 Mamba 레이어를 전략적으로 혼합했습니다.
2.1. 하이브리드 레이어 스택
Jamba 블록은 다음과 같은 비율로 구성됩니다:
Attention 레이어: 전체의 약 1/8만 배치하여 전역적인 문맥 파악 능력을 유지합니다.
Mamba 레이어: 나머지 7/8을 차지하여 긴 시퀀스를 선형적인 비용으로 처리합니다.
2.2. KV 캐시 문제의 해결
기존 Transformer는 모든 레이어에서 KV 캐시를 생성하지만, Jamba는 오직 Attention 레이어에서만 캐시를 생성합니다. 이로 인해 KV 캐시 용량이 기존 대비 최대 8배 감소 하여, 단일 GPU에서도 256K 토큰이라는 경이로운 문맥 길이를 처리할 수 있게 되었습니다.
3. 성능 분석: 효율성과 지능의 균형
벤치마크 결과, Jamba는 비슷한 크기의 Llama 3나 Mixtral 모델보다 훨씬 적은 메모리를 사용하면서도 대등하거나 우수한 성능을 보여주었습니다.
모델
최대 문맥 길이
추론 효율성
Llama 3 (8B)
8K
낮음 (이차적)
Jamba
256K
매우 높음 (선형적)
4. 결론: LLM의 새로운 표준을 향해
Jamba는 "성능을 위해 메모리를 포기해야 한다" 는 기존의 상식을 깼습니다. 하이브리드 아키텍처와 MoE의 결합은 향후 온디바이스 AI 및 거대 문서 분석 시스템의 핵심 기술이 될 것으로 전망됩니다.
최근 업데이트: 2025-12-31