전문가 혼합(Mixture of Experts, MoE) 아키텍처의 기원과 진화

전문가 혼합(Mixture of Experts, MoE) 아키텍처의 기원과 진화 전문가 혼합(Mixture of Experts, MoE) 아키텍처의 기원과 진화: 글로벌 AI 패권 전쟁과 인재 흐름에 대한 심층 보고서 1. 서론: 조건부 연산의 르네상스와 효율성 혁명 인공지능(AI)의...

전문가 혼합(Mixture of Experts, MoE) 아키텍처의 기원과 진화

전문가 혼합(Mixture of Experts, MoE) 아키텍처의 기원과 진화: 글로벌 AI 패권 전쟁과 인재 흐름에 대한 심층 보고서

1. 서론: 조건부 연산의 르네상스와 효율성 혁명

인공지능(AI)의 역사는 연산 능력(Compute)과 데이터의 규모를 확장하려는 시도와, 그로 인해 발생하는 막대한 비용을 효율화하려는 시도 간의 끊임없는 변증법적 발전 과정으로 요약할 수 있습니다. 2020년대 초반, GPT-3로 대표되는 '거대 언어 모델(LLM)'의 시대가 열리면서 모델의 파라미터(Parameter) 수는 기하급수적으로 증가했습니다. 그러나 모든 입력 데이터에 대해 모델의 모든 파라미터를 활성화하는 '밀집(Dense)' 모델 방식은 추론 비용의 급격한 상승과 하드웨어의 물리적 한계라는 벽에 부딪혔습니다. 이러한 배경에서, 입력 토큰(Token)의 특성에 따라 필요한 전문가(Expert) 네트워크만을 선별적으로 활성화하는 '전문가 혼합(Mixture of Experts, 이하 MoE)' 아키텍처가 게임 체인저로 부상했습니다.

본 보고서는 단순한 기술 분석을 넘어, MoE 아키텍처의 탄생부터 현재에 이르기까지의 30년 역사를 망라합니다. 1991년 인지과학적 호기심에서 출발한 이 아이디어가 어떻게 2017년 구글 브레인(Google Brain)을 거쳐 2024년 중국의 딥시크(DeepSeek)와 프랑스의 미스트랄(Mistral)에 의해 '모델 전쟁(Model Wars)'의 핵심 무기로 재탄생했는지를 추적합니다. 특히 사용자의 요청에 따라 딥시크의 창업자 량원펑(Liang Wenfeng) 의 구현 전략을 해부하고, 라마(Llama) 사태 이후 촉발된 오픈소스 생태계 내 프랑스와 인도 연구자들의 역할을 조명하며, 이 모든 기술적 성취가 어떻게 마이크로소프트 리서치 아시아(MSRA)라는 허브를 통해 중국의 AI 굴기와 연결되는지 지정학적 관점에서 분석합니다.

2. MoE의 고고학: 1991년의 선구자들과 이론적 토대

현대의 딥시크나 미스트랄이 사용하는 MoE 아키텍처를 이해하기 위해서는, GPU 클러스터가 존재하지 않던 시절, 인간 뇌의 모듈성(Modularity)을 모방하고자 했던 초기 연결주의(Connectionism) 시대의 연구로 거슬러 올라가야 합니다.

2.1 최초의 논문: "Adaptive Mixtures of Local Experts" (1991)

MoE의 개념적 기원이 되는 논문은 1991년 Neural Computation 저널에 게재된 "Adaptive Mixtures of Local Experts" 입니다. 이 논문은 하나의 거대한 신경망이 모든 종류의 데이터 패턴을 학습하려 할 때 발생하는 '간섭(Crosstalk)' 문제를 해결하기 위해 제안되었습니다.

핵심 아이디어: 데이터 공간을 여러 개의 하위 영역으로 분할하고, 각 영역을 전담하는 '로컬 전문가(Local Expert)' 네트워크들을 배치합니다. 그리고 입력 데이터가 들어올 때, 어떤 전문가가 이 데이터를 처리하는 것이 가장 적합한지를 확률적으로 결정하는 '게이팅 네트워크(Gating Network)'를 둡니다. 이는 현대 MoE의 '라우터(Router)' 개념의 시초입니다.

2.2 저자 심층 분석: 거인들의 어깨

저자 (Author)

당시 소속 및 역할

기여 및 현대적 의의

Robert A. Jacobs

매사추세츠 대학교 / 로체스터 대학교

제1저자 & 교신저자. 인지과학적 관점에서 '태스크 분해(Task Decomposition)' 이론을 주도했습니다.

Michael I. Jordan

MIT (후에 UC 버클리)

머신러닝의 통계적 기초를 다진 석학. MoE를 '최대 우도 추정' 프레임워크 내에서 해석하고 수학적 엄밀성을 부여했습니다.

Steven J. Nowlan

토론토 대학교

경쟁 학습(Competitive Learning)의 전문가. 전문가들이 데이터를 차지하기 위해 '경쟁'하는 구조를 설계했습니다.

Geoffrey E. Hinton

토론토 대학교

AI의 대부. 2017년 구글 브레인에서 MoE를 부활시키는 논문에도 참여하며 과거와 현재를 잇는 연결고리가 됩니다.

통찰(Insight): 1991년의 MoE는 '소프트 게이팅(Soft Gating)' 방식을 사용했습니다. 즉, 모든 전문가가 입력에 대해 조금씩 기여하고, 그 가중합을 출력으로 내보내는 방식이었습니다. 이는 이론적으로는 우아했으나 연산량 절감 효과는 없었습니다. 진정한 '희소성(Sparsity)'의 개념은 이후 하드웨어의 발전과 함께 등장하게 됩니다.

3. 조건부 연산의 부활: 구글 브레인과 2017년의 전환점

MoE가 이론적 호기심에서 실용적인 대규모 아키텍처로 변모한 시점은 2017년입니다. 구글 브레인 팀은 LSTM 기반의 번역 모델 용량을 극적으로 늘리기 위해 1991년의 아이디어를 재소환했습니다.

3.1 "Outrageously Large Neural Networks" (2017)

이 논문은 현대 MoE의 표준인 '희소 게이팅(Sparsely-Gated)' 메커니즘을 정립했습니다. 수천 개의 전문가가 있더라도, 입력 토큰 하나당 상위 k개(Top-k, 보통 k=1 또는 2)의 전문가만 활성화하고 나머지는 0으로 처리하는 방식입니다. 이를 통해 모델의 파라미터 수를 수십, 수백 배 늘리면서도 추론 비용(FLOPs)은 일정하게 유지하는 확장이 가능해졌습니다.

Noam Shazeer의 역할: 제1저자인 놈 샤지어는 미분 불가능한 Top-k 선택 과정을 우회하기 위한 'Noisy Top-k Gating'을 고안해냈습니다.

4. 량원펑(Liang Wenfeng)과 딥시크(DeepSeek)의 구현 전략

딥시크의 성공은 미국의 대중국 반도체 제재라는 극한의 제약 조건 속에서 탄생한 '생존형 최적화'의 결과물입니다.

4.1 량원펑(Liang Wenfeng): 금융 공학자에서 AI 아키텍트로

량원펑은 절강대학교에서 정보통신공학을 전공한 뒤, 2015년 헤지펀드인 High-Flyer(환방량화) 를 설립한 금융 공학자입니다. 퀀트 트레이딩의 핵심인 '효율성'과 '레이턴시'에 대한 철학을 LLM 학습에 접목했습니다. 그는 2021년 제재 직전 엔비디아 A100 GPU 약 10,000장을 선제적으로 확보하며 독자적인 클러스터를 구축했습니다.

4.2 딥시크 MoE(DeepSeekMoE)의 기술적 구현

전략 1: 미세 입자 전문가 분할 (Fine-Grained Expert Segmentation)
기존 MoE(예: Mixtral 8x7B)가 가진 '지식의 혼종성' 문제를 해결하기 위해 전문가를 매우 잘게 쪼갰습니다. DeepSeek-V3는 총 256개의 전문가를 두어 각 전문가가 매우 좁고 깊은 지식에 특화되도록 했습니다.

전략 2: 공유 전문가 격리 (Shared Expert Isolation)
범용 지식은 모든 토큰에서 필요하다는 점에 주목하여, 특정 전문가 그룹(Shared Experts)은 게이팅과 상관없이 항상 활성화되도록 설계했습니다.

수식적 표현: $y = \sum_{i \in Shared} E_i(x) + \sum_{j \in TopK(x)} g_j(x)E_j(x)$

4.3 하드웨어 제약 극복: MLA와 GRPO

H800과 같은 제한된 하드웨어 환경을 극복하기 위해 MLA(Multi-head Latent Attention) 로 KV 캐시 메모리를 줄이고, GRPO(Group Relative Policy Optimization) 를 통해 비평가(Critic) 모델 없이 강화학습을 수행하여 메모리 효율을 극대화했습니다.

5. 오픈소스 MoE 생태계: 라마(Llama) 너머의 세계

Llama 시리즈는 밀집(Dense) 모델이지만, 진정한 오픈소스 MoE 계보는 미스트랄과 딥시크가 주도하고 있습니다.

미스트랄(Mistral) AI: Mixtral 8x7B 를 통해 최초의 고성능 오픈 가중치 MoE 모델을 제시했습니다. 라마 2 70B보다 빠르고 강력함을 증명했습니다.

알리바바 Qwen-MoE: 딥시크와 유사한 미세 입자 전문가 방식을 채택한 강력한 경쟁자입니다.

xAI Grok-1: 일론 머스크의 xAI가 공개한 314B 규모의 초대형 MoE 모델입니다.

6. 프랑스와 인도 연구자들의 지정학적 역할

이들은 딥시크가 참조한 기술적 기반을 닦은 핵심 인물들입니다.

프랑스 (Guillaume Lample, Arthur Mensch): 메타 FAIR와 구글 딥마인드 출신으로 미스트랄 AI를 창업하며 '효율적 MoE 학습'과 '스케일링 법칙'의 정수를 보여주었습니다.

인도 (Ashish Vaswani): 트랜스포머 아키텍처의 창시자로, 딥시크를 포함한 모든 현대 LLM의 근간을 마련했습니다.

7. 중국과의 연결고리: 마이크로소프트 리서치 아시아 (MSRA)

딥시크의 기술팀 DNA를 추적해보면 핵심 인물들이 MSRA 출신임이 드러납니다.

이름

역할 및 기여

MSRA 관련 이력

Daya Guo (郭达雅)

수석 연구원. V3, R1 개발 주도

MSRA에서 3년 이상 연구 인턴 수행. CodeBERT 등 개발.

Dejian Yang (양더젠)

강화학습, 정렬 핵심 기여자

MSRA 인턴 출신으로 글로벌 연구 네트워크에서 훈련.

Qihao Zhu (주치하오)

코드 생성 연구원

MSRA 부원장 출신 Zhou Ming 박사의 지도 학생 계보.

8. 종합 결론 및 전망

MoE 아키텍처의 역사는 1991년 토론토에서 태어나, 캘리포니아에서 자랐으며, 파리에서 자유(오픈소스)를 얻고, 항저우에서 무기가 되었습니다. 량원펑의 구현은 '제약 조건을 알고리즘으로 극복하는 효율성 중심의 연구'가 AI 개발의 새로운 표준이 될 것임을 시사합니다. 이 글로벌한 지식의 파이프라인은 국경 장벽으로도 완전히 차단할 수 없음을 역사가 증명하고 있습니다.

[부록] 주요 참조 데이터 및 출처

1. MoE 기원 논문: Jacobs et al., 1991.

2. Google 2017 MoE: Shazeer et al., 2017.

3. DeepSeek 기술 보고서: DeepSeek-V3/R1 Technical Report.

4. MSRA 및 인재 정보: Daya Guo Profile, MSRA Alumni Lists.

This page was last edited on Dec 30, 2025.