Gemma 4 vs Llama 4, 로컬 AI 모델 진짜 승자는

구글이 이틀 전 Gemma 4를 내놓았어요. Apache 2.0 라이선스에, 벤치마크 숫자가 꽤 공격적이거든요. 자연스럽게 비교 대상이 되는 건 메타의 Llama 4입니다. 출시된 지 1년이 됐고, 로컬 AI 커뮤니티에서 이미 자리를 잡은 모델이죠.

근데 벤치마크 숫자만 나열하면 의미가 없잖아요. 내 GPU에서 실제로 돌아가는지, 라이선스가 내 프로젝트에 걸리는 건 없는지. 그게 진짜 궁금한 부분이에요.

Gemma 4와 Llama 4를 상징하는 두 AI 로봇이 마주 서 있는 모습

스펙부터 정리하면 이렇습니다

먼저 두 모델 패밀리의 라인업을 한눈에 보죠.

Gemma 4 (2026년 4월 출시)

모델	총 파라미터	활성 파라미터	컨텍스트	특징
E2B	5.1B	2.3B	128K	오디오 입력 지원, 1.5GB 메모리
E4B	—	~4B	128K	오디오 입력 지원
26B A4B	26B	3.8B (MoE)	256K	128개 전문가 중 8개 활성
31B	31B	31B (Dense)	256K	플래그십 모델

Llama 4 (2025년 4월 출시)

모델	총 파라미터	활성 파라미터	컨텍스트	특징
Scout	109B	17B (MoE)	10M*	16개 전문가
Maverick	400B	17B (MoE)	1M	128개 전문가
Behemoth	~2T	288B	—	미출시

둘 다 MoE(Mixture of Experts) 아키텍처를 쓰는데 접근이 좀 달라요. Gemma 4는 128개의 작은 전문가 중 8개를 활성화하는 방식이고, Llama 4 Scout은 16개의 큰 전문가를 씁니다. Gemma 4 26B A4B는 3.8B 파라미터만 활성화하면서도 31B Dense 모델의 97% 성능을 낸다고 하니, 연산 효율 측면에서는 확실히 인상적이에요.

벤치마크, 숫자가 전부는 아니지만

솔직히 벤치마크를 100% 신뢰하기 어려운 시대가 됐어요. 그래도 대략적인 위치를 파악하는 데는 쓸모가 있죠.

Gemma 4와 Llama 4 주요 벤치마크 점수 비교 차트

벤치마크	Gemma 4 31B	Gemma 4 26B A4B	Llama 4 Scout
MMLU Pro	85.2%	82.6%	74.3%
LiveCodeBench v6	80.0%	77.1%	32.8%
GPQA Diamond	84%	—	57.2%
AIME 2026	89.2%	88.3%	—
MMMU	76.9%	73.8%	69.4%

숫자만 보면 Gemma 4가 압도적이에요. 특히 코딩(LiveCodeBench)에서 80% vs 32.8%는 격차가 크거든요. 수학(AIME)도 89.2%로, Gemma 3 시절과 비교하면 완전히 다른 모델이 됐습니다.

여기서 한 가지. Llama 4 Scout은 출시 당시 벤치마크 논란이 있었어요. 메타가 리더보드에 올린 버전이 실제 공개 모델과 다른 “실험 버전”이었다는 이야기가 돌았거든요. 독립 연구자들이 GPT-4o나 Gemini 2.0을 이겼다는 공식 수치를 재현하지 못한 사례도 있었고요. 메타 측은 부인했지만, 벤치마크 숫자를 그대로 받아들이기보다는 내가 실제로 쓸 태스크에서 직접 돌려보는 게 가장 정확해요.

한편 Gemma 4도 완벽한 건 아닙니다. LMArena 텍스트 리더보드에서 오픈 모델 3위인데, 중국 경쟁 모델들(Qwen 3.5 등)과 비교하면 아직 격차가 있다는 분석도 있어요. 벤치마크는 참고 자료일 뿐, 절대 지표는 아니라는 점을 기억하면 좋겠습니다.

내 GPU에서 돌아갈까

로컬 AI의 핵심 질문이죠.

모델	최소 VRAM	권장 환경
Gemma 4 E2B	~1.5GB	스마트폰, 라즈베리파이
Gemma 4 E4B	~6GB	GTX 1660, M1 Mac
Gemma 4 26B A4B	~8GB	RTX 3060, M2 Mac
Gemma 4 31B	~20GB	RTX 4090, M2 Pro Mac
Llama 4 Scout (Q4)	~12GB	RTX 4070, M2 Pro Mac
Llama 4 Maverick (Q4)	~24GB	RTX 4090, Mac Studio

여기서 Gemma 4의 라인업 전략이 빛나요. E2B는 1.5GB로 스마트폰에서 돌아갑니다. 진짜로요. ARM, Qualcomm, MediaTek 칩에 최적화까지 되어 있고, Gemma 3 대비 프리필 속도 5.5배, 배터리 소모 60% 절감이라는 수치가 나옵니다. 안드로이드 AICore Developer Preview에도 이미 포함돼 있어요.

다양한 디바이스에서 Gemma 4와 Llama 4 모델을 실행하는 환경 비교

Llama 4 Scout도 나쁘지 않아요. Ollama로 Q4 양자화하면 12GB면 충분하고, RTX 4070이나 M2 MacBook Pro에서 잘 돌아가거든요. 1.78-bit 양자화까지 가면 24GB GPU에서 초당 약 20 토큰 정도 나온다고 하더라고요. 1년간 쌓인 커뮤니티 생태계 덕분에 Ollama에서 llama4:scout 한 줄이면 바로 실행되는 것도 장점이에요.

결국 어떤 스케일에서 AI를 쓰려는지가 갈림길입니다. 스마트폰이나 엣지 디바이스까지 고려한다면 Gemma 4의 E2B/E4B는 현재로서는 대안이 거의 없어요. 데스크톱 GPU 기준이라면 둘 다 현실적인 선택지예요.

멀티모달, 어디까지 되나

두 모델 모두 텍스트 + 이미지 + 비디오를 네이티브로 처리합니다. 여기까진 비슷해요.

차이가 나는 건 오디오예요. Gemma 4의 E2B와 E4B는 네이티브 오디오 입력을 지원하거든요. 음성 인식이랑 번역까지 온디바이스에서 가능하다는 뜻이에요. 2~4B급 모델에서 오디오까지 되는 건 현재 Gemma 4밖에 없습니다.

Llama 4 Scout은 이미지 기반 추론에서 나름 선전해요. MMMU 69.4%, MathVista 70.7%로 괜찮은 수치거든요. 다만 독립 연구에서 GPT-4o나 Gemini 2.0을 능가한다는 공식 발표 수치를 재현하지 못했다는 점은 참고하면 좋겠어요.

비디오는 Gemma 4가 최대 60초까지 처리하는데, Llama 4도 비디오 입력을 지원합니다. 이 부분은 실사용에서 체감 차이를 직접 확인해볼 필요가 있어요.

라이선스, 이게 은근히 중요하거든요

로컬 모델을 프로덕션에 넣을 생각이라면 라이선스를 반드시 확인해야 해요.

오픈소스 라이선스와 제한적 라이선스의 차이를 보여주는 비교 다이어그램

Gemma 4 — Apache 2.0

상업적 사용 제한 없음
MAU 제한 없음
모델 출력으로 다른 모델 훈련 가능
재배포 자유

Llama 4 — Llama Community License

월간 활성 사용자 7억 명 초과 시 별도 허가 필요
모델 출력으로 경쟁 모델 훈련 금지
Meta의 Acceptable Use Policy 준수 의무

‘월 7억 MAU가 나한테 무슨 상관이야’ 싶을 수 있는데, 진짜 문제는 “경쟁 모델 훈련 금지” 조항이에요. 디스틸레이션이나 합성 데이터 생성에 Llama 4 출력을 쓸 수 없다는 뜻이거든요. 연구 목적이라면 이 부분이 꽤 걸릴 수 있습니다.

재밌는 건 Gemma 3도 원래 커스텀 라이선스였다는 거예요. 그때 개발자들이 Mistral이나 Qwen 쪽으로 빠졌거든요. 구글이 Gemma 4에서 Apache 2.0으로 바꾼 건 그 교훈 때문이죠. 라이선스 하나로 생태계 흐름이 바뀔 수 있다는 걸 보여주는 사례예요.

10M 토큰 컨텍스트? 잠깐만요

Llama 4 Scout의 10M 토큰 컨텍스트 윈도우. 스펙시트에서 가장 눈에 띄는 숫자예요. 공개된 모델 중 가장 긴 컨텍스트거든요.

근데 함정이 있어요.

이 모델은 실제로 256K 토큰까지만 훈련됐습니다. 256K를 넘기면 출력 품질이 눈에 띄게 떨어진다는 보고가 여럿 있어요. ‘지원한다’와 ‘잘 동작한다’는 다른 이야기인 셈이죠.

Gemma 4는 큰 모델이 256K, 작은 모델이 128K입니다. 숫자 자체는 작지만 해당 범위 안에서는 안정적으로 동작해요. 스펙시트 숫자보다 실제 품질이 유지되는 범위가 더 중요하다고 생각하면, 이건 단점이 아니라 솔직함에 가깝습니다.

대규모 코드베이스 분석이나 긴 문서 요약처럼 긴 컨텍스트가 필요한 작업이라면 Llama 4 Scout을 256K 이내로 쓰는 게 현실적이에요. 그 이상은 기대하지 않는 게 좋습니다.

그래서 누구한테 뭐가 맞나

개발자가 자신의 환경에 맞는 AI 모델을 선택하는 결정 흐름도

결국 자기 GPU 사양이랑 쓸 목적에 따라 답이 달라요.

Gemma 4가 맞는 경우:

스마트폰이나 엣지 디바이스에서 AI를 돌려야 할 때 (E2B/E4B)
코딩 보조로 쓸 때 (LiveCodeBench 80% vs 32.8%, 체감 차이가 큽니다)
상업 프로젝트에 라이선스 걱정 없이 넣고 싶을 때
온디바이스 음성 인식이 필요할 때
적은 VRAM으로 최대 성능을 뽑고 싶을 때 (26B A4B, 8GB면 충분)

Llama 4가 맞는 경우:

이미 Llama 생태계(파인튜닝, 어댑터 등)에 투자한 상태일 때
256K까지의 긴 컨텍스트가 필요한 작업이 많을 때
Ollama 등 기존 인프라에서 바로 돌리고 싶을 때 (1년간 쌓인 생태계가 탄탄합니다)
Maverick급 대형 모델로 더 높은 품질이 필요할 때

바이브코딩 도구를 고민 중이라면 코딩 벤치마크 차이가 특히 체감될 수 있으니 참고하세요.

개인적으로는, Gemma 4의 26B A4B 모델이 가성비 면에서 가장 인상적이에요. 3.8B 파라미터만 활성화하면서 31B Dense의 97% 성능을 낸다니, 이건 좀 반칙 아닌가 싶더라고요. 8GB VRAM이면 RTX 3060에서도 돌아가고요.

로컬 AI 경쟁은 이제 “누가 더 크냐”가 아니라 “같은 GPU에서 누가 더 똑똑하냐”로 넘어갔어요. 그 기준에서 보면, 이번 Gemma 4는 꽤 강력한 한 수를 둔 셈입니다.