•  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

1. 개요2. 특징3. 모델
3.1. Gemini 2.5 Pro3.2. Gemini 2.5 Flash3.3. Gemini 2.5 Flash Image3.4. Gemini 2.5 Computer Use3.5. Gemini 2.5 Flash Native Audio
4. 관련 문서

1. 개요[편집]

Gemini 2.5구글이 개발한 제미나이 인공지능 모델이다.

2. 특징[편집]

Gemini 2.5 Nano[1], Gemini 2.5 Computer Use, Gemini 2.5 Flash(Lite/Lite Thinking/기본/Thinking/Image/Live), Gemini 2.5 Pro(기본), Gemini 2.5 Deep Think 총 9개로 구성되어 있다. 이 중 Deep Think 모델은 Ultra 요금제 구독자에게만 제공된다.

2025년 6월 18일, 2.5 Pro와 2.5 Flash의 정식 버전과, 2.5 Flash-Lite의 프리뷰 버전이 공개되었다.

2025년 7월 22일, 2.5 Flash-Lite의 정식버전이 공개되었다.

2025년 9월 26일, 2.5 Flash와 2.5 Flash-Lite의 업데이트 버전이 공개되었다. 성능은 약간 더 좋아지고, 답변까지 걸리는 시간이 기존버전 대비 2~3초 감소되어 사용자 경험이 개선되었다.

Google AI Studio를 통해서도 사용이 가능하다. Temperature, Top P 등의 수치를 설정할 수 있으며, 이 모델에게 직접 물어봐서 적절한 값을 추천받을 수 있다. 도구(Tools)에서 추가적인 기능도 확인할 수 있다. 현재의 날짜를 전혀 모르고, 2025년 1월 이후의 지식이 학습되지 않아 이 부분은 주의가 요구된다. 2025년 1월 이전의 지식이라도 2025년 1월에 가까울수록 학습된 지식의 양이 적어서인지 2024년 11월 미국 대선에서 카멀라 해리스가 아니라 조 바이든도널드 트럼프와 대결'할 것'이라는 등의 정보를 표출하기도 한다.

이 모델이 알려진 분야에서 어느 수준의 문제를 얼마나 쉽게 맞출 수 있는지 표로 만들면 다음과 같다.
Benchmark
2.5 Flash-Lite
2.5 Flash-Lite
(Thinking)
2.5 Flash
2.5 Flash
(Thinking)
2.5 Pro
(Thinking)
Reasoning & knowledge
(Humanity’s Last Exam, no tools)
5.1%
6.9%
8.4%
11.0%
21.6%
과학 (GPOA diamond)
64.6%
66.7%
78.3%
82.8%
86.4%
수학 (AIME 2025)
49.8%
63.1%
61.6%
72.0%
88.0%
코드 생성 (LiveCodeBench)
33.7%
34.3%
41.1%
55.4%
69.0%
코드 수정 (Aider Polyglot)
26.7%
27.1%
44.0%
56.7%
82.2%
코딩 에이전트
(SWE-bench Verified, single)
31.6%
27.6%
50.0%
48.9%
59.6%
코딩 에이전트
(SWE-bench Verified, multiple)
42.6%
44.9%
60.0%
60.3%
67.2%
검색 (SimpleQA)
10.7%
13.0%
25.8%
26.9%
54.0%
검색 (FACTS Grounding)
84.1%
86.8%
83.4%
85.3%
87.8%
비전 (MMMU)
72.9%
72.9%
76.9%
79.7%
82.0%
이미지 이해 (Vibe-Eval (Reka))
51.3%
57.5%
66.2%
65.4%
67.2%
긴 문장 (128k, average)
16.6%
30.6%
34.1%
54.3%
58.0%
긴 문장
(MRCR v2 (8-needle), 1M)
4.1%
5.4%
16.8%
21.0%
16.4%
언어 (Global MMLU (Lite))
81.1%
84.5%
85.8%
88.4%
89.2%

3. 모델[편집]

3.1. Gemini 2.5 Pro[편집]

한국 기준으로 2025년 3월 26일에 2.5 Pro 실험용 버전이 공개되었다.# 비추론 모델의 장점과 추론 모델의 장점을 융합한 추론 모델로 앞으로의 제미나이의 모델의 기준점이 될 것이라고 한다.

2025년 4월 4일에 2.5 Pro를 Preview 모델로 승격하고 사용 요금을 공개했다.#

2025년 5월 6일, 2.5 Pro의 업데이트 버전이 공개되었다. 코딩 능력을 중점으로 업데이트했다고 한다. 그래서 코딩 벤치마크의 점수는 모두 향상되었으나, 다른 벤치마크에서는 소폭 떨어진 점수를 보여준다. ##2#3

2025년 6월 5일, 2.5 Pro의 업데이트 버전이 공개되었다.# 전 버전 대비 전반적으로 고르게 성능 향상이 이뤄져 벤치마크 점수가 큰 폭으로 향상된 것은 맞으나, 일부 영역에서는 성능이 도리어 하락했다.

2025년 6월 18일, 2.5 Pro의 정식 버전이 공개되었다.
Gemini 2.5 Pro 벤치마크 [2]
Benchmark
Description
Gemini
2.5 Pro
OpenAI
o3-mini
OpenAI
GPT-4.5
Claude
3.7 Sonnet
Grok
3 Beta
DeepSeek
R1
Humanity's Last Exam
Reasoning & knowledge
No tools
18.8%
14.0%*
6.4%
8.9%
8.6%*
GPQA diamond
Science
single attempt (pass@1)
84.0%
79.7%
71.4%
78.2%
80.2%
71.5%
multiple attempts
84.8%
84.6%
AIME 2025
Mathematics
single attempt (pass@1)
86.7%
86.5%
49.5%
77.3%
70.0%
multiple attempts
93.3%
AIME 2024
Mathematics
single attempt (pass@1)
92.0%
87.3%
36.7%
61.3%
83.9%
79.8%
multiple attempts
80.0%
93.3%
LiveCodeBench v5
Code generation
single attempt (pass@1)
70.4%
74.1%
70.6%
64.3%
multiple attempts
79.4%
Aider Polyglot
Code editing
whole / diff
74.0% /
68.6%
60.4%
diff
44.9%
diff
64.9%
diff
56.9%
diff
SWE-bench verified
Agentic coding
63.8%
49.3%
38.0%
70.3%
49.2%
SimpleQA
Factuality
52.9%
13.8%
62.5%
43.6%
30.1%
MMMU
Visual reasoning
single attempt (pass@1)
81.7%
no MM support
74.4%
75.0%
76.0%
no MM support
multiple attempts
no MM support
78.0%
no MM support
Vibe-Eval (Reka)
Image understanding
69.4%
no MM support
no MM support
MRCR
Long context
128k
91.5%
36.3%
48.8%
1M
83.1%
Global MMLU (Lite)
Multilingual performance
89.8%

3.2. Gemini 2.5 Flash[편집]

2025년 4월 9일, 2.5 Flash가 Google Cloud Next에서 발표되었다.#

2025년 4월 17일, 2.5 Flash와 2.5 Flash-thinking이 가격과 함께 공개됐다.#

2025년 5월 21일, 2.5 Flash의 업데이트 버전이 공개되었다.# 기존 4월 17일 버전 대비 추론, 멀티모달, 코딩, 긴 context에 대한 벤치마크 점수가 크게 향상되었으며, 20~30% 더 적은 토큰을 사용하여 효율성도 향상되었다고 한다. 같은 날에 서비스의 요금제 개편이 이루어지면서 Advanced 여부가 숨겨지도록 바뀌었다.

2025년 6월 18일, 2.5 Flash의 정식 버전이 공개되었다.

2025년 9월 26일, 2.5 Flash의 업데이트 버전이 공개되었다. 성능은 약간 더 좋아졌다.
Gemini 2.5 Flash 벤치마크 [3]
Benchmark
Gemini 2.5
Flash

Thinking
Gemini 2.0
Flash
OpenAI
o4-mini
Claude Sonnet
3.7

64k Ext.
Grok 3 Beta
Extended
DeepSeek
R1
Input price
$/1M tokens
$0.30
$0.10
$1.10
$3.00
$3.00
$0.55
Output price
$/1M tokens
$2.50
$0.40
$4.40
$15.00
$15.00
$2.19
Reasoning & knowledge
Humanity's Last Exam
(no tools)
11.0%
5.1%
14.3%
8.9%
8.6%*
Science
GPQA diamond
single attempt
(pass@1)
82.8%
60.1%
81.4%
78.2%
80.2%
71.5%
multiple attempts
84.8%
84.6%
Mathematics
AIME 2025
single attempt
(pass@1)
72.0%
27.5%
92.7%
49.5%
77.3%
70.0%
multiple attempts
93.3%
Code generation
LiveCodeBench
single attempt
(pass@1)
63.9%
34.5%
70.6%
64.3%
Code editing
Aider Polyglot
61.9% /
56.7%
whole / diff-fenced
22.2%
whole
68.9% /
58.2%
whole / diff
64.9%
diff
53.3%
diff
56.9%
diff
Agentic coding
SWE-bench Verified
60.4%
68.1%
70.3%
49.2%
Factuality
SimpleQA
26.9%
29.9%
43.6%
30.1%
Factuality
FACTS grounding
85.3%
84.6%
62.1%
78.8%
74.8%
56.8%
Visual reasoning
MMMU
single attempt
(pass@1)
79.7%
71.7%
81.6%
75.0%
76.0%
no MM support
multiple attempts
78.0%
no MM support
Image understanding
Vibe-Eval (Reka)
65.4%
56.4%
no MM support
Long context
MRCR v2
128k (average)
74.0%
36.0%
49.0%
54.0%
45.0%
1M (pointwise)
32.0%
6.0%
Multilingual performance
Global MMLU (Lite)
88.4%
83.4%
Methodology
  • Gemini Results: All scores are pass@1 (no majority voting/parallel compute) unless indicated. Run via AI Studio API (`gemini-2.5-flash-preview-05-20` & `gemini-2.0-flash`) with default sampling.
  • Non-Gemini Results: Sourced from providers' self-reported numbers unless mentioned. SWE-bench follows official reports.
  • Thinking Mode: Claude 3.7 Sonnet (64k extended for GPQA/AIME/MMMU, 32k Aider, 16k HLE). Grok-3 (Extended reasoning for all except SimpleQA/Aider).
  • Single vs Multiple: Higher number indicates majority voting (Grok n=64) or internal scoring with parallel compute (Anthropic).
  • Sources: HLE (Scale.com), AIME 2025 (MathArena), LiveCodeBench, Aider Polyglot, FACTS (Kaggle). MRCR v2 (128k cumulative, 1M pointwise).
  • Costs: Sourced from provider websites (as of May 20th). Input/Output reflects text/image/video.
  • * indicates evaluated on text problems only (without images).

3.3. Gemini 2.5 Flash Image[편집]

파일:상세 내용 아이콘.svg   자세한 내용은 나노 바나나 문서
번 문단을
부분을
참고하십시오.

3.4. Gemini 2.5 Computer Use[편집]


2025년 10월 8일, 2.5 Computer Use 모델의 프리뷰 버전이 공개되었다. 역대 모든 PC 조종 에이전트 모델들중에 가장 빠른 속도를 보여주는 성능이 압권이다.

Gemini 시리즈에선 최초의 CUA(computer Use Agent) 모델이며, 개발자 문서를 확인 시 지정된 도구들의 집합형태로 만들어진것을 확인할 수 있다.

현재는 브라우저를 다루는 것에 집중되어 있으나, 추후 Claude 처럼 사용자의 컴퓨터 전체를 다루는 모델로 발전할 것으로 예상된다.

모델명은 gemini-2.5-computer-use-preview-10-2025로 제공되며, Google AI Studio와 Vertex AI를 통해 접근할 수 있다. 입력으로는 사용자 요청과 스크린샷, 최근 액션 기록을 받아 마우스 클릭, 키보드 입력, 스크롤 같은 동작을 생성한다. 현재는 프리뷰 단계로 안전성을 위해 일부 기능 제한과 감독이 권장된다.

3.5. Gemini 2.5 Flash Native Audio[편집]



2025년 5월 21일 Gemini 2.5 Flash TTS Preview가 출시되었다.#

2025년 9월 Gemini 2.5 Native Audio Preview가 출시되었다.#

2025년 12월 10일, Gemini 2.5 Flash TTS Preview의 업데이트 버전이 공개되었다.# 스타일과 톤이 다양해졌다. 또한 말의 속도를 더 자연스럽게 제어하도록 변경되었으며, 다중 화자 성능도 개선되었다.

2025년 12월 13일, Gemini 2.5 Flash Native Audio가 정식 출시되었다.# 함수 호출의 정확도가 상승했고, 더 원활한 대화를 생성한다. 또한 복잡한 지침을 더 잘 처리한다.
Gemini 2.5 Flash Native Audio 벤치마크 [4]
Category
Gemini 2.5 Flash
Native Audio (12-25)
Gemini 2.5 Flash
Native Audio (09-25)
gpt-realtime
Function calling accuracy
(ComplexFuncBench audio)
71.5%
66.0%
66.5%
Adherence to
developer instructions
90%
84%
-
Overall
conversational quality
83%
62%
-
* ComplexFuncBench audio는 원본 텍스트 프롬프트에서 합성된 오디오를 사용하여 평가됨.
* 지시 이행 및 대화 품질은 엔터프라이즈 사용 사례를 대표하는 다양한 라이브 멀티모달 시나리오에서 평가됨.

4. 관련 문서[편집]

[1] 온디바이스용[2] 출처[3] 출처[4] 출처
파일:ccl logo.svg 이 문서의 내용 중 전체 또는 일부는 알파위키 문서의 r51에서 가져왔습니다. 이전 역사 보러 가기
파일:ccl logo.svg 이 문서의 내용 중 전체 또는 일부는 알파위키의 다른 문서에서 가져왔습니다.
[ 펼치기 · 접기 ]