Gemini 2.5

분류

Gemini 2.5
파일:2.5_keyword_social_share_text.width-1300.png
출시일	2025년 3월 26일
제작사	구글
기능	언어 모델
링크

1. 개요2. 특징3. 모델

3.1. Gemini 2.5 Pro3.2. Gemini 2.5 Flash3.3. Gemini 2.5 Flash Image3.4. Gemini 2.5 Computer Use3.5. Gemini 2.5 Flash Native Audio

4. 관련 문서

Gemini 2.5 Nano[1], Gemini 2.5 Computer Use, Gemini 2.5 Flash(Lite/Lite Thinking/기본/Thinking/Image/Live), Gemini 2.5 Pro(기본), Gemini 2.5 Deep Think 총 9개로 구성되어 있다. 이 중 Deep Think 모델은 Ultra 요금제 구독자에게만 제공된다.

2025년 6월 18일, 2.5 Pro와 2.5 Flash의 정식 버전과, 2.5 Flash-Lite의 프리뷰 버전이 공개되었다.

2025년 7월 22일, 2.5 Flash-Lite의 정식버전이 공개되었다.

2025년 9월 26일, 2.5 Flash와 2.5 Flash-Lite의 업데이트 버전이 공개되었다. 성능은 약간 더 좋아지고, 답변까지 걸리는 시간이 기존버전 대비 2~3초 감소되어 사용자 경험이 개선되었다.

Google AI Studio를 통해서도 사용이 가능하다. Temperature, Top P 등의 수치를 설정할 수 있으며, 이 모델에게 직접 물어봐서 적절한 값을 추천받을 수 있다. 도구(Tools)에서 추가적인 기능도 확인할 수 있다. 현재의 날짜를 전혀 모르고, 2025년 1월 이후의 지식이 학습되지 않아 이 부분은 주의가 요구된다. 2025년 1월 이전의 지식이라도 2025년 1월에 가까울수록 학습된 지식의 양이 적어서인지 2024년 11월 미국 대선에서 카멀라 해리스가 아니라 조 바이든이 도널드 트럼프와 대결'할 것'이라는 등의 정보를 표출하기도 한다.

이 모델이 알려진 분야에서 어느 수준의 문제를 얼마나 쉽게 맞출 수 있는지 표로 만들면 다음과 같다.

Benchmark	2.5 Flash-Lite	2.5 Flash-Lite (Thinking)	2.5 Flash	2.5 Flash (Thinking)	2.5 Pro (Thinking)
Reasoning & knowledge (Humanity’s Last Exam, no tools)	5.1%	6.9%	8.4%	11.0%	21.6%
과학 (GPOA diamond)	64.6%	66.7%	78.3%	82.8%	86.4%
수학 (AIME 2025)	49.8%	63.1%	61.6%	72.0%	88.0%
코드 생성 (LiveCodeBench)	33.7%	34.3%	41.1%	55.4%	69.0%
코드 수정 (Aider Polyglot)	26.7%	27.1%	44.0%	56.7%	82.2%
코딩 에이전트 (SWE-bench Verified, single)	31.6%	27.6%	50.0%	48.9%	59.6%
코딩 에이전트 (SWE-bench Verified, multiple)	42.6%	44.9%	60.0%	60.3%	67.2%
검색 (SimpleQA)	10.7%	13.0%	25.8%	26.9%	54.0%
검색 (FACTS Grounding)	84.1%	86.8%	83.4%	85.3%	87.8%
비전 (MMMU)	72.9%	72.9%	76.9%	79.7%	82.0%
이미지 이해 (Vibe-Eval (Reka))	51.3%	57.5%	66.2%	65.4%	67.2%
긴 문장 (128k, average)	16.6%	30.6%	34.1%	54.3%	58.0%
긴 문장 (MRCR v2 (8-needle), 1M)	4.1%	5.4%	16.8%	21.0%	16.4%
언어 (Global MMLU (Lite))	81.1%	84.5%	85.8%	88.4%	89.2%

3. 모델[편집]

3.1. Gemini 2.5 Pro[편집]

한국 기준으로 2025년 3월 26일에 2.5 Pro 실험용 버전이 공개되었다.# 비추론 모델의 장점과 추론 모델의 장점을 융합한 추론 모델로 앞으로의 제미나이의 모델의 기준점이 될 것이라고 한다.

2025년 4월 4일에 2.5 Pro를 Preview 모델로 승격하고 사용 요금을 공개했다.#

2025년 5월 6일, 2.5 Pro의 업데이트 버전이 공개되었다. 코딩 능력을 중점으로 업데이트했다고 한다. 그래서 코딩 벤치마크의 점수는 모두 향상되었으나, 다른 벤치마크에서는 소폭 떨어진 점수를 보여준다. ##2 #3

2025년 6월 5일, 2.5 Pro의 업데이트 버전이 공개되었다.# 전 버전 대비 전반적으로 고르게 성능 향상이 이뤄져 벤치마크 점수가 큰 폭으로 향상된 것은 맞으나, 일부 영역에서는 성능이 도리어 하락했다.

2025년 6월 18일, 2.5 Pro의 정식 버전이 공개되었다.

Gemini 2.5 Pro 벤치마크 [2]
Benchmark	Description	Gemini 2.5 Pro	OpenAI o3-mini	OpenAI GPT-4.5	Claude 3.7 Sonnet	Grok 3 Beta	DeepSeek R1
Humanity's Last Exam	Reasoning & knowledge No tools	18.8%	14.0%*	6.4%	8.9%	—	8.6%*
GPQA diamond	Science single attempt (pass@1)	84.0%	79.7%	71.4%	78.2%	80.2%	71.5%
GPQA diamond	multiple attempts	—	—	—	84.8%	84.6%	—
AIME 2025	Mathematics single attempt (pass@1)	86.7%	86.5%	—	49.5%	77.3%	70.0%
AIME 2025	multiple attempts	—	—	—	—	93.3%	—
AIME 2024	Mathematics single attempt (pass@1)	92.0%	87.3%	36.7%	61.3%	83.9%	79.8%
AIME 2024	multiple attempts	—	—	—	80.0%	93.3%	—
LiveCodeBench v5	Code generation single attempt (pass@1)	70.4%	74.1%	—	—	70.6%	64.3%
LiveCodeBench v5	multiple attempts	—	—	—	—	79.4%	—
Aider Polyglot	Code editing whole / diff	74.0% / 68.6%	60.4% diff	44.9% diff	64.9% diff	—	56.9% diff
SWE-bench verified	Agentic coding	63.8%	49.3%	38.0%	70.3%	—	49.2%
SimpleQA	Factuality	52.9%	13.8%	62.5%	—	43.6%	30.1%
MMMU	Visual reasoning single attempt (pass@1)	81.7%	no MM support	74.4%	75.0%	76.0%	no MM support
MMMU	multiple attempts	—	no MM support	—	—	78.0%	no MM support
Vibe-Eval (Reka)	Image understanding	69.4%	no MM support	—	—	—	no MM support
MRCR	Long context 128k	91.5%	36.3%	48.8%	—	—	—
MRCR	1M	83.1%	—	—	—	—	—
Global MMLU (Lite)	Multilingual performance	89.8%	—	—	—	—	—

3.2. Gemini 2.5 Flash[편집]

2025년 4월 9일, 2.5 Flash가 Google Cloud Next에서 발표되었다.#

2025년 4월 17일, 2.5 Flash와 2.5 Flash-thinking이 가격과 함께 공개됐다.#

2025년 5월 21일, 2.5 Flash의 업데이트 버전이 공개되었다.# 기존 4월 17일 버전 대비 추론, 멀티모달, 코딩, 긴 context에 대한 벤치마크 점수가 크게 향상되었으며, 20~30% 더 적은 토큰을 사용하여 효율성도 향상되었다고 한다. 같은 날에 서비스의 요금제 개편이 이루어지면서 Advanced 여부가 숨겨지도록 바뀌었다.

2025년 6월 18일, 2.5 Flash의 정식 버전이 공개되었다.

2025년 9월 26일, 2.5 Flash의 업데이트 버전이 공개되었다. 성능은 약간 더 좋아졌다.

Gemini 2.5 Flash 벤치마크 [3]
Benchmark		Gemini 2.5 Flash ^Thinking	Gemini 2.0 Flash	OpenAI o4-mini	Claude Sonnet 3.7 ^{64k Ext.}	Grok 3 Beta ^Extended	DeepSeek R1
Input price	$/1M tokens	$0.30	$0.10	$1.10	$3.00	$3.00	$0.55
Output price	$/1M tokens	$2.50	$0.40	$4.40	$15.00	$15.00	$2.19
Reasoning & knowledge Humanity's Last Exam ^{(no tools)}		11.0%	5.1%	14.3%	8.9%	—	8.6%*
Science GPQA diamond	single attempt ^(pass@1)	82.8%	60.1%	81.4%	78.2%	80.2%	71.5%
Science GPQA diamond	multiple attempts	—	—	—	84.8%	84.6%	—
Mathematics AIME 2025	single attempt ^(pass@1)	72.0%	27.5%	92.7%	49.5%	77.3%	70.0%
Mathematics AIME 2025	multiple attempts	—	—	—	—	93.3%	—
Code generation LiveCodeBench	single attempt ^(pass@1)	63.9%	34.5%	—	—	70.6%	64.3%
Code editing Aider Polyglot		61.9% / 56.7% ^{whole / diff-fenced}	22.2% ^whole	68.9% / 58.2% ^{whole / diff}	64.9% ^diff	53.3% ^diff	56.9% ^diff
Agentic coding SWE-bench Verified		60.4%	—	68.1%	70.3%	—	49.2%
Factuality SimpleQA		26.9%	29.9%	—	—	43.6%	30.1%
Factuality FACTS grounding		85.3%	84.6%	62.1%	78.8%	74.8%	56.8%
Visual reasoning MMMU	single attempt ^(pass@1)	79.7%	71.7%	81.6%	75.0%	76.0%	^{no MM support}
Visual reasoning MMMU	multiple attempts	—	—	—	—	78.0%	^{no MM support}
Image understanding Vibe-Eval (Reka)		65.4%	56.4%	—	—	—	^{no MM support}
Long context MRCR v2	128k (average)	74.0%	36.0%	49.0%	—	54.0%	45.0%
Long context MRCR v2	1M (pointwise)	32.0%	6.0%	—	—	—	—
Multilingual performance Global MMLU (Lite)		88.4%	83.4%	—	—	—	—
Methodology Gemini Results: All scores are pass@1 (no majority voting/parallel compute) unless indicated. Run via AI Studio API (`gemini-2.5-flash-preview-05-20` & `gemini-2.0-flash`) with default sampling. Non-Gemini Results: Sourced from providers' self-reported numbers unless mentioned. SWE-bench follows official reports. Thinking Mode: Claude 3.7 Sonnet (64k extended for GPQA/AIME/MMMU, 32k Aider, 16k HLE). Grok-3 (Extended reasoning for all except SimpleQA/Aider). Single vs Multiple: Higher number indicates majority voting (Grok n=64) or internal scoring with parallel compute (Anthropic). Sources: HLE (Scale.com), AIME 2025 (MathArena), LiveCodeBench, Aider Polyglot, FACTS (Kaggle). MRCR v2 (128k cumulative, 1M pointwise). Costs: Sourced from provider websites (as of May 20th). Input/Output reflects text/image/video. * indicates evaluated on text problems only (without images).

3.3. Gemini 2.5 Flash Image[편집]

자세한 내용은 나노 바나나 문서 참고하십시오.

3.4. Gemini 2.5 Computer Use[편집]

파일:Gemini 2.5 Computer Use LT&QTY.webp

2025년 10월 8일, 2.5 Computer Use 모델의 프리뷰 버전이 공개되었다. 역대 모든 PC 조종 에이전트 모델들중에 가장 빠른 속도를 보여주는 성능이 압권이다.

Gemini 시리즈에선 최초의 CUA(computer Use Agent) 모델이며, 개발자 문서를 확인 시 지정된 도구들의 집합형태로 만들어진것을 확인할 수 있다.

현재는 브라우저를 다루는 것에 집중되어 있으나, 추후 Claude 처럼 사용자의 컴퓨터 전체를 다루는 모델로 발전할 것으로 예상된다.

모델명은 gemini-2.5-computer-use-preview-10-2025로 제공되며, Google AI Studio와 Vertex AI를 통해 접근할 수 있다. 입력으로는 사용자 요청과 스크린샷, 최근 액션 기록을 받아 마우스 클릭, 키보드 입력, 스크롤 같은 동작을 생성한다. 현재는 프리뷰 단계로 안전성을 위해 일부 기능 제한과 감독이 권장된다.

3.5. Gemini 2.5 Flash Native Audio[편집]

파일:gemini-audio-flash__keyword_head.webp

2025년 5월 21일 Gemini 2.5 Flash TTS Preview가 출시되었다.#

2025년 9월 Gemini 2.5 Native Audio Preview가 출시되었다.#

2025년 12월 10일, Gemini 2.5 Flash TTS Preview의 업데이트 버전이 공개되었다.# 스타일과 톤이 다양해졌다. 또한 말의 속도를 더 자연스럽게 제어하도록 변경되었으며, 다중 화자 성능도 개선되었다.

2025년 12월 13일, Gemini 2.5 Flash Native Audio가 정식 출시되었다.# 함수 호출의 정확도가 상승했고, 더 원활한 대화를 생성한다. 또한 복잡한 지침을 더 잘 처리한다.

Gemini 2.5 Flash Native Audio 벤치마크 [4]
Category	Gemini 2.5 Flash Native Audio (12-25)	Gemini 2.5 Flash Native Audio (09-25)	gpt-realtime
Function calling accuracy (ComplexFuncBench audio)	71.5%	66.0%	66.5%
Adherence to developer instructions	90%	84%	-
Overall conversational quality	83%	62%	-
* ComplexFuncBench audio는 원본 텍스트 프롬프트에서 합성된 오디오를 사용하여 평가됨. * 지시 이행 및 대화 품질은 엔터프라이즈 사용 사례를 대표하는 다양한 라이브 멀티모달 시나리오에서 평가됨.

4. 관련 문서[편집]

Gemini(인공지능 모델)
- Gemini(인공지능 모델)/모델

[1] 온디바이스용[2] 출처[3] 출처[4] 출처