Gemini 2.5 | |
출시일 | |
제작사 | |
기능 | |
링크 | |
1. 개요[편집]
2. 특징[편집]
Gemini 2.5 Nano[1], Gemini 2.5 Computer Use, Gemini 2.5 Flash(Lite/Lite Thinking/기본/Thinking/Image/Live), Gemini 2.5 Pro(기본), Gemini 2.5 Deep Think 총 9개로 구성되어 있다. 이 중 Deep Think 모델은 Ultra 요금제 구독자에게만 제공된다.
2025년 6월 18일, 2.5 Pro와 2.5 Flash의 정식 버전과, 2.5 Flash-Lite의 프리뷰 버전이 공개되었다.
2025년 7월 22일, 2.5 Flash-Lite의 정식버전이 공개되었다.
2025년 9월 26일, 2.5 Flash와 2.5 Flash-Lite의 업데이트 버전이 공개되었다. 성능은 약간 더 좋아지고, 답변까지 걸리는 시간이 기존버전 대비 2~3초 감소되어 사용자 경험이 개선되었다.
Google AI Studio를 통해서도 사용이 가능하다. Temperature, Top P 등의 수치를 설정할 수 있으며, 이 모델에게 직접 물어봐서 적절한 값을 추천받을 수 있다. 도구(Tools)에서 추가적인 기능도 확인할 수 있다. 현재의 날짜를 전혀 모르고, 2025년 1월 이후의 지식이 학습되지 않아 이 부분은 주의가 요구된다. 2025년 1월 이전의 지식이라도 2025년 1월에 가까울수록 학습된 지식의 양이 적어서인지 2024년 11월 미국 대선에서 카멀라 해리스가 아니라 조 바이든이 도널드 트럼프와 대결'할 것'이라는 등의 정보를 표출하기도 한다.
이 모델이 알려진 분야에서 어느 수준의 문제를 얼마나 쉽게 맞출 수 있는지 표로 만들면 다음과 같다.
2025년 6월 18일, 2.5 Pro와 2.5 Flash의 정식 버전과, 2.5 Flash-Lite의 프리뷰 버전이 공개되었다.
2025년 7월 22일, 2.5 Flash-Lite의 정식버전이 공개되었다.
2025년 9월 26일, 2.5 Flash와 2.5 Flash-Lite의 업데이트 버전이 공개되었다. 성능은 약간 더 좋아지고, 답변까지 걸리는 시간이 기존버전 대비 2~3초 감소되어 사용자 경험이 개선되었다.
Google AI Studio를 통해서도 사용이 가능하다. Temperature, Top P 등의 수치를 설정할 수 있으며, 이 모델에게 직접 물어봐서 적절한 값을 추천받을 수 있다. 도구(Tools)에서 추가적인 기능도 확인할 수 있다. 현재의 날짜를 전혀 모르고, 2025년 1월 이후의 지식이 학습되지 않아 이 부분은 주의가 요구된다. 2025년 1월 이전의 지식이라도 2025년 1월에 가까울수록 학습된 지식의 양이 적어서인지 2024년 11월 미국 대선에서 카멀라 해리스가 아니라 조 바이든이 도널드 트럼프와 대결'할 것'이라는 등의 정보를 표출하기도 한다.
이 모델이 알려진 분야에서 어느 수준의 문제를 얼마나 쉽게 맞출 수 있는지 표로 만들면 다음과 같다.
Benchmark | 2.5 Flash-Lite | 2.5 Flash-Lite (Thinking) | 2.5 Flash | 2.5 Flash (Thinking) | 2.5 Pro (Thinking) |
Reasoning & knowledge (Humanity’s Last Exam, no tools) | 5.1% | 6.9% | 8.4% | 11.0% | 21.6% |
과학 (GPOA diamond) | 64.6% | 66.7% | 78.3% | 82.8% | 86.4% |
수학 (AIME 2025) | 49.8% | 63.1% | 61.6% | 72.0% | 88.0% |
코드 생성 (LiveCodeBench) | 33.7% | 34.3% | 41.1% | 55.4% | 69.0% |
코드 수정 (Aider Polyglot) | 26.7% | 27.1% | 44.0% | 56.7% | 82.2% |
코딩 에이전트 (SWE-bench Verified, single) | 31.6% | 27.6% | 50.0% | 48.9% | 59.6% |
코딩 에이전트 (SWE-bench Verified, multiple) | 42.6% | 44.9% | 60.0% | 60.3% | 67.2% |
검색 (SimpleQA) | 10.7% | 13.0% | 25.8% | 26.9% | 54.0% |
검색 (FACTS Grounding) | 84.1% | 86.8% | 83.4% | 85.3% | 87.8% |
비전 (MMMU) | 72.9% | 72.9% | 76.9% | 79.7% | 82.0% |
이미지 이해 (Vibe-Eval (Reka)) | 51.3% | 57.5% | 66.2% | 65.4% | 67.2% |
긴 문장 (128k, average) | 16.6% | 30.6% | 34.1% | 54.3% | 58.0% |
긴 문장 (MRCR v2 (8-needle), 1M) | 4.1% | 5.4% | 16.8% | 21.0% | 16.4% |
언어 (Global MMLU (Lite)) | 81.1% | 84.5% | 85.8% | 88.4% | 89.2% |
3. 모델[편집]
3.1. Gemini 2.5 Pro[편집]
한국 기준으로 2025년 3월 26일에 2.5 Pro 실험용 버전이 공개되었다.# 비추론 모델의 장점과 추론 모델의 장점을 융합한 추론 모델로 앞으로의 제미나이의 모델의 기준점이 될 것이라고 한다.
2025년 4월 4일에 2.5 Pro를 Preview 모델로 승격하고 사용 요금을 공개했다.#
2025년 5월 6일, 2.5 Pro의 업데이트 버전이 공개되었다. 코딩 능력을 중점으로 업데이트했다고 한다. 그래서 코딩 벤치마크의 점수는 모두 향상되었으나, 다른 벤치마크에서는 소폭 떨어진 점수를 보여준다. ##2#3
2025년 6월 5일, 2.5 Pro의 업데이트 버전이 공개되었다.# 전 버전 대비 전반적으로 고르게 성능 향상이 이뤄져 벤치마크 점수가 큰 폭으로 향상된 것은 맞으나, 일부 영역에서는 성능이 도리어 하락했다.
2025년 6월 18일, 2.5 Pro의 정식 버전이 공개되었다.
2025년 4월 4일에 2.5 Pro를 Preview 모델로 승격하고 사용 요금을 공개했다.#
2025년 5월 6일, 2.5 Pro의 업데이트 버전이 공개되었다. 코딩 능력을 중점으로 업데이트했다고 한다. 그래서 코딩 벤치마크의 점수는 모두 향상되었으나, 다른 벤치마크에서는 소폭 떨어진 점수를 보여준다. ##2#3
2025년 6월 5일, 2.5 Pro의 업데이트 버전이 공개되었다.# 전 버전 대비 전반적으로 고르게 성능 향상이 이뤄져 벤치마크 점수가 큰 폭으로 향상된 것은 맞으나, 일부 영역에서는 성능이 도리어 하락했다.
2025년 6월 18일, 2.5 Pro의 정식 버전이 공개되었다.
Gemini 2.5 Pro 벤치마크 [2] | |||||||
Benchmark | Description | Gemini 2.5 Pro | OpenAI o3-mini | OpenAI GPT-4.5 | Claude 3.7 Sonnet | Grok 3 Beta | DeepSeek R1 |
Humanity's Last Exam | Reasoning & knowledge No tools | 18.8% | 14.0%* | 6.4% | 8.9% | — | 8.6%* |
GPQA diamond | Science single attempt (pass@1) | 84.0% | 79.7% | 71.4% | 78.2% | 80.2% | 71.5% |
multiple attempts | — | — | — | 84.8% | 84.6% | — | |
AIME 2025 | Mathematics single attempt (pass@1) | 86.7% | 86.5% | — | 49.5% | 77.3% | 70.0% |
multiple attempts | — | — | — | — | 93.3% | — | |
AIME 2024 | Mathematics single attempt (pass@1) | 92.0% | 87.3% | 36.7% | 61.3% | 83.9% | 79.8% |
multiple attempts | — | — | — | 80.0% | 93.3% | — | |
LiveCodeBench v5 | Code generation single attempt (pass@1) | 70.4% | 74.1% | — | — | 70.6% | 64.3% |
multiple attempts | — | — | — | — | 79.4% | — | |
Aider Polyglot | Code editing whole / diff | 74.0% / 68.6% | 60.4% diff | 44.9% diff | 64.9% diff | — | 56.9% diff |
SWE-bench verified | Agentic coding | 63.8% | 49.3% | 38.0% | 70.3% | — | 49.2% |
SimpleQA | Factuality | 52.9% | 13.8% | 62.5% | — | 43.6% | 30.1% |
MMMU | Visual reasoning single attempt (pass@1) | 81.7% | no MM support | 74.4% | 75.0% | 76.0% | no MM support |
multiple attempts | — | no MM support | — | — | 78.0% | no MM support | |
Vibe-Eval (Reka) | Image understanding | 69.4% | no MM support | — | — | — | no MM support |
MRCR | Long context 128k | 91.5% | 36.3% | 48.8% | — | — | — |
1M | 83.1% | — | — | — | — | — | |
Global MMLU (Lite) | Multilingual performance | 89.8% | — | — | — | — | — |
3.2. Gemini 2.5 Flash[편집]
2025년 4월 9일, 2.5 Flash가 Google Cloud Next에서 발표되었다.#
2025년 4월 17일, 2.5 Flash와 2.5 Flash-thinking이 가격과 함께 공개됐다.#
2025년 5월 21일, 2.5 Flash의 업데이트 버전이 공개되었다.# 기존 4월 17일 버전 대비 추론, 멀티모달, 코딩, 긴 context에 대한 벤치마크 점수가 크게 향상되었으며, 20~30% 더 적은 토큰을 사용하여 효율성도 향상되었다고 한다. 같은 날에 서비스의 요금제 개편이 이루어지면서 Advanced 여부가 숨겨지도록 바뀌었다.
2025년 6월 18일, 2.5 Flash의 정식 버전이 공개되었다.
2025년 9월 26일, 2.5 Flash의 업데이트 버전이 공개되었다. 성능은 약간 더 좋아졌다.
2025년 4월 17일, 2.5 Flash와 2.5 Flash-thinking이 가격과 함께 공개됐다.#
2025년 5월 21일, 2.5 Flash의 업데이트 버전이 공개되었다.# 기존 4월 17일 버전 대비 추론, 멀티모달, 코딩, 긴 context에 대한 벤치마크 점수가 크게 향상되었으며, 20~30% 더 적은 토큰을 사용하여 효율성도 향상되었다고 한다. 같은 날에 서비스의 요금제 개편이 이루어지면서 Advanced 여부가 숨겨지도록 바뀌었다.
2025년 6월 18일, 2.5 Flash의 정식 버전이 공개되었다.
2025년 9월 26일, 2.5 Flash의 업데이트 버전이 공개되었다. 성능은 약간 더 좋아졌다.
Gemini 2.5 Flash 벤치마크 [3] | |||||||
Benchmark | Gemini 2.5 Flash Thinking | Gemini 2.0 Flash | OpenAI o4-mini | Claude Sonnet 3.7 64k Ext. | Grok 3 Beta Extended | DeepSeek R1 | |
Input price | $/1M tokens | $0.30 | $0.10 | $1.10 | $3.00 | $3.00 | $0.55 |
Output price | $/1M tokens | $2.50 | $0.40 | $4.40 | $15.00 | $15.00 | $2.19 |
Reasoning & knowledge Humanity's Last Exam (no tools) | 11.0% | 5.1% | 14.3% | 8.9% | — | 8.6%* | |
Science GPQA diamond | single attempt (pass@1) | 82.8% | 60.1% | 81.4% | 78.2% | 80.2% | 71.5% |
multiple attempts | — | — | — | 84.8% | 84.6% | — | |
Mathematics AIME 2025 | single attempt (pass@1) | 72.0% | 27.5% | 92.7% | 49.5% | 77.3% | 70.0% |
multiple attempts | — | — | — | — | 93.3% | — | |
Code generation LiveCodeBench | single attempt (pass@1) | 63.9% | 34.5% | — | — | 70.6% | 64.3% |
Code editing Aider Polyglot | 61.9% / 56.7% whole / diff-fenced | 22.2% whole | 68.9% / 58.2% whole / diff | 64.9% diff | 53.3% diff | 56.9% diff | |
Agentic coding SWE-bench Verified | 60.4% | — | 68.1% | 70.3% | — | 49.2% | |
Factuality SimpleQA | 26.9% | 29.9% | — | — | 43.6% | 30.1% | |
Factuality FACTS grounding | 85.3% | 84.6% | 62.1% | 78.8% | 74.8% | 56.8% | |
Visual reasoning MMMU | single attempt (pass@1) | 79.7% | 71.7% | 81.6% | 75.0% | 76.0% | no MM support |
multiple attempts | — | — | — | — | 78.0% | no MM support | |
Image understanding Vibe-Eval (Reka) | 65.4% | 56.4% | — | — | — | no MM support | |
Long context MRCR v2 | 128k (average) | 74.0% | 36.0% | 49.0% | — | 54.0% | 45.0% |
1M (pointwise) | 32.0% | 6.0% | — | — | — | — | |
Multilingual performance Global MMLU (Lite) | 88.4% | 83.4% | — | — | — | — | |
Methodology
| |||||||
3.3. Gemini 2.5 Flash Image[편집]
3.4. Gemini 2.5 Computer Use[편집]
2025년 10월 8일, 2.5 Computer Use 모델의 프리뷰 버전이 공개되었다. 역대 모든 PC 조종 에이전트 모델들중에 가장 빠른 속도를 보여주는 성능이 압권이다.
Gemini 시리즈에선 최초의 CUA(computer Use Agent) 모델이며, 개발자 문서를 확인 시 지정된 도구들의 집합형태로 만들어진것을 확인할 수 있다.
현재는 브라우저를 다루는 것에 집중되어 있으나, 추후 Claude 처럼 사용자의 컴퓨터 전체를 다루는 모델로 발전할 것으로 예상된다.
모델명은 gemini-2.5-computer-use-preview-10-2025로 제공되며, Google AI Studio와 Vertex AI를 통해 접근할 수 있다. 입력으로는 사용자 요청과 스크린샷, 최근 액션 기록을 받아 마우스 클릭, 키보드 입력, 스크롤 같은 동작을 생성한다. 현재는 프리뷰 단계로 안전성을 위해 일부 기능 제한과 감독이 권장된다.
3.5. Gemini 2.5 Flash Native Audio[편집]
2025년 5월 21일 Gemini 2.5 Flash TTS Preview가 출시되었다.#
2025년 9월 Gemini 2.5 Native Audio Preview가 출시되었다.#
2025년 12월 10일, Gemini 2.5 Flash TTS Preview의 업데이트 버전이 공개되었다.# 스타일과 톤이 다양해졌다. 또한 말의 속도를 더 자연스럽게 제어하도록 변경되었으며, 다중 화자 성능도 개선되었다.
2025년 12월 13일, Gemini 2.5 Flash Native Audio가 정식 출시되었다.# 함수 호출의 정확도가 상승했고, 더 원활한 대화를 생성한다. 또한 복잡한 지침을 더 잘 처리한다.
Gemini 2.5 Flash Native Audio 벤치마크 [4] | |||
Category | Gemini 2.5 Flash Native Audio (12-25) | Gemini 2.5 Flash Native Audio (09-25) | gpt-realtime |
Function calling accuracy (ComplexFuncBench audio) | 71.5% | 66.0% | 66.5% |
Adherence to developer instructions | 90% | 84% | - |
Overall conversational quality | 83% | 62% | - |
* ComplexFuncBench audio는 원본 텍스트 프롬프트에서 합성된 오디오를 사용하여 평가됨. * 지시 이행 및 대화 품질은 엔터프라이즈 사용 사례를 대표하는 다양한 라이브 멀티모달 시나리오에서 평가됨. | |||