Google, Gemini 2.5 Flash/Pro 정식 출시 및 `Flash-Lite` 모델 공개
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
인공지능, 머신러닝
대상자
AI 개발자, 데이터 과학자, 대규모 트래픽 처리 업무 담당자
핵심 요약
- Gemini 2.5 모델군은 멀티모달 입력, 1M 토큰 컨텍스트, 도구 연결, Thinking 모드 지원 등 비용 대비 성능 최적화(Pareto Frontier) 설계
- Flash-Lite는 번역, 분류 등 지연에 민감한 작업에 특화되어 있으며, 2.0 Flash/Flash-Lite보다 지연 시간 20% 감소, 품질 향상
- 가격 구조 변경으로 2.5 Flash 입력 100만 토큰당 $0.30, 출력 100만 토큰당 $2.50 (이전 대비 2배 상승)
섹션별 세부 요약
1. Gemini 2.5 모델군 주요 기능
- 멀티모달 입력 (텍스트, 이미지, 비디오) 및 1M 토큰 컨텍스트 지원
- Thinking 모드 활성화 시 정확도 상승 (예: HumanEval 5.1% → 6.9%, SWE-bench 42.6% → 44.9%)
- 비용 대비 성능 최적화 설계로 대규모 트래픽 처리에 적합
2. Flash-Lite 모델 성능 개선
- 번역(GPQA) 64.6% → 66.7%, 수학(AIME 2025) 49.8% → 63.1% 향상
- 코드 생성 34.3%, 편집 27.1% (고성능 모델 대비 낮지만 비용 효율성 우수)
- 이미지 이해 51.3% → 57.5%, 다국어(MMLU) Non-thinking 81.1% → Thinking 84.5%
3. 가격 구조 변경 및 사용자 피드백
- 2.5 Flash 입력 100만 토큰당 $0.30 (이전 2.0 기준 $0.15, 2배 인상)
- Audio 처리 비용 급증 (2.5 Flash Lite 입력 100만 토큰당 $0.5 → 2.0 기준 $0.075, 6.33배 상승)
- 사용자 피드백
- Gemini 2.5 Pro는 리서치 보고서 생성, 번역/요약 작업에서 ChatGPT 대비 우수
- Claude 대비 Gemini 2.5 Pro는 코딩 안정성 우수, UX 개선 필요
- Flash-Lite는 빠른 응답(최저 200ms, 평균 400ms)으로 Quick Edits 작업에 적합
결론
- Gemini 2.5 모델군은 비용 대비 성능 최적화와 Thinking 모드 활용을 통해 대규모 트래픽 처리에 적합
- Flash-Lite는 빠른 응답과 낮은 비용으로 번역, 분류 등 지연 민감 작업에 강력 추천
- 가격 인상에 따라 2.0 Flash가 코딩 외 분야에서 경쟁력 유지 가능
- 사용자 테스트를 통해 Thinking 모드 활성화 시 정확도 향상 확인, 모델 선택 시 비용/성능 균형 고려 권장