Google Unveils Gemini 2.5 Flash/Pro and Flash-Lite Model
AI Store에서 AI코딩으로 만들어진 앱을 만나보세요!
지금 바로 방문하기

Google, Gemini 2.5 Flash/Pro 정식 출시 및 `Flash-Lite` 모델 공개

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

인공지능, 머신러닝

대상자

AI 개발자, 데이터 과학자, 대규모 트래픽 처리 업무 담당자

핵심 요약

  • Gemini 2.5 모델군멀티모달 입력, 1M 토큰 컨텍스트, 도구 연결, Thinking 모드 지원 등 비용 대비 성능 최적화(Pareto Frontier) 설계
  • Flash-Lite번역, 분류 등 지연에 민감한 작업에 특화되어 있으며, 2.0 Flash/Flash-Lite보다 지연 시간 20% 감소, 품질 향상
  • 가격 구조 변경으로 2.5 Flash 입력 100만 토큰당 $0.30, 출력 100만 토큰당 $2.50 (이전 대비 2배 상승)

섹션별 세부 요약

1. Gemini 2.5 모델군 주요 기능

  • 멀티모달 입력 (텍스트, 이미지, 비디오) 및 1M 토큰 컨텍스트 지원
  • Thinking 모드 활성화 시 정확도 상승 (예: HumanEval 5.1% → 6.9%, SWE-bench 42.6% → 44.9%)
  • 비용 대비 성능 최적화 설계로 대규모 트래픽 처리에 적합

2. Flash-Lite 모델 성능 개선

  • 번역(GPQA) 64.6% → 66.7%, 수학(AIME 2025) 49.8% → 63.1% 향상
  • 코드 생성 34.3%, 편집 27.1% (고성능 모델 대비 낮지만 비용 효율성 우수)
  • 이미지 이해 51.3% → 57.5%, 다국어(MMLU) Non-thinking 81.1% → Thinking 84.5%

3. 가격 구조 변경 및 사용자 피드백

  • 2.5 Flash 입력 100만 토큰당 $0.30 (이전 2.0 기준 $0.15, 2배 인상)
  • Audio 처리 비용 급증 (2.5 Flash Lite 입력 100만 토큰당 $0.5 → 2.0 기준 $0.075, 6.33배 상승)
  • 사용자 피드백
  • Gemini 2.5 Pro리서치 보고서 생성, 번역/요약 작업에서 ChatGPT 대비 우수
  • Claude 대비 Gemini 2.5 Pro코딩 안정성 우수, UX 개선 필요
  • Flash-Lite빠른 응답(최저 200ms, 평균 400ms)으로 Quick Edits 작업에 적합

결론

  • Gemini 2.5 모델군비용 대비 성능 최적화Thinking 모드 활용을 통해 대규모 트래픽 처리에 적합
  • Flash-Lite빠른 응답낮은 비용으로 번역, 분류 등 지연 민감 작업에 강력 추천
  • 가격 인상에 따라 2.0 Flash코딩 외 분야에서 경쟁력 유지 가능
  • 사용자 테스트를 통해 Thinking 모드 활성화 시 정확도 향상 확인, 모델 선택 시 비용/성능 균형 고려 권장