구글, 유튜브 영상으로 AI 모델 훈련: 1% 사용 시 23억분 데이터 확보
AI Store에서 AI코딩으로 만들어진 앱을 만나보세요!
지금 바로 방문하기

구글, 유튜브 영상으로 AI 모델 훈련…1%만 사용해도 23억분 분량

카테고리

데이터 과학/AI

서브카테고리

인공지능, 머신러닝, 데이터 분석

대상자

AI 개발자, 데이터 과학자, 영상 콘텐츠 제작자, 법적/윤리적 고려사항 담당자

핵심 요약

  • 구글은 유튜브에 업로드된 영상 데이터를 AI 모델(Gemini, Veo 3) 훈련에 활용하고 있으며, 단 1%만 사용해도 23억분 분량의 데이터를 확보
  • 유튜브의 데이터는 매일 2000만개 이상의 영상이 업로드되며, 이는 AI 학습에 자동으로 활용되는 방식
  • AI 모델이 생성한 콘텐츠에 대한 저작권 문제로 인해 창작자들의 우려가 커지고 있으며, 구글은 법적 면책 조항을 포함

섹션별 세부 요약

###구글의 AI 모델 훈련 데이터 활용

  • 구글은 ‘제미나이(Gemini)’와 ‘비오 3(Veo 3)’ AI 모델 훈련에 유튜브 영상 라이브러리를 사용하고 있다.
  • 유튜브는 현재 200억개 이상의 영상이 등록되어 있으며, 단 1%만 사용해도 23억분 분량의 데이터를 확보할 수 있다.
  • 이는 경쟁 AI 모델들보다 40배 이상 많은 데이터를 제공하며, AI 모델의 성능 향상에 기여할 것으로 예상된다.

###유튜브 데이터 수집 방식

  • 유튜브 사용자가 영상을 업로드할 때, "전 세계적이며 비독점적이고 로열티 없는 사용권"을 자동으로 부여받는다.
  • 구글은 이 사용권을 통해 별도의 동의 없이도 AI 훈련에 해당 콘텐츠를 활용할 수 있다.
  • 매일 2000만개 이상의 영상이 업로드되며, 이는 AI 학습에 광범위하게 활용되고 있다.

###창작자 및 법적 문제

  • 창작자 및 미디어 기업들이 구글의 데이터 활용 방식에 대해 지식재산권 침해 우려를 제기하고 있다.
  • 구글은 사용자가 AI로 생성한 콘텐츠로 인한 저작권 침해 소송 시 법적 책임을 대신 지겠다는 면책 조항을 포함하고 있다.
  • 구글은 CAA와 협력하여 유명인들이 AI 생성 콘텐츠를 식별하고 관리할 수 있도록 도구를 제공 중이다.

결론

  • 구글은 유튜브 영상 데이터를 AI 모델 훈련에 대규모로 활용하고 있으나, 창작자들의 지적재산권을 보호하기 위한 명확한 통보와 협의가 필요하다.