게임을 넘어 현실까지 배우는 AI: 존 카맥의 현실 기반 강화학습 도전
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
인공지능, 머신러닝
대상자
AI, 강화학습, 게임 개발, 로봇공학 분야 연구자 및 개발자
핵심 요약
- 강화학습 기반 AGI 연구에 집중 하며, LLM을 지양 하고 환경과 상호작용하며 지속적·효율적 학습 에 관심
- Atari 게임을 기반으로 물리적 RL 시스템을 구축 하며, 속도, 지연, 연속학습, 망각 방지 등 현실과 유사한 기술적 과제 제시
- CNN, 보상 표현, 탐험 전략 등에 대한 경험 기반 통찰 제공, 기존 관행에 의문을 제기
섹션별 세부 요약
###존 카맥의 AI 연구 배경 및 관심 분야
- Id Software, Oculus, Armadillo Aerospace 등에서의 경력으로 AI 분야에 간접적 영향 줌
- 강화학습에 집중 하며, LLM과 달리 환경과의 상호작용 기반 학습 을 선호
- 리처드 서튼 과 협업하며, 강화학습의 철학을 공유 함
###Atari 게임을 기반으로 한 RL 시스템 구축
- 실시간 카메라·조이스틱 입력 으로 학습하는 물리적 RL 시스템 구축
- 속도, 지연, 연속학습, 망각 방지 등 현실과 유사한 기술적 과제 제시
- CNN 구조, 보상 표현, 탐험 전략 등에 대한 경험 기반 통찰 제공
###기존 연구와의 차별점 및 과제
- LLM이 RL을 대체할 가능성은 열려 있으나, 동물처럼 환경에서 배우는 방식에 더 매력 느킴
- 게임을 실험 환경으로 활용 하며, 픽셀 기반 입력만으로 학습 가능성 탐색
- 막대한 학습 프레임 수 와 효율성 문제 등 여전히 해결되지 않은 과제 존재
###학습 프레임워크 및 기술적 접근
- CUDA, PyTorch 등으로 실험 속도 향상 시도
- Atari 대신 Sega Master System 으로 시작, 비디오 기반 학습은 보류
- ALE 직접 사용 권장, Gym 등 래퍼 사용 시 문제 발생 가능성 있음
###학습 효율성 및 일반화 문제
- Atari 100k 같은 데이터 효율성 있는 학습 중요
- 환경의 결정론적 행동 은 Sticky action 도입 등으로 극복 필요
- 现实은 에이전트를 기다려주지 않음 → 비동기 처리와 지연 고려 필요
- 단일 환경에서의 학습 실패 는 알고리즘 자체 문제 시사
###강화학습의 미래 방향
- 기억 보존, 학습률 조정, 가중치 sparsity 등으로 망각 문제 개선 시도
- Task ID 사용은 부정행위 로 간주, implicit하게 전환 필요
- OpenAI의 Sonic 챌린지 는 from scratch 학습 의 필수성 강조
- GATO 등은 부정적 전이(negative transfer) 발생 가능성 있음
결론
- Atari 게임 기반의 물리적 RL 시스템 구축 을 통해 실제 환경에서의 학습 효율 및 일반화 성능 을 고찰하고, AGI 연구를 위한 실질적 기반 마련 을 목표로 함.