컴파일러 기초: Lexer 구현 및 동작 원리 분석

📅 2025-08-23T17:00:13.231566 👤 모두에게 좋은일만 가득하길 🏷️ 개발, 트렌드

완성도:

0.8

🤖 AI 추천

컴파일러의 첫 단계인 Lexer(토크나이저)의 구현 원리를 배우고 싶은 초중급 개발자 및 컴퓨터 공학 전공 학생

이 문서는 컴파일러의 첫 단계인 Lexical Analysis (Lexer 또는 Tokenizer)의 구현 원리를 C++ 코드를 중심으로 상세하게 설명하며, 입력 문자열을 의미 있는 토큰 단위로 분리하는 과정을 다룹니다.

컴파일러 단계별 설명: 전처리, 컴파일 (Lexical Analysis, Syntax Analysis, Semantic Analysis, IR 생성 및 최적화, Target 코드 생성), 어셈블러, 링커 등 컴파일러의 전체적인 파이프라인을 간략하게 소개합니다.
Lexer의 역할: 소스 코드를 문자 단위로 읽어들여, 숫자, 연산자, 괄호 등의 '토큰(Token)'으로 분리하는 작업을 수행합니다.
토큰(Token) 구조: TokenType (e.g., NUMBER, PLUS, MINUS)과 value (e.g., "12", "+")를 포함하는 Token 구조체 정의를 제시합니다.
Lexer 클래스 구현:
- 입력 문자열(text)과 현재 파싱 위치(pos)를 멤버 변수로 가집니다.
- is_space(): 공백 문자를 구분하는 헬퍼 함수를 구현합니다.
- is_digit(): 숫자 문자를 구분하는 헬퍼 함수를 구현합니다.
- getNextToken(): 문자열을 순회하며 각 문자를 분석하여 토큰을 반환합니다.
  - 공백은 건너뜁니다.
  - 연속된 숫자는 하나의 NUMBER 토큰으로 처리합니다.
  - 기호 문자들은 해당 연산자 토큰으로 처리합니다.
  - 알 수 없는 문자는 오류를 발생시킵니다.
- 문자열의 끝에 도달하면 END 토큰을 반환합니다.
예제 코드: hello.c와 같은 간단한 코드 예시를 통해 전처리 단계를 설명하고, 12*(34+56)과 같은 입력 문자열을 Lexer를 통해 토큰화하는 과정을 보여줍니다.