리눅스 명령어 체크리스트: 데이터 엔지니어와 분석가를 위한 필수 지식
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
DevOps
대상자
데이터 엔지니어, 데이터 분석가, 시스템 관리자
- 난이도: 중급 이상, 리눅스 명령어 기초 지식 보유자에게 유용
- 분야별 특성: 데이터 파이프라인 최적화, 클라우드/온프레미스 인프라 관리, 자동화 작업에 초점
핵심 요약
- 필수 명령어 100개: 파일 관리(
ls
,cd
), 로그 분석(grep
,awk
), 시스템 모니터링(top
,df
), 네트워크(ssh
,curl
) 등 데이터 엔지니어링/분석에 핵심적인 명령어 포함 - 성능 개선:
rsync
로 대규모 데이터 동기화,grep
으로 패턴 매칭,tar
으로 데이터 압축/압축 해제 - 자동화 도구:
crontab
으로 ETL 작업 스케줄링,nohup
으로 장시간 작업 관리
섹션별 세부 요약
1. 기본 파일 관리 명령어
pwd
,ls
,cd
,mkdir
,rm
,cp
,mv
,touch
,cat
,head
,tail
- 용도: 디렉터리 이동, 파일 생성/삭제, 내용 확인 및 편집
- 예시:
tail -f log.txt
로 로그 실시간 모니터링
2. 로그 및 텍스트 처리
grep 'pattern' file
,find dir -name 'filename'
,awk '{print $1}'
,sed
,cut
,sort
,uniq
,wc
- 용도: 대규모 로그 분석, 텍스트 필터링, 중복 제거, 줄 수 계산
- 핵심 기능:
grep
으로 특정 패턴 검색,awk
으로 필드별 데이터 추출
3. 시스템 성능 모니터링
top
,ps aux
,df -h
,du -sh
,free -m
,lsof
,lscpu
- 용도: CPU/메모리 사용량 확인, 디스크 공간 점검, 프로세스 관리
- 예시:
top
으로 실시간 리소스 사용량 모니터링
4. 네트워크 및 보안 관련 명령어
ifconfig
,ping
,nslookup
,ssh
,scp
,curl
,wget
,nc
- 용도: 서버 연결 테스트, 파일 전송, API 데이터 추출
- 보안:
scp
로 암호화된 파일 전송,ssh
로 원격 서버 접속
5. 데이터 압축 및 전송
tar -czf
,gzip
,zip
,rsync -av
- 용도: 대규모 데이터 압축, 환경 간 파일 동기화
- 효율성:
rsync
로 중복 데이터 동기화 시간 최소화
6. 작업 자동화 및 스크립트 관리
crontab -e
,nohup
,alias
,source
- 용도: 정기적 ETL 작업 스케줄링, 장시간 작업 유지, 스크립트 실행
- 예시:
crontab -e
로 주기적 데이터 처리 작업 설정
7. 권한 및 시스템 관리
sudo
,chmod
,chown
,who
,man
,history
- 용도: 사용자 권한 변경, 파일 접근 제어, 명령어 매뉴얼 확인
- 보안:
chmod 755
로 파일 권한 설정,sudo
로 관리자 권한 실행
결론
- 실무 팁: 매일 사용하는 명령어를 정리한 체크리스트를 유지하고, 팀 내 공유하여 효율성 극대화
- 핵심: 리눅스 명령어는 데이터 파이프라인 최적화, 자동화 작업, 시스템 모니터링의 핵심 도구로, 정기적인 실습과 문서화가 성과 향상에 필수적