GitAIOps – Cpt1, AI 시대, 개발자의 인프라

Activities / Study / GitAIOps

GitAIOps – Cpt1, AI 시대, 개발자의 인프라

Kubernetes, AWS, Terraform, Linux 운영 경험을 정리한 기술 블로그입니다.

Summary

  • 클라우드와 컨테이너의 확산으로 개발자는 코드뿐만 아니라 배포/운영/인프라 까지 이해가 필요해짐
  • k8s와 GitOps는 현대 인프라의 표준이며, AI를 결합한 GitAIOps는 인프라 구축 및 운영을 더욱 자동화
  • 에이전트형 AI를 협업도구로 사용해 가상의 스타트업을 직접 구축하고 성장시키는 실습 진행

Thoughts

  • 개발자도 인프라를 잘 알아야 한다는 부분에는 큰 공감
    • 개발자 또한 배포/로그/모니터링/CICD를 알아야 협업/장애대응시 대처가 빠르기에 동의하는 부분
  • GitAIOps가 기존 GitOps 대비 얼마나 다른지, 본질적으로 다른건지는 의문
    • 운영과정에 대한 책(AWS,k8s,GitOps 등)이나 개발 중 AI 활용에 대한 책(바이브코딩,Spec Driven 등)은 종종 보았음
    • AI 에이전트를 운영 프로세스에 녹여내는 과정에 대한 방법론/책은 없었기에 기대가 됨
    • 아직까진 새로운 패러다임이라기보단 GitOps의 단점을 보완하는 느낌이라 추가로 어떤 문제를 해결하는지 실습을 진행해봐야 알것 같음
  • Guardrail의 유지 관리가 GitAIOps의 품질을 결정할 것 같음
    • Claude Code의 SKILL로 제공되는 부분을 실습자의 환경에 따라 유사하게 작동되도록 구성한듯함
    • 세션마다 초기화되는 AI 컨텍스트를 CLAUDE.md/가드레일 파일로 보완한다는점에서 하네스 엔지니어링과 비슷한가 싶음
    • Garbage In/Garbage Out이니 이러한 가드레일의 작성 및 관리도 익혀둬야할 부분이라고 생각함

여기 레포에 guardrails이라고 부르는 시스템이 기존 클로드코드 SKILLS 활용이랑 같은거야?

그럼 이 방식이 SKILLS보다 어떤 장점이 있어?


1. AI 시대, 개발자의 인프라

1.1 개발자에게 인프라가 다가온 시대

  • 클라우드와 컨테이너의 확산으로 인해 개발자가 배포,운영,인프라까지 이해해야하는 시대가 되었음

1.1.1 DevOps 문화의 확산

  • 과거에는 개발 조직과 운영 조직이 분리되어있었음
  • You build it, you run it, 만든사람이 운영하는 문화가 확산되어 개발자가 운영까지 책임지게 됨
  • 코드작성 이후 배포, 모니터링, 로그확인, 장애대응, CI/CD 등등..

1.1.2 클라우드 네이티브 전환

  • 클라우드 환경에서 서버를 직접 수동으로 셋팅하는 대신 코드로 관리하는것의 보편화
  • 콘솔 작업 대신 Terraform, k8s YAML 등을 통해 코드로 정리하고 git 으로 관리 > 재현/ 추적 가능성 높아짐
  • K8s Manifest, Helm chart, CI/CD pipeline, 모니터링 구성등 다양한 분야에서 코드화 관리

1.1.3 풀스택의 범위 확장

  • 풀스택 개발자는 기존 프론트+백 을 넘어서 배포, 운영, 인프라까지 포함
  • 서비스 개발 뿐만 아니라 컨테이너화>배포>트래픽>로그>장애및복구 까지 흐름 이해필요

1.2 쿠버네티스, 클라우드 인프라의 공통 언어

  • 개발자의 인프라 공부 시작점으로 쿠버네티스를 추천함

1.2.1 왜 쿠버네티스인가

  • 특정 클라우드에 종속되지 않음: AWS(EKS), GCP(GKE), Azure(AKS), 온프레미스 환경에서도 이름만 다를뿐 동일한 방식으로 사용하고 운영할 수 있음
  • 클라우드 운영체제: 프로세스, 파일시스템, 네트워크등을 추상화한 운영체제(리눅스)처럼, 쿠버네티스는 배포, 스토리지, 네트워킹, 보안등을 추상화하여 제공
  • 개념이 인프라 전반과 겹침: 인프라 운영에서 필요한 개념이 다른 플랫폼에서도 동일하게 활용가능
    • 애플리케이션 배포(Deployment, Pod)
    • 트래픽 라우팅(Service, Ingress)
    • 설정 및 비밀정보(ConfigMap, Secret)
    • 자동 확장(HPA)
    • 모니터링과 로그 관리
    • 이러한 개념들은 다른 컨테이너 기반 플랫폼(ECS/CloudRun/ContainerApps)에서도 유사함

1.2.2 가파른 학습 곡선

  • 쿠버네티스 자체보다는 주변 생태계가 방대하여 선택지/학습 난이도가 높음
  • 운영 과정에서 선택해야 하는 많은 도구
    • 모니터링(Prometheus, Datadog 등)
    • 로그 수집(ELK, Loki)
    • 배포 전략(Rolling Update, Blue/Green, Canary)
    • GitOps(ArgoCD, Flux)
    • 시크릿 관리
    • 메시지 큐(Kafka, RabbitMQ 등)
    • 트래픽 관리(Ingress, Gateway API)
  • 도구 선택 이후에도 설치/설정/연동/운영/문서화 등 각 도구에 대한 숙련 필요

1.2.3 AI라는 새로운 동료

  • 에이전트형 AI를 통해 코드 작성을 넘어 직접 명령 수행, 파일 수정, 오류 분석이 가능
  • 도구 추천 및 선택 이유, 설치와 설정 수행, 설치 중 에러 분석 수정, 정상 동작 확인 가능
  • 모든 선택지를 검토하는것 대신 우리 환경에 적절한 도구를 빠르게 찾고 구축 가능

1.3 GitOps에서 GitAIOps로

  • GitOps가 배포를 자동화하였다면, GitAIOps는 인프라 구축/운영/문서화까지 자동화

1.3.1 GitOps: 선언적 관리의 시작

  • Git 저장소를 SSOT(Single Source of Truth)로 삼아 인프라를 선언적으로 관리
  • 기존 방식은 서버에 접속하여 직접 배포하며, 작업 이력 관리가 어렵고 반복작업/실수가 많음
  • GitOps 방식을 통해 원하는 인프라 상태를 코드화하여 저장하면, 실제 상태가 동기화됨
    • 배포 자동화 : Git Push만으로 배포
    • 변경 이력 관리 : Git 로그가 곧 배포 기록
    • 쉬운 롤백 : Git Revert로 이전 상태 복원
    • 코드 리뷰 : 인프라도 PR 기반으로 검토
    • 재현성 : Git만 있으면 동일한 환경 재구성 가능

1.3.2 GitOps만으로는 부족한 이유

  • 배포작업은 자동화 가능하지만, 배포 내용 준비/설정/운영 부담은 사람이 담당함
    • YAML을 직접 작성해야 함
    • Deployment, Service, ConfigMap, Secret, HPA 등 여러 파일을 관리
    • Helm 템플릿과 values 파일도 직접 유지
    • 모니터링, 로깅, 알림까지 모두 설정
    • 장애 분석도 사람이 메트릭과 로그를 직접 확인
    • 문서화는 나중으로 밀려 쉽게 누락

1.3.3 AI가 채우는 빈자리

  • 에이전트형 AI를 통해 부족한 자리를 메꿀 수 있음
    • 매니페스트 생성: 자연어로 의도를 전달하면 완성된 구성코드 (manifest) 생성 가능
    • 장애 분석: Pod 상태, 로그, 이벤트를 분석하여 원인과 해결 방법 제안
    • 문서화: 작업 과정과 의사결정을 자동 기록 / 설정 이유와 변경 내역까지 문서로 정리

1.3.4 GitAIOps: Git + AI + Ops

  • GitOps는 “선언하면 배포된다”, GitAIOps는 “말하면 배포/운영/관리까지 자동화된다”
GitOpsGitAIOps
사람이 YAML 작성AI가 자연어로 YAML 생성
Git Push → 자동 배포동일
사람이 로그 분석AI가 로그 분석 및 해결책 제안
사람이 문서 작성AI가 작업과 동시에 문서 생성
사람이 수동 검증AI가 클러스터 상태와 문서 비교

1.4 이 책의 구성과 실습 흐름

실습 위주로 구성되어 각 문제상황>클로드코드에 지시>결과확인>깃 커밋의 패턴으로 진행

1.4.1 이 책의 흐름

  • 앞 장에서 만든 환경을 다음장에서 확장하는 구조
구간핵심
도입1장AI 시대, 개발자의 인프라
환경구성2장GKE + 클로드 코드 + 첫 배포
SMB3~5장GitOps, CI, 관측 가능성, 무중단 배포
전환기6장캐시, 보안, Canary
엔터프라이즈7~8장규모 확장, 고도화
종합9장GitAIOps: 살아있는 운영 표준

1.4.2 실습 환경

  • GKE/Claude Code 기반으로 진행하지만 다른 환경에서도 동일하게 구성 가능

1.4.3 이 책의 저장소

  • 가이드 저장소(Book_GitAIOps), 실습 후 완성 프로젝트 저장소(notiflex-platform)

1.5 Notiflex 스타트업 시나리오 소개

  • 가상의 스타트업 Notiflex의 성장과정에 따라, 서비스 규모별 인프라 발전 실습

1.5.1 Notiflex란?

  • Notiflex는 고객 서비스에서 발생한 이벤트를 이메일·SMS·푸시로 전달하는 B2B 알림 SaaS 플랫폼.

1.5.2 성장 타임라인

  • 처음부터 완벽한 구성이 아닌 비즈니스 성장에 맞춰 필요한 기술을 하나씩 도입
단계해결 과제
2장 (창업)GKE에 API 서버 하나를 배포
3장 (첫 고객)GitOps와 CI/CD 도입으로 배포 자동화
4장 (서비스 장애)모니터링·로그를 구축해 관측 가능성 확보
5장 (성장 시작)무중단 배포 도입
6장 (전환기)캐시, 시크릿 관리, 배포 전략 개선
7장 (대형 고객)인프라 확장, 고객별 환경 분리
8장 (대규모 운영)이벤트 기반 아키텍처, 분산 트레이싱, 배치 자동화
9장 (회고)지금까지의 코드와 설정, 문서를 AI가 분석해 운영 표준 완성

1.5.3 여러분의 역할

  • Notiflex의 DevOps 엔지니어가 되어 서비스를 처음부터 함께 성장시키는 역할 수행

1.6 가드레일: 클로드 코드가 정확하게 동작하는 이유

  • 가드레일(Guardrail) 설정을 통해 자유롭게 작업을 막고 검증된 절차와 기준에 따라 작업을 수행함

1.6.1 CLAUDE.md와 가드레일

  • 클로드 코드는 프로젝트 루트의 CLAUDE.md 파일을 읽고 동작 규칙으로 삼음
  • 가이드의 CLAUDE.md는 입력된 자연어를 참조파일과 매칭하여 답변 제시
    • 의사결정 가이드(decision-guides/): 도구 선택 근거
    • 실행 가드레일(prompt-guardrails/): 실행 지침, 사전 조건, 단계별 절차, 트러블 슈팅
    • 결과 템플릿(result-templates/): 검증 체크리스트, 결과 일치도 체크

1.6.2 3단계 흐름: 탐색 → 비교 → 실행

  • 자연어 질문을 던지면 유형에 따라 해당하는 파일이 참조되어 도구 선택부터 실행까지 단계적 진행
  • 탐색(의사결정 가이드 기반 적정도구 추천) > 비교 (의사결정 가이드 기반 대안 비교) > 실행 (실행 가드레일 기반 작업 수행 및 결과 템플릿 기반 검증)

1.6.3 왜 가드레일이 필요한가

  • 인프라 작업은 작은 설정 오류도 큰 장애로 이어지기 때문에 강력한 검증 절차 필요
Leave A Comment