AI에게 이틀을 맡겼다: 무인 작업 12건, 코드 변경 34건의 기록
외출한 사이 AI 에이전트 12갈래가 코드를 고치고 문서를 옮기고 서로를 검증했다. 무인 운영이 실제로 돌아가게 만든 안전장치와, 그 사이 터진 사고들의 기록.
한눈에 요약 이틀 동안 AI 에이전트에게 작업을 맡기고, 절반은 자리를 비웠다. 결과는 코드 변경 제안 34건, 그중 29건 반영. 비결은 성능 좋은 AI가 아니라 구조였다 — 반영 승인은 사람만, 설정이 이상하면 즉시 멈춤, 모든 수정은 다른 AI의 공격을 통과해야 한다는 세 가지 규칙.
나는 바리스타 출신 비전공자다. 코드를 못 쓴다. 그런데 이번 주 이틀 동안 내 저장소들에는 PR 34개가 쌓였다. PR은 "이렇게 고치겠다"는 변경 제안서다 — 제안일 뿐이라 누군가 승인(머지)해야 실제로 반영된다. 그 승인을 거쳐 29개가 반영됐고, 내가 자리에 있던 시간은 절반쯤이다.
이 글은 그 이틀의 기록이다. 잘된 것만이 아니라 터진 사고와 그 복구까지 그대로 적는다.
무인으로 AI에게 일을 맡기면 어떻게 되나?
작년의 나라면 "망한다"고 답했을 거다. 실제로 지난주에 한 번 망했다 — 밤새 돌라고 한 자동 수정 루프가 설정값을 못 받은 채 엉뚱한 저장소에 PR 6개를 만들었고, 나는 8시간 반 동안 그걸 몰랐다.
그 사고에서 나온 규칙이 이번 이틀을 지탱했다.
- 설정이 불완전하면 진행하지 말고 죽어라. 설정이 빠졌을 때 기본값으로 조용히 계속 가는 걸 금지했다. 이번에 같은 버그가 또 나왔는데, 이번엔 0.2초 만에 멈추고 에러를 뱉었다. 8시간 무인 오작동 대신.
- AI는 반영하지 않는다. 모든 수정은 제안(PR)까지만. 승인 버튼은 사람이 누른다.
- 고친 놈과 검사하는 놈을 분리한다. 수정마다 별도의 AI가 "이거 틀렸다"는 걸 증명하려 달려든다. 통과 못 하면 제안서도 못 낸다.
실제로 뭘 했나?
외출 전에 작업 12건을 정의했다. 기준은 하나 — 사람 승인이 필요 없는 것만. 발행·삭제·반영이 끼면 전부 제외했다.
돌아와 보니:
- 콘텐츠 변환 CLI 도구 하나가 테스트 88개 통과 상태로 완성돼 있었다
- 검색 품질 개선: 문제였던 질의가 17등에서 1등으로 올라온 걸 수치로 증명해놨다
- 노션에 흩어져 있던 핵심 문서 12건이 저장소로 이관돼 있었다
- 밤 사이 돌아가는 자동 수정 루프는 스스로 결함 27건을 찾아 4건을 고쳤고, 남은 것들은 다음 밤을 위한 목록이 됐다
나 없이 알아서 돌아간 게 아니다. 내가 만든 게이트 안에서 돌아갔다. 에이전트 하나는 자기 역할이 아닌 일을 받자 작업을 거부했다 — "이건 구현 담당 일이지 내(출시 담당) 일이 아니다"라며. 규칙이 나 대신 판단한 순간이었다.
뭐가 터졌나?
세 가지가 터졌다.
- API가 세 번 끊겼다. 에이전트 셋이 같은 지점에서 멈췄다. 다만 조사를 끝낸 뒤라, 판단만 다시 넣어주니 이어서 완주했다.
- 설치 하나가 조용히 멈춰 있었다. 임베딩 도구 설치가 몇 시간째 "진행 중"이었는데 실제론 죽어 있었다. 이런 건 아직 사람이 발견해야 한다.
- 같은 버그를 두 번씩 고쳤다. 밤 루프가 중복 확인 없이 결함을 찾다 보니, 수정 4건이 알고 보니 2개 결함을 두 번씩 고친 거였다. 절반이 헛돈 셈이다. 이 비효율 자체가 다음 개선 항목이 됐고, 그 개선판은 검증을 거쳐 이미 반영됐다.
숫자로 남은 것
- 변경 제안(PR) — 34건 생성, 검증 거쳐 29건 반영, 중복 3건 폐기, 2건은 검수 대기
- 자동 발굴된 결함 — 27건 (그중 7건이 수정 제안으로 이어짐)
- 무인 작업 — 12건 중 12건 완주
- 사람이 개입한 순간 — 반영 승인, 설치 복구, 끊긴 작업 재개 판단
배운 것
제일 큰 교훈은 하나다. 무인의 전제는 자동화가 아니라 신뢰 구조라는 것. "됐다"는 말을 검증하는 게이트가 없으면 AI가 많아질수록 사고도 많아질 뿐이다. 사고는 이번에도 세 번 터졌다 — 다만 전부 몇 분짜리였다. 지난주엔 8시간짜리였다. 사고를 없애는 게 아니라 싸게 만드는 것, 그게 구조가 하는 일이다.
하나 더. 이틀간 AI가 남긴 최고의 산출물은 코드가 아니라 발견이었다. 한글 사용자명이 든 폴더 경로가 테스트 도구를 아무 메시지 없이 죽인다는 것 — 이 컴퓨터의 모든 프로젝트에 잠복해 있던 함정을 에이전트가 잡아냈다. 나는 그런 게 있는 줄도 몰랐다.
다음 글에서는 이 이틀 중 하루를 통째로 맡긴 "밤 루프"의 내부 — 발굴, 수정, 공격 검증, 아침 보고 — 를 뜯어본다.
관련해서 먼저 읽어볼 만한 글: