AI/바이브코딩2026-07-05

AI에게 이틀을 맡겼다: 무인 작업 12건, 코드 변경 34건의 기록

외출한 사이 AI 에이전트 12갈래가 코드를 고치고 문서를 옮기고 서로를 검증했다. 무인 운영이 실제로 돌아가게 만든 안전장치와, 그 사이 터진 사고들의 기록.

AI에이전트무인운영바이브코딩1인기업VHK

한눈에 요약 이틀 동안 AI 에이전트에게 작업을 맡기고, 절반은 자리를 비웠다. 결과는 코드 변경 제안 34건, 그중 29건 반영. 비결은 성능 좋은 AI가 아니라 구조였다 — 반영 승인은 사람만, 설정이 이상하면 즉시 멈춤, 모든 수정은 다른 AI의 공격을 통과해야 한다는 세 가지 규칙.

나는 바리스타 출신 비전공자다. 코드를 못 쓴다. 그런데 이번 주 이틀 동안 내 저장소들에는 PR 34개가 쌓였다. PR은 "이렇게 고치겠다"는 변경 제안서다 — 제안일 뿐이라 누군가 승인(머지)해야 실제로 반영된다. 그 승인을 거쳐 29개가 반영됐고, 내가 자리에 있던 시간은 절반쯤이다.

이 글은 그 이틀의 기록이다. 잘된 것만이 아니라 터진 사고와 그 복구까지 그대로 적는다.

무인으로 AI에게 일을 맡기면 어떻게 되나?

작년의 나라면 "망한다"고 답했을 거다. 실제로 지난주에 한 번 망했다 — 밤새 돌라고 한 자동 수정 루프가 설정값을 못 받은 채 엉뚱한 저장소에 PR 6개를 만들었고, 나는 8시간 반 동안 그걸 몰랐다.

그 사고에서 나온 규칙이 이번 이틀을 지탱했다.

설정이 불완전하면 진행하지 말고 죽어라. 설정이 빠졌을 때 기본값으로 조용히 계속 가는 걸 금지했다. 이번에 같은 버그가 또 나왔는데, 이번엔 0.2초 만에 멈추고 에러를 뱉었다. 8시간 무인 오작동 대신.
AI는 반영하지 않는다. 모든 수정은 제안(PR)까지만. 승인 버튼은 사람이 누른다.
고친 놈과 검사하는 놈을 분리한다. 수정마다 별도의 AI가 "이거 틀렸다"는 걸 증명하려 달려든다. 통과 못 하면 제안서도 못 낸다.

AI 수정이 반영되기까지의 4단계 게이트: AI가 고치고, 다른 AI가 공격하고, 통과하면 변경 제안서를 내고, 사람이 승인한다. 공격에 걸리면 반려. — 수정 하나가 반영되기까지 — AI는 어느 단계에서도 스스로 반영할 수 없다

결함루프 아침 보고: 수정 제안 4건 전부 검증 통과·머지 0건, 실결함은 중복 쌍 2개 — PR별 머지/폐기 권고 표와 'AI는 권고까지만 한다'는 결론. — 어느 날 아침 실제로 받은 보고 — 반영 여부는 표를 읽는 사람이 정한다

실제로 뭘 했나?

외출 전에 작업 12건을 정의했다. 기준은 하나 — 사람 승인이 필요 없는 것만. 발행·삭제·반영이 끼면 전부 제외했다.

돌아와 보니:

콘텐츠 변환 CLI 도구 하나가 테스트 88개 통과 상태로 완성돼 있었다
검색 품질 개선: 문제였던 질의가 17등에서 1등으로 올라온 걸 수치로 증명해놨다
노션에 흩어져 있던 핵심 문서 12건이 저장소로 이관돼 있었다
밤 사이 돌아가는 자동 수정 루프는 스스로 결함 27건을 찾아 4건을 고쳤고, 남은 것들은 다음 밤을 위한 목록이 됐다

나 없이 알아서 돌아간 게 아니다. 내가 만든 게이트 안에서 돌아갔다. 에이전트 하나는 자기 역할이 아닌 일을 받자 작업을 거부했다 — "이건 구현 담당 일이지 내(출시 담당) 일이 아니다"라며. 규칙이 나 대신 판단한 순간이었다.

뭐가 터졌나?

세 가지가 터졌다.

API가 세 번 끊겼다. 에이전트 셋이 같은 지점에서 멈췄다. 다만 조사를 끝낸 뒤라, 판단만 다시 넣어주니 이어서 완주했다.
설치 하나가 조용히 멈춰 있었다. 임베딩 도구 설치가 몇 시간째 "진행 중"이었는데 실제론 죽어 있었다. 이런 건 아직 사람이 발견해야 한다.
같은 버그를 두 번씩 고쳤다. 밤 루프가 중복 확인 없이 결함을 찾다 보니, 수정 4건이 알고 보니 2개 결함을 두 번씩 고친 거였다. 절반이 헛돈 셈이다. 이 비효율 자체가 다음 개선 항목이 됐고, 그 개선판은 검증을 거쳐 이미 반영됐다.

vitest 실행 터미널: 테스트 통과/실패 숫자 없이 'Worker exited unexpectedly' 에러로 프로세스가 죽은 실제 출력. 원인은 한글 사용자명이 포함된 임시 폴더 경로. — 에이전트가 발견한 함정의 실제 재현 출력 — 테스트가 아니라 프로세스가 죽는다

숫자로 남은 것

변경 제안(PR) — 34건 생성, 검증 거쳐 29건 반영, 중복 3건 폐기, 2건은 검수 대기
자동 발굴된 결함 — 27건 (그중 7건이 수정 제안으로 이어짐)
무인 작업 — 12건 중 12건 완주
사람이 개입한 순간 — 반영 승인, 설치 복구, 끊긴 작업 재개 판단

배운 것

제일 큰 교훈은 하나다. 무인의 전제는 자동화가 아니라 신뢰 구조라는 것. "됐다"는 말을 검증하는 게이트가 없으면 AI가 많아질수록 사고도 많아질 뿐이다. 사고는 이번에도 세 번 터졌다 — 다만 전부 몇 분짜리였다. 지난주엔 8시간짜리였다. 사고를 없애는 게 아니라 싸게 만드는 것, 그게 구조가 하는 일이다.

하나 더. 이틀간 AI가 남긴 최고의 산출물은 코드가 아니라 발견이었다. 한글 사용자명이 든 폴더 경로가 테스트 도구를 아무 메시지 없이 죽인다는 것 — 이 컴퓨터의 모든 프로젝트에 잠복해 있던 함정을 에이전트가 잡아냈다. 나는 그런 게 있는 줄도 몰랐다.

다음 글에서는 이 이틀 중 하루를 통째로 맡긴 "밤 루프"의 내부 — 발굴, 수정, 공격 검증, 아침 보고 — 를 뜯어본다.

관련해서 먼저 읽어볼 만한 글:

요한 스튜디오

이 웹사이트 자체. 블로그·포트폴리오·스토어·진단의 거점.

무인으로 AI에게 일을 맡기면 어떻게 되나?

실제로 뭘 했나?

뭐가 터졌나?

숫자로 남은 것

배운 것

관련 프로젝트