개발 도구/AI 코딩 도구

Claude Opus 4.7 Fast Mode, 2.5배 빠른데 6배 비싼 자리 5곳

stackD 2026. 6. 5. 18:00

 

어제 새벽 2시, 야간 자동 빌드 로그를 보다가 손이 멈췄습니다. 평소 단가의 6배가 찍혀 있었거든요. 범인은 며칠 전 라이브 코딩하다 켜둔 Fast Mode가 꺼지지 않고 그대로 따라온 거였어요.

 

Fast Mode는 한 번 켜면 세션을 넘어 계속 유지(persists)되는 옵션이라, 명시적으로 끄지 않으면 다음 작업까지 그대로 물고 갑니다. 그 사실을 모르고 둔 야간 스크립트가 새벽 내내 6배 단가로 돌아간 거죠. 5월 한국 사용자 입장에서 이 옵션을 어디에 켜고 어디에 꺼야 할지, 제 일감 5가지로 직접 계산해봤습니다.

 

Claude Opus 4.7 Fast Mode 란 무엇인가

먼저 오해부터 풀어두면, Fast Mode 는 별도 모델이 아닙니다. 같은 Opus 4.7 모델을 속도 우선 설정으로 돌리는 옵션일 뿐이에요.

한 번에 받아주는 양도 1M 토큰으로 동일하고, 정확도도 Anthropic 공식 문서에 동일 모델·동일 inference 결과라고 명시되어 있습니다. 1M 토큰이 어느 정도냐면, 두꺼운 단행본 1권을 한 번에 통째로 넣을 수 있는 분량이에요.

 

성능과 가격 차이는 표로 정리하면 이렇습니다.

 

구분 표준 Opus 4.7 Fast Mode

출력 속도 약 61 tokens/sec 약 150 tokens/sec
가격 (1M 토큰) 입력 $5 / 출력 $25 입력 $30 / 출력 $150

 

출력 속도는 약 2.5배 빨라지는데, 가격은 정확히 6배입니다. 한 가지 더 짚어둘 부분은 첫 토큰 생성 시간(TTFT)은 거의 그대로라는 점이에요. 즉 "응답이 시작되는 순간" 은 빨라지지 않고, "응답이 길게 흘러나오는 속도" 만 빨라지는 옵션이라는 뜻입니다.

 

그리고 Opus 4.7의 새 토크나이저는 같은 입력에도 토큰 수가 최대 35%까지 늘어날 수 있는 구조라, 한국어 같은 CJK 비중이 높은 작업은 단가 환산이 영어나 코드와 다르게 잡힙니다. 코드와 한글이 섞인 프롬프트는 토큰 수가 오히려 늘어나는 경우가 있으니 단순 환산은 조심해야 합니다.

 

 

한국 일감 5가지로 본 Fast Mode 손익분기

작업마다 "사람이 화면 앞에서 직접 기다리는지" 가 손익분기를 가르는 결정적 기준이라고 봅니다.

 

1. 라이브 코딩·페어 프로그래밍 — 켜세요

VS 코드(VS Code) 옆에 클로드 코드(Claude Code) 띄워두고 같이 짜는 흐름이라면 Fast Mode 가 이깁니다. 응답이 60% 빨리 끝나면 제 사고 흐름이 안 끊겨요. 시간당 인건비 환산하면 6배 단가도 충분히 회수된다고 보시면 되겠습니다.

 

2. 야간 자동 빌드·CI/CD 코드 분석 — 끄세요

이게 바로 제가 어제 새벽에 당한 구간입니다. 참고로 정식 Batch API 에서는 Fast Mode 가 아예 지원되지 않지만, CI 스크립트가 클로드 코드를 일반 호출하는 방식이면 앞서 켜둔 Fast 가 그대로 따라옵니다. 사람이 안 보는 시간에 돌아가는 작업에서 출력 속도 2.5배 빨라봐야 의미가 없어요. 어차피 아침에 결과만 확인하니까요. 단가만 6배가 그대로 청구됩니다.

 

3. 고객 대면 챗봇·실시간 요약 전달 — 켜세요

B2C 챗봇이나 미팅 직후 빠른 요약같이 사용자가 화면 앞에서 응답을 기다리는 경우라면 답이 정해져 있습니다. 응답이 한 박자 늦으면 이탈로 이어지니까요. 반대로 사내 운영용 봇, 야간 배치 요약은 끄는 게 맞습니다.

 

4. 실시간 통역 보조 — 켜고, 대량 문서 번역 — 끄세요

같은 "번역" 인데 케이스가 정반대입니다. 회의 중 실시간 통역 보조라면 출력 속도가 그대로 품질로 이어집니다. 반면 단행본 한 권 통째로 번역 돌리는 작업은 표준 모드 배치가 훨씬 저렴해요.

 

5. 재무 분석·코드 감사 — 끄세요

이 지점은 의외로 헷갈리는 분들이 많은데, 모델이 "생각하는" 시간이 긴 작업은 Fast Mode 효과가 거의 없습니다. 결과를 길게 토해내는 게 아니라 깊게 추론하고 짧게 답하는 구조라서요. 6배 단가만 그대로 붙는 함정이지요.

 

 

6배 단가 청구 사고 막는 클로드 코드 설정

직접 한 번 당해보니 사후 환불이 거의 안 됩니다. 사전 설정이 전부예요. 세 가지만 챙겨두시면 됩니다.

  1. 클로드 코드·커서(Cursor) 같이 본인이 쓰는 도구에서 Fast Mode 가 지금 켜져 있는지 먼저 확인하세요. 한 번 켜두면 세션을 넘어 유지되니까, 라이브 코딩 끝나면 바로 끄는 습관이 중요합니다.
  2. 자동화 스크립트는 프로젝트별 환경변수나 설정으로 표준 모드를 강제해두는 게 안전해요.
  3. 월말 청구서에서 토큰 단가가 $30/$150 으로 찍히는지 한 번 훑어보세요. 의도치 않은 지점에서 Fast Mode 가 돌고 있을 가능성이 있습니다.

참고로 저는 사이드 프로젝트 디렉토리마다 .claude/settings.json 에 표준 모드를 박아두고, 라이브 코딩 띄울 때만 /fast 로 수동 토글하는 식으로 씁니다. 기본을 "느리고 싼 쪽" 으로 깔아두는 게 사고 막는 데 훨씬 효과적이더라고요.

 

 

Research Preview 단계, 5월 가격은 잠정치

마지막으로 한 가지, Fast Mode 는 아직 Research Preview 상태로 가격과 성능이 계속 바뀔 수 있는 단계입니다. 지금 정리한 6배·2.5배 숫자도 5월 기준 공개 가격이고, 정식 GA 로 넘어가면서 조정될 가능성이 있어요. 청구서 단가는 매월 한 번씩 다시 확인하는 게 안전합니다.

 

다음 글에서는 Fast Mode 와 짝지어 쓸만한 프롬프트 캐싱 설정, 그리고 일감별로 캐시 적중률을 어떻게 끌어올렸는지를 정리해볼 생각입니다. 결국 Fast Mode 의 손익을 가르는 건 모델의 성능이 아니라, 그 응답을 기다리는 게 사람인지 새벽 3시의 빈 사무실인지, 그 한 줄입니다.