벤치마크 1위 모델이 안드로이드 실무에서 의외의 고전을 면치 못했습니다. 바로 GPT-5.2-Codex 얘기예요. 점수가 높을수록 실무도 강하다는 공식, 안드로이드 멀티모듈 개발에서는 잘 안 통하거든요. 얼마 전에 50개 모듈 규모의 코틀린 멀티플랫폼(Kotlin Multiplatform, KMP) 프로젝트에 GPT-5.2-Codex, 클로드 코드(Claude Code) 1M, 커서(Cursor) 3.3을 붙여서 같은 일감을 비교해봤어요. 젯팩 컴포즈(Jetpack Compose) 화면 작성, Gradle 컨벤션 플러그인 리팩터링, ProGuard 분석까지 돌려봤는데 결과가 꽤 흥미로웠습니다. GPT-5.2-Codex 안드로이드 실무, 벤치마크와 달랐던 이유 GPT-5.2-Codex는 SWE-Bench ..