Solar Pro 3 vs Kanana-o vs HCX SEED Think — 한국어 5종 일감 비교 후기

개발 일지

Solar Pro 3 vs Kanana-o vs HCX SEED Think — 한국어 5종 일감 비교 후기

stackD 2026. 6. 13. 18:00

한국어 LLM 1등은 셋 다 본인이라고 주장합니다. 막상 5종 일감으로 돌려보니 매번 다른 모델이 이기더라고요. 단일 1등은 없었습니다.

지난 주말에 사이드 프로젝트 정리하다가 토종 3종을 한자리에 깔고 카톡 회의록·SaaS 표준계약서·CS 답메일을 같은 프롬프트로 통째 넣어봤습니다. 벤치마크 점수 말고 손에 잡히는 차이만 적어두려고요.

토종 LLM 3강, 2026년 5월 현재 라인업 정리

먼저 셋의 위치부터 정리해두는 게 좋을 것 같아요.

업스테이지 솔라 프로 3(Upstage Solar Pro 3) 는 2026년 1월 27일 공개됐는데, 102B 규모 MoE 모델에 활성 파라미터 12B 로 알려져 있어요. 102B 가 감이 안 오신다면, 작년 여름(2025년 7월) EXAONE 4.0 32B 의 세 배 정도 되는 덩치라고 보시면 됩니다. Tau2 점수가 이전 36.0 에서 72.3 으로 두 배 뛰었다는 발표가 있었고, 3월 24일 자로 "Agent-Specialized LLM" 노선을 공식화했습니다.

카카오 카나나-o(Kakao Kanana-o) 는 2025년 12월 테크블로그를 통해 성능이 공개된 통합 멀티모달 모델입니다. 텍스트·음성·이미지를 입출력 모두 처리한다는 점이 핵심이고, 2026년 초 비공개 베타(CBT)를 거쳐 완성도를 높여왔어요. 한국어 음성의 떨림이나 억양 감지에서 GPT-4o 가 못 잡는 자리를 잡아낸다고 합니다. 파라미터는 비공개인데, Kanana Flag(32.5B) 계열로 추정되는 정도예요.

네이버 하이퍼클로바X 시드 싱크(Naver HyperCLOVA X SEED Think) 32B 는 2025년 12월 26일 공개됐고, 32B Dense 트랜스포머에 Thinking Mode 토글이 붙어 있습니다. 무엇보다 허깅페이스에 오픈웨이트로 풀려 있다는 점이 의외로 덜 알려져 있어요.

참고로 KMMLU-Hard 같은 한국어 객관식 벤치에서 상위권을 토종이 아니라 외산 모델이 차지하고 있다는 결과도 함께 적어두면 좋겠어요. "한국어=토종" 등식이 더는 자동으로 성립하지 않는 시점입니다.

회의록 요약·CS 메일 자동화에서 솔라 프로 3가 이긴 자리

첫 번째 일감은 1시간 11분짜리 Android 팀 스탠드업 녹취를 직급·존댓말 유지하며 액션아이템으로 뽑는 작업이었어요.

음성을 바로 받아주는 건 카나나-o 뿐이었습니다. "박 책임님이 망설이듯 보류" 같은 비언어 메타를 자발적으로 달아주는 게 인상적이더라고요. 다만 액션아이템을 JSON 으로 정형화해서 Jira 티켓 자동생성까지 가야 하는 단계에서는 솔라 프로 3가 깔끔하게 이깁니다. "결정-담당-기한" 키 누락이 거의 없었어요.

CS 메일 일감(사투리+화난 고객 5건, 사과·해결·액션 3단 구성)에서도 솔라 프로 3가 "환불정책 §3.2 / 처리 3영업일" 같은 근거조항을 알아서 끼워 넣었습니다. SnapPO RL 효과가 아닐까 싶은데, Agent 노선 전환이 단순 마케팅 구호는 아닌 듯합니다.

카카오 카나나-o 한국어 톤 변환·공감 표현이 앞선다

카톡 채널 톤 / IT 블로그 반말 / 사내 위키 건조체, 세 톤으로 같은 글을 변환시켜봤어요.

카톡 톤은 카나나-o 가 압도적으로 자연스러웠습니다. "~인 거 아시죠?" 같은 호흡이 어색하지 않게 나옵니다. CS 답메일에서도 "마음 많이 상하셨죠?" 같은 공감 표현이 가장 사람 같았고요. 솔라 프로 3의 건조체는 깔끔하지만 다소 회사스러운 톤이라, 둘을 더블 체크로 돌리는 게 실무에선 편하더라고요.

개인적으로는 사내 챗봇 톤 가이드를 짤 때 한 종으로 가는 것보다, 솔라 프로 3의 건조 출력을 카나나-o 로 한 번 톤 다림질하는 흐름을 추천하고 있습니다. 사용자 응답 만족도가 눈에 띄게 올라옵니다.

HCX SEED Think 32B 오픈웨이트, 사내 온프레미스 후보로 따로

세 모델 중 유일하게 가중치를 직접 받아 사내 서버에 올릴 수 있는 게 시드 싱크 32B 입니다. 허깅페이스에서 naver-hyperclovax/HyperCLOVAX-SEED-Think-32B 경로로 공개돼 있어요.

표준 SaaS 계약서 12조 "정지조건" 같은 한자어 조항을 풀어 설명하라고 시켰을 때 가장 충실한 답을 내놓은 게 이쪽이었습니다. 한자어 해체와 예시 두 개를 함께 정리해주는데, 네이버가 한국어 코퍼스를 두텁게 축적해둔 효과가 체감되더라고요.

다만 Thinking Mode 를 켜야 진가가 나오고, 그러면 응답에 18~24초 가까이 걸리는 경우가 많습니다. 실시간 챗봇엔 과한 무게이지만, 야간 배치로 돌리는 RAG 파이프라인이나 사내 문서 요약 큐에 붙이면 잘 어울리는 그림이에요. 금융·공공처럼 데이터 반출이 까다로운 자리는 사실상 이 카드 한 장만 손에 잡힙니다.

일감별 한국어 LLM 선택 결정 트리와 한계

지금까지 굴려본 감으로 자리를 정리해보면 대략 이렇습니다.

온프레미스·보안 1순위면 시드 싱크 32B. 24~48GB GPU 한 장에 4bit 양자화로 무리 없이 올라갑니다.
Jira·Slack 자동화 에이전트가 목적이면 솔라 프로 3 API. Function Calling 안정성이 셋 중 가장 좋았습니다.
CS·상담·교육처럼 음성 감정이 중요한 자리는 카나나-o. 외부 API 접근성은 미리 확인해두셔야 합니다.

다만 이 후기는 가상 워크로드 5종으로 굴린 정성 평가입니다. 표본이 작고 프롬프트·시스템 메시지에 결과가 적잖이 흔들리니, 사내 도입 결정은 본인 업무 흐름에 같은 일감을 한 주 정도 병행해서 돌려본 뒤 잡으시는 게 안전합니다. 영어·코딩 품질만 보면 클로드 4.x(Claude)·GPT-5.x·제미나이 3(Gemini 3) 급과 격차가 아직 명확하다는 점도 함께 적어두셔야 하고요.

토종 3강 시대가 열린 건 분명한데, "한 모델로 다 된다" 는 시점은 적어도 2026년 5월 현재까지는 안 왔다는 게 솔직한 감입니다.