AI는 이제 산업 전반에서 새로운 비즈니스 가능성을 열어가고 있다. 한때는 다소 공상적 개념으로 여겨졌던 AI는, OpenAI의 ChatGPT와 같은 대형 언어 모델(LLM, Large Language Models)의 등장과 대중적 확산을 계기로 현실의 기술로 자리매김하게 되었다.
1. LLM 리더보드: 기업을 위한 새로운 선택 기준
2022년 11월 ChatGPT가 등장한 이후, 여러 LLM이 속속 시장에 진입하며 급속히 성장하는 거대한 AI 비즈니스 시장의 점유율을 놓고 경쟁하고 있다. 이러한 LLM의 등장은 마이크로프로세서 붐, 데이터 폭발적 증가, AI 학습 비용 하락, 대규모 AI 투자 확대라는 네 가지 요인이 맞물린 ‘퍼펙트 스톰(Perfect Storm)’의 결과다. 이로 인해 업계 전반의 경영진들은 자사 고유의 니즈를 충족할 최적의 LLM을 어떻게 선택할 것인가라는 중대하면서도 복잡한 과제에 직면하게 되었다.
이 선택을 돕기 위해 Kearney는 LLM 리더보드(Leaderboard)를 개발했다. 스포츠 리그의 성적표처럼, 이 리더보드는 모든 주요 LLM 제공업체(오픈소스 및 클로즈드소스 포함)의 성과를 분기별로 평가한다.
Kearney의 AI 팀은 실제 비즈니스 과제를 해결하는 데 있어 LLM 성능을 측정하는 검증된 방법론을 기반으로 평가 기준을 설계했다. 바로 이 지점에서 Kearney의 리더보드는 기존의 AI 순위표와 본질적으로 차별화된다.
다른 순위들은 대체로 기술적 지표에만 치중하거나, 기능적이지만 추상적인 관점에 그친다. 반면 Kearney는 실제 고객사에서 검증된 평가 방식을 통해, 지금 이 순간 기업들에게 가장 중요한 업무에서 LLM이 얼마나 실질적 성과를 내고 있는지를 지속적으로 측정하고 업데이트한다.
버전 업데이트
앞선 버전에 이어, 이번 업데이트에서는 최신 추론(Reasoning) 모델을 포함해 보다 명확하고 비즈니스 중심적인 평가를 제공한다. 여기에는 DeepSeek R1, OpenAI o1, Perplexity Sonar Reasoning Pro 등이 포함된다. 이번 버전의 리더보드는 독점 모델과 오픈소스 모델을 모두 아우르며, 새롭게 진입한 모델들, 순위 변동, 그리고 기업 니즈에 맞춘 다양한 솔루션의 확산을 보여준다. 또한 동일한 제공업체가 최근 선보인 여러 모델까지 평가 범위를 넓혀 시장 전반의 흐름을 더욱 정교하게 포착할 수 있도록 했다.
Cypher 2025 행사 안내
2025년 9월 17~19일, 인도 벵갈루루에서 열리는 Cypher 2025에서 커니의 LLM Leaderboard에 대한 라이브 토론이 진행된다.
2. 핵심 인사이트
기업용 AI 시장에서는 주요 LLM 모델들이 뚜렷하게 다른 전략적 포지셔닝을 보여주고 있다. OpenAI의 GPT-4.5와 신규 모델 o1은 종합 솔루션으로서 우위를 점하고 있으며, 최소한의 구현 리스크로 뛰어난 성능을 제공한다. 이는 기능성과 운영 준비도를 동시에 중시하는 기업에게 가장 확실한 선택지라 할 수 있다.
퍼플렉시티(Perplexity)의 Sonar-reasoning-pro와 DeepSeek R1-671b는 고객 서비스, 데이터 처리와 같은 핵심 비즈니스 애플리케이션에서 뛰어난 성능을 발휘한다. 다만, 준법·통합 인프라 측면에서 더 큰 조직적 투자가 필요하다는 점에서 적용 난이도는 상대적으로 높다. Amazon Nova Pro는 전략적 중간 지대에 자리한다. 상위 모델 수준의 준비도는 부족하지만, 적당한 구현 복잡성을 전제로 거의 최고 수준에 가까운 작업 수행력을 제공한다. 즉, 탁월한 결과를 원하지만 최고가 솔루션은 부담스러운 기업에 적합하다.
비용을 중시하는 조직에는 Mistral Large v2가 매력적이다. 경쟁력 있는 성능을 유지하면서도 총 소유 비용(TCO)을 크게 절감하기 때문이다. 반면, Google Gemini Pro는 빠른 배포를 원하는 기업에 최적화되어 있다. 탁월한 API 안정성과 글로벌 언어 지원 덕분에 절대적 성능보다는 시장 출시 속도와 국제 확장성을 우선하는 조직에 이상적이다.
3. 방법론(Methodology)
LLM 리더보드가 어떻게 모델을 평가하는지 설명하기 위해, 우리는 아래와 같이 평가 방법론의 요약을 제공한다.
- 비교 프레임워크: 시장에서 고려할 수 있는 다양한 옵션을 어떻게 비교하는지
- 평가 기준: 리더보드가 비교를 수행할 때 적용하는 핵심 지표는 무엇인지
- 평가 전략: 시간이 지남에 따라 가장 유용하고, 실제 기업 상황에 즉각적으로 반응할 수 있는 평가 방식을 어떻게 확립해 나갈 것인지
이 세 가지 축을 중심으로, LLM 리더보드는 기업들이 신뢰할 수 있는 평가 기준을 지속적으로 제공할 것이다.
엔터프라이즈 준비도
LLM Leaderboard의 평가 프레임워크는 두 가지 핵심 가치에 기반해 설계되었다. 첫 번째는 엔터프라이즈 준비도다. 이는 각 LLM이 비즈니스 환경에 적합한지를 정성적으로 평가하는 것이다. 예를 들어 전략적 목표와의 정렬 여부, 기존 기술과의 호환성, 법적·보안 기준에 대한 준수 여부, 그리고 실제 도입 시 원활하고 효과적인 통합 가능성 등을 포함한다.
다음 일곱 가지 기준을 바탕으로 엔터프라이즈 준비도를 평가한다.
- 기능(Functionality)
- 접근성(Accessibility)
- 사용 편의성과 통합성(Usability and integration)
- 복잡성과 속도(Complexity and speed)
- 학습 데이터셋(Training datasets)
- 비용 및 가격 정책(Cost and pricing)
- 라이선스 조건(Licensing)
성능
프레임워크의 두 번째 핵심 가치는 성능이다. 이는 자연어 처리(NLP) 성능과 비즈니스 성능이라는 두 가지 항목으로 구성된다.
먼저 NLP 성능은 앞서 언급한 엔터프라이즈 준비도 항목들처럼 업계 전반에서 일반적으로 사용되는 평가 기준이다. LLM Leaderboard는 자연어 처리 능력 전반을 기준으로 성능을 평가하고, 여기에는 텍스트를 이해하고 생성하며 상호작용하는 능력은 물론, GLUE, SuperGLUE, SQuAD와 같은 표준 벤치마크에서의 성과도 포함된다.
반면, 비즈니스 성능 항목은 LLM Leaderboard에서만 제공하는 고유한 평가 지표로, 엔터프라이즈 환경에서의 AI 성능을 측정하는 새로운 접근 방식이다.
다른 Leaderboard들은 일반적으로 언어 기반 과제 수행 능력을 중심으로 모델을 비교한다. 예를 들어, 추론, 콘텐츠 생성, 정보 추출 등 익숙한 언어 작업에 대한 질문을 하고, 그 응답을 얻어 LLM을 평가한다.
커니의 비즈니스 성능 평가는 이와는 근본적으로 다르다. 단순한 언어 작업을 넘어서, 실제 비즈니스 현장에서 중요하게 여겨지는 특정 과제를 얼마나 잘 수행할 수 있는지를 종합적으로 분석한다. 이러한 접근 방식을 선택한 이유는 명확하다. 단순히 특정 LLM이 언어를 이해하고 사람처럼 대화할 수 있는지 확인하려는 것이 아니라, 기업이 실제로 요구할 가능성이 높은 비즈니스 기능을 해당 LLM이 수행할 수 있는지, 구체적이고 현실적인 활용 사례에 기반해 검증하는 데 목적이 있기 때문이다.
4. Next Step
AI의 본질적으로 역동적이고 유동적인 특성을 고려해, Kearney는 LLM 리더보드가 최대한 민첩하고 즉각적으로 반응할 수 있는 도구가 되도록 설계하고 있다. 우리는 분기마다 새로운 리더보드를 발간함으로써, 시의성을 확보하는 동시에 충분한 기간 동안 축적된 실질적이고 실행 가능한 데이터를 제공할 계획이다.
평가에 사용되는 기준과 접근 방식은 시간이 지남에 따라 진화할 것으로 기대된다. 이는 우리가 측정하는 기술 자체가 끊임없이 발전하기 때문이다. 따라서 LLM 리더보드는 언제나 시장의 “현실적 현주소(State Of Play)”를 반영하며, 기업 경영진이 실제 AI 도입 시 고려할 가능성이 높은 모델들을 지속적으로 포함할 것이다.
이를 위해 Kearney는 기업 설문과 시장 조사를 지속적으로 실시해, 리더보드가 빠르게 변화하는 시장의 우선순위, 요구사항, 기대치를 정확히 담아낼 수 있도록 다듬어 나갈 것이다. 또한 리더보드는 최신 모델들을 지속적으로 업데이트하여 가장 현실적이고 시의성 있는 기술·경쟁 지형의 스냅샷을 제공할 것이다. 궁극적으로 LLM 리더보드의 가장 중요한 목표는, 이 빠르게 진화하는 흥미로운 기술을 이해하고자 하는 ‘경영진과 조직들에게 가장 유용한 자원(Resource)’으로 자리잡는 것이다.