코딩 벤치마크 성능

problem

대규모 언어 모델의 코드 생성 및 구현 능력을 평가하는 벤치마크에서 성능 차이를 보이는 문제입니다. Qwen 3 Thinking은 GPT-4와 Claude Opus 4.1을 능가하는 성능을 기록했습니다.