SWE 벤치마크

usecase

소프트웨어 엔지니어링 능력을 평가하는 벤치마크로, Kimi의 K2 모델이 65.8% 점수를 기록하며 GPT-4.1을 능가하는 성능을 입증했습니다.