BigCode Evaluation Harness-Skill优仓

代码模型到底谁更强？BigCode Evaluation Harness跑完15+基准测试给你答案🔥

evaluating-code-models是基于BigCode官方评测框架的代码模型基准测试Skill，支持HumanEval、MBPP、MultiPL-E等15+基准，覆盖18种编程语言，用pass@k指标量化模型代码生成能力。适合AI研究团队...

Skill优仓4个月前

0276