BigCode Evaluation Harness共1篇
代码模型到底谁更强?BigCode Evaluation Harness跑完15+基准测试给你答案🔥-Skill优仓

代码模型到底谁更强?BigCode Evaluation Harness跑完15+基准测试给你答案🔥

evaluating-code-models是基于BigCode官方评测框架的代码模型基准测试Skill,支持HumanEval、MBPP、MultiPL-E等15+基准,覆盖18种编程语言,用pass@k指标量化模型代码生成能力。适合AI研究团队...
Skill优仓的头像-Skill优仓Skill优仓6天前
0236