Roo Code的evals系统把我搞懵了？这个Skill让代码库结构一目了然🔥-Skill优仓

这个Skill是干什么的

做过Roo Code二次开发的同学应该都踩过这个坑——monorepo里有两个地方都叫「evals」，一个是跑评测任务的执行系统，一个是公开网站上展示结果的页面，傻傻分不清楚，改错地方白费半天功夫。evals-context这个Skill就是专门解决这个问题的，它把整个evals代码库的结构、路径、职责边界全部梳理清楚，让AI助手在处理相关任务时不再「瞎猜」。

核心功能

evals-context的核心价值是给AI提供精准的上下文定位能力。当你的任务涉及「evals」、「evaluation」、「eval runs」这类关键词时，这个Skill会自动介入，帮助AI区分以下几个完全不同的模块：

packages/evals/：核心评测基础设施，包含CLI命令、数据库Schema、Docker配置，是真正「跑评测」的地方。
apps/web-evals/：本地管理界面，基于Next.js，运行在localhost:3446，用来创建和监控eval运行状态。
apps/web-roo-code/src/app/evals/：roocode.com公开网站上的结果展示页，只负责「显示」，不负责「执行」。
外部仓库Roo-Code-Evals：实际的编程练习题库，不在这个monorepo里。

有了这层上下文，AI在修改CLI行为时会精准定位到packages/evals/src/cli/，在调整公开展示页时会去找apps/web-roo-code/src/app/evals/evals.tsx，而不是两个地方都改一遍然后产生冲突。

适用平台

evals-context作为一个标准的Agent Skill，可以无缝接入主流AI编程助手。无论你用的是Cursor、GitHub Copilot、Claude Code还是OpenAI Codex，只要支持自定义Skill或上下文注入，这个Skill都能作为「最强外挂」显著提升AI对Roo Code evals体系的理解深度。对于使用Gemini Code Assist、文心快码、腾讯云CodeBuddy或华为云CodeArts的团队，同样适用——它本质上是一份结构化的代码库知识文档，任何能消费上下文的AI工具都能从中受益。

实操代码示例

下面是几个高频操作的快速参考，这些都是evals-context帮你定位到的正确入口：

本地启动整个evals系统：

# 从repo根目录执行
pnpm evals
# Web UI会在 http://localhost:3446 打开

跑单元测试：

# 测试核心evals包
cd packages/evals && npx vitest run

# 测试管理界面
cd apps/web-evals && npx vitest run

数据库Schema变更流程：

# 1. 编辑 packages/evals/src/db/schema.ts
# 2. 生成迁移文件
cd packages/evals && pnpm drizzle-kit generate
# 3. 应用迁移
pnpm drizzle-kit migrate

这套流程里涉及的每一个文件路径，evals-context都有明确的映射关系，AI不会再给你指错方向。

优势分析

跟直接把README丢给AI相比，evals-context的优势在于它是「经过提炼的」。它不是原始文档的堆砌，而是专门针对「容易踩坑的歧义点」做了重点标注——比如那张清晰的组件对比表，直接把两个evals位置的路径和职责并排列出来，一眼就能看出差异。

另一个优势是它内置了「何时使用、何时不用」的判断逻辑。当任务跟VS Code扩展核心功能相关时，Skill会主动退出，避免引入无关上下文干扰AI的判断。这种精准的作用域控制，是很多通用上下文文档做不到的。

应用场景

新成员上手：刚加入Roo Code项目的开发者，面对复杂的monorepo结构，用这个Skill配合AI助手可以快速搞清楚evals相关代码的分布，少走很多弯路。
添加新评测练习：需要往evals系统里加新的编程题时，Skill会引导AI正确区分「外部练习仓库」和「本地执行基础设施」，避免在错误的地方创建文件。
调试eval运行异常：当eval任务跑失败时，AI能快速定位是Controller、Runner还是Redis通信的问题，因为Skill里有完整的分布式架构图。
修改公开展示页：产品需要调整roocode.com上的eval结果展示样式时，AI会直接去找plot.tsx和evals.tsx，而不是误改本地管理界面。

最佳实践

在实际工程落地中，有几个点值得注意。首先是Skill触发词的维护，随着项目演进，如果引入了新的evals相关术语，记得同步更新Skill的description里的触发关键词列表，保持上下文的准确性。

其次是架构图的同步更新。evals-context里的目录结构和架构图是静态的，当packages/evals/或apps/web-evals/发生重大重构时，Skill内容也需要跟着更新，否则AI拿到的是过期信息，反而会产生误导。建议把Skill文档的更新纳入重构任务的checklist。

另外，对于需要同时操作多个evals模块的复杂任务，可以在给AI的prompt里明确指定「当前操作的是执行系统还是展示页面」，配合evals-context的上下文，能让AI的响应更加精准，减少来回确认的次数。

如果你的团队在维护类似的复杂monorepo项目，也有其他模块需要这种结构化的上下文Skill，可以去Skill优仓看看，上面汇聚了大量针对不同技术栈和项目结构的优质Skill资源，找到合适的直接用，省去从零编写的时间。