这个Skill在做什么
做代谢组学研究的人都懂那种痛——手头一堆m/z值,要对应到具体化合物,得在PubChem、HMDB、KEGG之间来回跳,还要担心不同数据库的命名不统一。Metabolomics Workbench Database这个Skill直接把NIH官方代谢组学数据库的REST API封装好,让AI助手能直接查询4200多个已处理研究的数据,一个接口全搞定。
核心功能
这个Skill围绕六个核心能力展开,覆盖代谢组学研究的完整数据查询链路。
- 代谢物结构查询:支持PubChem CID、InChI Key、KEGG ID、HMDB ID等多种标识符检索,还能直接下载MOL文件或PNG结构图。
- 研究数据访问:可按代谢物名称、研究机构、研究者或标题检索研究,获取完整实验数据集,支持mwTab格式下载。
- RefMet命名标准化:把各种俗名、别名统一映射到RefMet标准名称,支持按化学式、精确质量或InChI Key查询,还有四级分类体系(超类、主类、子类)。
- 质谱m/z搜索:输入m/z值、离子加合物类型和质量容差,跨Metabolomics Workbench、LIPIDS、RefMet三个数据库搜索候选化合物,这个功能对非靶向代谢组学分析来说真的很关键。
- 多维度研究筛选:通过MetStat接口,可以组合分析方法(LCMS/GCMS/NMR)、极性、色谱类型、物种、样本来源、疾病等条件过滤研究。
- 基因与蛋白关联:查询与代谢通路相关的基因和蛋白信息,支持基因符号、RefSeq ID、UniProt ID交叉引用。
实操代码示例
下面是几个最常用的查询场景,直接拿去用:
import requests
# 用m/z值搜索候选化合物(M+H加合物,容差0.5 Da)
response = requests.get('https://www.metabolomicsworkbench.org/rest/moverz/MB/180.06/M+H/0.5/json')
# 标准化代谢物名称
response = requests.get('https://www.metabolomicsworkbench.org/rest/refmet/match/citrate/name/json')
# 查找人血液糖尿病相关的LC-MS研究
response = requests.get('https://www.metabolomicsworkbench.org/rest/metstat/LCMS;POSITIVE;HILIC;Human;Blood;Diabetes/json')
# 获取特定研究的实验数据
response = requests.get('https://www.metabolomicsworkbench.org/rest/study/study_id/ST000001/data/json')
一个典型的从质谱数据到化合物鉴定的完整流程:先用m/z搜索拿到候选列表,再用regno查详细信息,最后下载结构图确认,三步走完整个鉴定链路。
适用平台
这个Skill可以无缝集成到主流AI编程助手和智能IDE中,作为它们的数据查询”外挂”使用。
- Cursor:在代码编写过程中直接调用,让AI理解代谢组学数据结构和API响应格式。
- GitHub Copilot:辅助生成数据分析脚本时,提供准确的API端点和参数建议。
- Claude Code:处理复杂的多步骤代谢物鉴定工作流时,提供完整的上下文支持。
- OpenAI Codex / Gemini Code Assist:生成数据处理管道代码时,确保API调用的正确性。
- 文心快码、腾讯云CodeBuddy、华为云CodeArts:国内开发者做生物信息学项目时同样适用,API调用逻辑完全一致。
把这个Skill加载进去之后,AI助手对代谢组学数据库的理解会有质的提升,不再给你瞎编API端点了。
优势分析
跟直接查文档或者手动调API比,这个Skill的优势很明显。
- 数据权威性:直连NIH官方数据库,3790+公开研究,数据质量有保障,不是某个第三方整理的二手数据。
- 命名一致性:RefMet标准化解决了代谢物命名混乱的老大难问题,同一个化合物在不同文献里可能有十几种写法,这里统一处理。
- 多平台覆盖:GC-MS、LC-MS、NMR三种主流分析平台的数据都有,不用为了不同仪器数据跑不同数据库。
- 跨库交叉引用:一次查询可以同时关联PubChem、KEGG、HMDB等多个数据库的标识符,省去手动比对的时间。
应用场景
这个Skill在以下几个场景里特别好用:
- 非靶向代谢组学数据分析:拿到一批m/z值之后,批量搜索候选化合物,快速缩小鉴定范围。
- 疾病生物标志物研究:用MetStat筛选特定疾病(癌症、糖尿病等)的人类血液或尿液研究,横向比较不同研究的代谢物变化。
- 代谢通路分析前处理:在做KEGG或MetaboAnalyst通路分析之前,先用RefMet把代谢物名称标准化,避免因命名不一致导致的匹配失败。
- 文献数据复现:找到感兴趣的研究后,直接下载原始实验数据进行二次分析或方法验证。
- 教学与培训:代谢组学课程中演示真实数据查询流程,比用模拟数据更有说服力。
最佳实践
用这个Skill做代谢组学数据查询时,有几个工程化的细节值得注意。
查询之前先走RefMet标准化这一步,哪怕你觉得自己的命名已经很规范了。代谢物命名的历史包袱很重,”citric acid”和”citrate”在不同数据库里可能是不同的条目,标准化之后再搜研究,召回率会高很多。
做m/z搜索时,质量容差的设置要匹配仪器精度:低分辨率质谱用0.5 Da,高分辨率(Orbitrap、QTOF)用0.01 Da甚至更小。容差设太大会引入大量假阳性,设太小又会漏掉真实匹配。
对于RefMet全库、化合物基础信息这类不常变动的参考数据,建议本地缓存,避免每次分析都重复请求同样的数据,既省时间也减少对API的压力。
处理大规模研究数据时,做好响应结构的容错处理,不同研究的数据完整度不一样,字段缺失的情况时有发生,代码里加上必要的空值检查。
如果你在做系统性的代谢组学研究,需要管理多个Skill和数据查询工具,Skill优仓提供了一个统一的Skill管理平台,可以把Metabolomics Workbench Database和其他生物信息学相关Skill集中管理,方便团队共享和版本维护。Skill优仓上还有大量其他领域的优质Skill资源,免费下载使用。









暂无评论内容