代谢组学研究必备！HMDB Database收录22万+代谢物，生物标志物挖掘效率直接拉满🔥-Skill优仓

HMDB Database是什么？

做代谢组学研究的同学应该都知道，找代谢物信息最头疼的就是数据分散、字段不全、还要到处翻文献。HMDB Database（Human Metabolome Database）这个Skill直接帮你打通了这个痛点——它接入了全球最权威的人类代谢组数据库，收录超过220,945条代谢物条目，每条记录包含130+个数据字段，从化学结构到临床生物标志物，一网打尽。

核心功能

HMDB Database的能力远不止”查个分子量”这么简单，它覆盖了代谢组学研究的完整数据链路。

多维度代谢物检索：支持按名称、HMDB ID（如HMDB0000001）、同义词、疾病关联、生物样本类型（尿液、血清、脑脊液、唾液等）进行文本检索。
结构与亚结构搜索：通过ChemQuery输入SMILES或InChI字符串，按分子量范围筛选目标化合物，适合结构未知的代谢物鉴定场景。
谱图匹配：支持LC-MS、GC-MS、NMR谱图的参考谱库比对，实验谱图直接上传即可获得候选代谢物列表。
临床与生物学数据：每个代谢物条目包含正常/异常浓度范围、疾病生物标志物关联、代谢通路、酶和转运体信息，以及毒性数据。
批量数据下载：提供XML、SDF、FASTA、CSV/TSV等多种格式的全量数据集，方便本地建库和流程集成。
外部数据库联动：内置KEGG、PubChem、ChEBI、MetaCyc、UniProt等主流数据库的交叉ID，跨库查询无缝衔接。

适用平台

HMDB Database作为一个标准化的AI Skill，完美适配当前主流的AI编程助手和智能IDE。无论你在用Cursor、GitHub Copilot、Claude Code、OpenAI Codex，还是Gemini Code Assist、文心快码、腾讯云CodeBuddy、华为云CodeArts，都可以直接加载这个Skill，让AI在生成代谢组学分析代码时，自动获取准确的数据库字段定义、API调用规范和最佳实践上下文，大幅减少AI的”幻觉”输出。

对于需要写R或Python代谢组学分析脚本的开发者来说，这个Skill就是你AI助手的”最强外挂”，能让它真正理解HMDB的数据结构，而不是瞎猜字段名。

实操代码示例

以下是使用R语言通过hmdbQuery包进行程序化查询的基础示例：

# 安装hmdbQuery包
BiocManager::install("hmdbQuery")
library(hmdbQuery)

# 按HMDB ID查询代谢物信息
result <- hmdbQuery(id = "HMDB0000001")

# 提取分子量和化学式
mw <- result$molecular_weight
formula <- result$chemical_formula

# 批量解析本地下载的XML数据集
library(XML)
hmdb_xml <- xmlParse("hmdb_metabolites.xml")
metabolites <- xpathApply(hmdb_xml, "//metabolite/name", xmlValue)

如果需要大规模分析，官方建议直接下载完整XML数据集到本地解析，避免频繁网络请求。HMDB目前没有公开REST API，学术用户可联系eponine@ualberta.ca申请程序化访问权限。

优势分析

市面上代谢物数据库不少，但HMDB的核心优势在于数据深度和临床相关性的结合。很多数据库只有化学结构信息，HMDB却把临床浓度范围、疾病关联、谱图数据全部整合在一个条目里，研究者不需要在五六个数据库之间来回跳转。

220K+代谢物条目，覆盖水溶性和脂溶性化合物，是目前最全的人类代谢组参考库。
8,610条蛋白质序列，酶和转运体信息完整，通路分析有据可查。
实验谱图+预测谱图双轨并行，即使没有实验数据也能做初步鉴定。
与DrugBank、T3DB、SMPDB、FooDB共享标识符体系，生态完整，跨库整合成本极低。
免费开放学术使用，数据持续更新（当前v5.0，2023-07-01）。

应用场景

HMDB Database在实际研究中的落地场景非常具体，以下几个是最高频的使用方式：

非靶向代谢组学鉴定：拿到LC-MS或NMR实验谱图后，直接用HMDB谱图搜索匹配候选代谢物，再结合分子量和MS-MS碎片信息做二次验证，鉴定流程标准化。
生物标志物挖掘：按疾病名称检索相关代谢物，对比正常与疾病状态下的浓度范围，快速锁定差异代谢物候选列表，节省大量文献调研时间。
代谢通路富集分析：提取目标代谢物的通路关联信息，联动SMPDB获取通路图，做通路富集解读，生物学意义一目了然。
本地数据库建设：下载完整XML或CSV数据集，解析后导入本地数据库，构建内部代谢组学参考平台，支持团队级别的数据共享和流程自动化。
跨数据库整合分析：利用HMDB内置的KEGG、PubChem等外部ID，将代谢物信息与基因组、蛋白质组数据打通，支持多组学联合分析。