基因组查询还在一个个数据库手动翻？gget一条命令搞定20+数据库真的绝了🔥-Skill优仓

gget是什么

做生物信息分析的人都懂那种痛：查个基因要开Ensembl，找蛋白结构要去UniProt，做富集分析要上Enrichr，跑BLAST要等半天……每个数据库一套操作逻辑，光切换窗口就能把人搞崩。gget就是专门来解决这个问题的——一个命令行工具加Python包，把20多个主流基因组数据库的查询接口统一封装，一套语法走天下。

核心功能

gget按功能分成五大模块，覆盖了从基因发现到疾病关联的完整分析链路。

参考基因组与基因信息：gget ref直接拉取Ensembl参考基因组下载链接，支持GTF、cDNA、DNA等多种格式；gget search按关键词跨物种搜索基因；gget info一次性返回Ensembl、UniProt、NCBI三个来源的基因元数据；gget seq获取核苷酸或氨基酸序列，支持所有转录本异构体。
序列分析与比对：gget blast对接NCBI BLAST，支持blastn/blastp/blastx等五种程序；gget blat用UCSC BLAT定位基因组坐标；gget muscle调用Muscle5做多序列比对；gget diamond本地高速蛋白比对，速度比BLAST快几个数量级。
蛋白结构分析：gget pdb查询RCSB蛋白数据库；gget alphafold直接跑AlphaFold2结构预测，支持单体和多聚体，Python端还能出交互式3D可视化；gget elm预测蛋白序列中的真核线性基序。
表达与疾病数据：gget archs4查基因共表达和组织表达谱；gget cellxgene拉取单细胞RNA-seq数据；gget enrichr做GO/KEGG/GWAS等富集分析；gget opentargets查疾病和药物关联；gget cbio生成cBioPortal癌症基因组热图；gget cosmic检索COSMIC体细胞突变数据库。
辅助工具：gget mutate根据突变注释生成突变序列；gget gpt集成OpenAI文本生成。

适用平台

gget的SKILL文件可以直接加载到主流AI编程助手中，让AI在帮你写分析脚本时拥有完整的参数上下文。无论是Cursor、GitHub Copilot、Claude Code、OpenAI Codex，还是Gemini Code Assist、文心快码、腾讯云CodeBuddy、华为云CodeArts，加载gget的Skill之后，AI就能准确补全模块名、参数名和返回值结构，不再瞎猜API。对于经常用AI辅助写生信流程的研究者来说，这个Skill相当于给AI装了一本实时更新的gget手册。

实操代码示例

下面是一个从基因搜索到富集分析的完整Python工作流，展示gget各模块如何串联使用：

import gget

# 1. 搜索GABA相关基因
results = gget.search(["GABA", "receptor"], species="homo_sapiens")
gene_ids = results["ensembl_id"].tolist()

# 2. 获取基因详细信息
info = gget.info(gene_ids[:5])

# 3. 查组织表达谱
tissue_expr = gget.archs4("ACE2", which="tissue")

# 4. 获取共表达基因并做富集分析
correlated = gget.archs4("ACE2", which="correlation")
gene_list = correlated["gene_symbol"].tolist()[:50]
enrichment = gget.enrichr(gene_list, database="ontology", plot=True)

命令行同样简洁，查个基因信息只需要一行：

gget info ENSG00000034713 ENSG00000104853 -pdb

优势分析

市面上也有bioservices、Biopython这类工具，但gget的定位更清晰：快速查询优先。它不追求覆盖所有生物信息学操作，而是把最高频的数据库查询场景做到极致简单。命令行和Python接口完全对等，脚本里怎么写，终端里就怎么用，没有学习成本的割裂感。返回格式统一为DataFrame或JSON，直接接pandas处理，不需要额外解析。数据库结构变了？gget每两周自动测试一次，跟着更新，不用担心某天接口突然挂掉。对于需要快速BLAST或单数据库查询的场景，gget比Biopython的配置成本低得多；需要多数据库整合的复杂流程，再考虑bioservices。

应用场景

靶点发现前期调研：用gget search找候选基因，gget opentargets快速筛出有疾病关联的靶点，gget cosmic确认突变频率，整个流程不超过10行代码。
单细胞数据预处理：gget cellxgene直接拉取CZ CELLxGENE的公开单细胞数据，按基因、组织、细胞类型过滤，省去手动下载h5ad文件的步骤。
蛋白功能注释：拿到一条未知蛋白序列，先gget blast找同源，再gget elm预测线性基序，最后gget alphafold出结构，一套流程全搞定。
参考基因组准备：构建kallisto索引前，gget ref一行命令下载指定物种的GTF和cDNA文件，不用去Ensembl网站手动找FTP链接。
癌症基因组可视化：gget cbio直接生成多个研究队列的突变热图，适合快速出图用于汇报或文章初稿。

最佳实践

用gget跑批量分析时，有几个工程化细节值得注意。gget info单次处理上限约1000个Ensembl ID，超出这个量要分批提交，否则容易超时。COSMIC模块涉及商业授权，商用场景记得确认许可证。AlphaFold预测精度要求高的场景，把-mr参数从默认的3调到20，结构质量会有明显提升，但运行时间也会相应增加。DIAMOND本地比对如果要反复查同一个参考库，用--diamond_db把数据库文件存下来，后续查询速度快很多。cellxgene的基因名大小写敏感，人类基因用大写（PAX7），小鼠基因用首字母大写（Pax7），这个坑很容易踩。生产环境的脚本加上--quiet减少日志输出，结果文件用-o指定路径，方便后续追溯。gget本身更新比较频繁，建议在虚拟环境里用uv pip install --upgrade gget定期升级，避免数据库结构变更导致的解析错误。

如果你在管理团队的生信分析工具链，或者想把gget这类高质量Skill统一沉淀下来复用，可以上Skill优仓看看——这里汇聚了大量经过验证的Skill资源，方便团队统一管理和分发，省去每个人重复配置的时间。