gget是什么
做生物信息分析的人都懂那种痛:查个基因要开Ensembl,找蛋白结构要去UniProt,做富集分析要上Enrichr,跑BLAST要等半天……每个数据库一套操作逻辑,光切换窗口就能把人搞崩。gget就是专门来解决这个问题的——一个命令行工具加Python包,把20多个主流基因组数据库的查询接口统一封装,一套语法走天下。
核心功能
gget按功能分成五大模块,覆盖了从基因发现到疾病关联的完整分析链路。
- 参考基因组与基因信息:
gget ref直接拉取Ensembl参考基因组下载链接,支持GTF、cDNA、DNA等多种格式;gget search按关键词跨物种搜索基因;gget info一次性返回Ensembl、UniProt、NCBI三个来源的基因元数据;gget seq获取核苷酸或氨基酸序列,支持所有转录本异构体。 - 序列分析与比对:
gget blast对接NCBI BLAST,支持blastn/blastp/blastx等五种程序;gget blat用UCSC BLAT定位基因组坐标;gget muscle调用Muscle5做多序列比对;gget diamond本地高速蛋白比对,速度比BLAST快几个数量级。 - 蛋白结构分析:
gget pdb查询RCSB蛋白数据库;gget alphafold直接跑AlphaFold2结构预测,支持单体和多聚体,Python端还能出交互式3D可视化;gget elm预测蛋白序列中的真核线性基序。 - 表达与疾病数据:
gget archs4查基因共表达和组织表达谱;gget cellxgene拉取单细胞RNA-seq数据;gget enrichr做GO/KEGG/GWAS等富集分析;gget opentargets查疾病和药物关联;gget cbio生成cBioPortal癌症基因组热图;gget cosmic检索COSMIC体细胞突变数据库。 - 辅助工具:
gget mutate根据突变注释生成突变序列;gget gpt集成OpenAI文本生成。
适用平台
gget的SKILL文件可以直接加载到主流AI编程助手中,让AI在帮你写分析脚本时拥有完整的参数上下文。无论是Cursor、GitHub Copilot、Claude Code、OpenAI Codex,还是Gemini Code Assist、文心快码、腾讯云CodeBuddy、华为云CodeArts,加载gget的Skill之后,AI就能准确补全模块名、参数名和返回值结构,不再瞎猜API。对于经常用AI辅助写生信流程的研究者来说,这个Skill相当于给AI装了一本实时更新的gget手册。
实操代码示例
下面是一个从基因搜索到富集分析的完整Python工作流,展示gget各模块如何串联使用:
import gget# 1. 搜索GABA相关基因results = gget.search([\"GABA\", \"receptor\"], species=\"homo_sapiens\")gene_ids = results[\"ensembl_id\"].tolist()# 2. 获取基因详细信息info = gget.info(gene_ids[:5])# 3. 查组织表达谱tissue_expr = gget.archs4(\"ACE2\", which=\"tissue\")# 4. 获取共表达基因并做富集分析correlated = gget.archs4(\
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END







暂无评论内容