这个Skill在做什么
COSMIC(Catalogue of Somatic Mutations in Cancer)是全球最大、最权威的癌症体细胞突变数据库,收录了数百万条跨越数千种癌症类型的突变记录。这个Skill让你用Python脚本直接对接COSMIC的数据接口,程序化下载突变数据、Cancer Gene Census、突变特征谱、基因融合事件等核心数据集,彻底告别手动登录网页、一个个点击下载的低效操作。
核心功能
cosmic-database Skill的核心能力围绕数据获取与整合展开,覆盖癌症基因组研究的主要数据需求:
- 体细胞突变下载:支持TSV和VCF两种格式,包含点突变、插入缺失等完整编码区突变数据
- Cancer Gene Census访问:获取700+个经专家审核的癌症相关基因列表,区分癌基因与抑癌基因角色
- 突变特征谱(Mutational Signatures):下载SBS、DBS、ID三类突变特征定义文件,用于后续特征分解分析
- 结构变异与基因融合:获取基因融合事件和结构重排断点数据
- 拷贝数变异与基因表达:支持CNA增益/缺失及过表达/低表达数据的批量获取
- 耐药突变数据:包含临床注释的药物耐药突变记录,直接服务精准肿瘤学研究
- 双参考基因组支持:GRCh38(推荐)和GRCh37(兼容旧流程)均可指定
适用平台
cosmic-database Skill作为标准化的AI编程辅助工具,完美适配当前主流AI编程助手。无论你在用Cursor、GitHub Copilot、Claude Code还是OpenAI Codex,这个Skill都能显著增强AI对生信分析上下文的理解能力,让它真正”懂”你在做癌症基因组分析。
同样支持Gemini Code Assist、文心快码、腾讯云CodeBuddy、华为云CodeArts等国内主流AI编程平台。把这个Skill挂载进去,AI就能直接理解COSMIC的数据结构、文件路径规范和认证流程,写出来的代码不再是”猜”出来的,而是真正可运行的。
实操代码示例
下面是几个最常用的操作片段,拿来即用:
基础文件下载
from scripts.download_cosmic import download_cosmic_file
download_cosmic_file(
email='your_email@institution.edu',
password='your_password',
filepath='GRCh38/cosmic/latest/CosmicMutantExport.tsv.gz',
output_filename='cosmic_mutations.tsv.gz'
)
命令行快捷下载
# 下载突变数据
python scripts/download_cosmic.py user@email.com --data-type mutations
# 下载Cancer Gene Census(GRCh37版本)
python scripts/download_cosmic.py user@email.com
--data-type gene_census --assembly GRCh37 -o cancer_genes.csv
按基因过滤突变
import pandas as pd
mutations = pd.read_csv('cosmic_mutations.tsv.gz', sep='t', compression='gzip')
tp53_mutations = mutations[mutations['Gene name'] == 'TP53']
# 按癌症类型筛选
lung_mutations = mutations[mutations['Primary site'] == 'lung']
区分癌基因与抑癌基因
gene_census = pd.read_csv('cancer_gene_census.csv')
oncogenes = gene_census[gene_census['Role in Cancer'].str.contains('oncogene', na=False)]
tumor_suppressors = gene_census[gene_census['Role in Cancer'].str.contains('TSG', na=False)]
优势分析
跟直接去COSMIC官网手动操作相比,这个Skill的差距不是一点点:
- 流程可复现:所有下载操作代码化,版本号可固定(如
v102),分析结果可追溯,满足科研发表的可重复性要求 - 批量自动化:一次脚本执行可串联下载多个数据集,不需要人盯着页面等
- 与下游工具无缝衔接:下载的数据直接对接VEP、ANNOVAR、SigProfiler、cBioPortal等主流生信工具,不需要格式转换
- 快捷路径封装:内置
get_common_file_path()函数,不用记那些又长又绕的文件路径 - 双基因组版本管理:GRCh37/GRCh38切换只需改一个参数,老流程迁移成本极低
应用场景
这个Skill在实际研究中能覆盖相当宽的使用场景:
- 变异注释流程搭建:在WES/WGS分析流程中,自动拉取COSMIC突变数据作为注释参考库
- 突变特征分析:下载SBS特征谱后,用SigProfiler或deconstructSigs对肿瘤样本进行特征分解,推断突变来源(如APOBEC、同源重组缺陷等)
- 靶点筛选与验证:从Cancer Gene Census中快速提取特定癌种的高频驱动基因,辅助药物靶点评估
- 耐药机制研究:获取耐药突变数据集,结合临床样本数据分析特定药物的耐药突变谱
- 癌细胞系基因组分析:整合细胞系突变数据,支持体外实验的基因组背景解读
- 精准肿瘤学数据整合:将COSMIC数据与OncoKB、CIViC等临床数据库联合使用,构建变异临床意义评估体系
最佳实践
在实际工程落地中,有几个点值得注意:
版本锁定策略:生产分析流程中建议将latest替换为具体版本号(如v102),避免COSMIC季度更新导致结果不一致。COSMIC目前每季度更新一次,当前版本为v102(2025年5月)。
存储规划:COSMIC完整突变文件压缩后仍有数GB,下载前务必确认磁盘空间。建议按数据类型分目录存放,并在文件名中标注版本号,例如cosmic_v102_mutations_GRCh38.tsv.gz。
认证信息管理:邮箱和密码不要硬编码在脚本里,用环境变量或配置文件管理,避免凭证泄露。学术用户在cancer.sanger.ac.uk/cosmic注册后可免费使用,商业用途需通过QIAGEN获取授权。
大文件下载稳定性:对于GB级文件,建议在稳定网络环境下执行,脚本本身会显示下载进度。如果网络不稳定,可以考虑加断点续传逻辑或使用wget/aria2c配合脚本使用。
数据引用规范:使用COSMIC数据发表论文时,记得引用官方文献:Tate JG et al., Nucleic Acids Research, 2019。
如果你的团队在多个项目中都需要用到COSMIC数据,把这类Skill统一管理起来会省很多重复配置的时间。Skill优仓提供了一个集中管理和分享这类生信分析Skill的平台,团队成员可以直接复用已验证的数据获取脚本,不用每个项目都从头搭一遍认证和下载逻辑。对于经常需要整合多源数据库(COSMIC、TCGA、OncoKB等)的生信团队来说,在Skill优仓上维护一套标准化的数据获取Skill库,是个值得投入的工程化实践。









暂无评论内容