打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
宏基因组|使用CheckM2评估分箱质量
简介
CheckM2使用机器学习快速评估基因组bin质量
与CheckM1不同,CheckM2采用通用训练的机器学习模型,无论分类学谱系如何,均可用于预测基因组bin的完整性和污染情况。这使得它能够在训练集中纳入许多仅具有少数(甚至只有一个)高质量基因组代表的谱系,通过将其置于训练集中所有其他生物体的背景下进行分析。得益于这一机器学习框架,CheckM2对于具有缩减基因组或特殊生物学特性的生物体,如Nanoarchaeota或Patescibacteria,也具有极高的准确性。
CheckM2使用两种独立的机器学习模型来预测基因组完整性。其中,“通用”梯度提升模型具有良好的泛化能力,适用于GenBank或RefSeq中代表性不足的生物体(大致相当于在目、纲或门水平上为新物种)。而“特定”神经网络模型在预测与参考训练集相近物种的完整性时更为准确(大致相当于已知物种、属或科中的生物体)。CheckM2通过计算余弦相似度自动确定适用于每个输入基因组的完整性模型,但用户也可以强制使用特定的完整性模型,或者获取两种模型的预测输出。至于污染情况,CheckM2只有一种基于梯度提升的模型,该模型不受不同版本分类学物种注释的影响,适用于所有情况。
安装
mamba env create -f checkm2.yaml
mamba activate checkm2
checkm2.yaml文件如下
names: checkm2
channels:
- conda-forge
- bioconda
- defaults
dependencies:
- checkm2=1.0.1
下载数据库
官方下载链接
https://zenodo.org/api/files/fd3bc532-cd84-4907-b078-2e05a1e46803/checkm2_database.tar.gz解压
tar -xf checkm2*z
使用
checkm2 predict \
--threads 16 \
--input ./Bin/ \
--output-directory ./Bin_quality/ \
--database_path ./checkm2/uniref100.KO.1.dmnd
--input 输入目录,包含bin.fa或bin.fna等文件
Bin.1.fa
Bin.2.fa
Bin.3.fa
Bin.4.fa
Bin.5.fa
Bin.6.fa
...
--output-directory 输出文件目录
--database_path 数据库文件
--threads 所使用的线程数
输出结果
diamond_output/
protein_files/
checkm2.log
quality_report.tsv
可以根据quality_report.tsv文件中的Completeness>75和Contamination<10挑选Bin
grep 'Bin' Bin_quality/quality_report.tsv | \
awk '{if($2>75 && $3<10) print $1}' > Bin_quality/checkm2_pick.txt
NameCompletenessContaminationCompleteness_Model_UsedTranslation_Table_UsedCoding_DensityContig_N50Average_Gene_LengthGenome_SizeGC_ContentTotal_Coding_SequencesAdditional_Notes
Bin.3164.524.61Gradient Boost (General Model)110.8814705287.052094518187720.631862None
Bin.31087.922.31Neural Network (Specific Model)110.84119758357.399481924568440.511930None
Bin.31122.070.01Neural Network (Specific Model)110.85216495304.85945955944760.42555None
Bin.31270.10.93Neural Network (Specific Model)110.8684467273.762299915927660.381687None
Bin.3135.450.02Neural Network (Specific Model)110.92562916244.93877552321560.41294None
Bin.31491.290.5Gradient Boost (General Model)110.95414158348.068849712997130.491191None
Reference
https://github.com/chklovski/CheckM2
https://pubmed.ncbi.nlm.nih.gov/37500759/
承接宏基因组、扩增子全部分析内容
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
宏基因组分箱(bin)流程metawrap的运行错误集锦
Microbiome:宏基因组分箱流程MetaWRAP安装和数据库布置
技术贴 | 宏基因组专题 | 宏基因组分箱(Binning)技术
宏基因组组装质量评估新方法-MAGISTA
Nautre方法 | CheckM2基于机器学习快速、可扩展和准确地评估微生物基因组质量
教程 | BUSCO 评估基因组组装完整性(含注意事项)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服