4剖析实战Moving微生物

本示例的的数据来自小说《Moving pictures of the human
microbiome》,Genome Biology 二零一一,取样来自五个人身躯多个地点八个时间点

 

跻身环境

source activate qiime2-2017.8

脱离环境

source deactivate

 

安不忘忧数据

# 创立并进入工作目录

mkdir -p qiime2-moving-pictures-tutorial
cd qiime2-moving-pictures-tutorial

# 下载实验设计(-O 重命名下载的文件)

wget -O
sample-metadata.tsv https://data.qiime2.org/2017.6/tutorials/moving-pictures/sample_metadata.tsv

##
下边一步下载失利,可尝试删除空文件并使用本身建立的备份链接下载;不然跳过上面两行命令

rm sample_metadata.tsv
wget http://bailab.genetics.ac.cn/markdown/sample-metadata.tsv

# 下载实验测序数据

mkdir -p emp-single-end-sequences
wget -O emp-single-end-sequences/barcodes.fastq.gz
https://data.qiime2.org/2017.6/tutorials/moving-pictures/emp-single-end-sequences/barcodes.fastq.gz
wget -O
emp-single-end-sequences/sequences.fastq.gz https://data.qiime2.org/2017.6/tutorials/moving-pictures/emp-single-end-sequences/sequences.fastq.gz

 

# 生成qiime必要的artifact文件(qiime文件格式,将原有数据格式标准化)

qiime tools import \
  –type EMPSingleEndSequences \
  –input-path emp-single-end-sequences \
  –output-path emp-single-end-sequences.qza

拆分样品

# 按barcode拆分样品德姆ultiplexing sequences

qiime demux emp-single \
  –i-seqs emp-single-end-sequences.qza \
  –m-barcodes-file sample-metadata.tsv \
  –m-barcodes-category BarcodeSequence \
  –o-per-sample-sequences demux.qza

 

# 结果总结

qiime demux summarize \
  –i-data demux.qza \
  –o-visualization demux.qzv

 

# 查看结果 (依赖XShell+XManager或任何ssh终端和图形界面软件)

qiime tools view demux.qzv

 

队列质量控制和生成OTU表

此步首要有DADA2和Deblur三种艺术可选,推荐使用DADA2,2018年公布在Nature
Method上,相比同类方式优于别的OTU聚类结果;相较QIIME的UPA景逸SUVSE聚类方法,近期DADA2办法仅去噪去嵌合,不再按相似度聚类。比上时代分析结果更确切。

 

DADA2 

重中之重效率是去除低品质系列、嵌合体;再生成OTU表,以后叫Feature表,因为不再动用聚类方法,也正是QIIME时期百分之百相似度的OTU表。

读者思考时间:基于上边对拆分样品的总计结果,怎样设置下面生成OTU表的参数。

 

–p-trim-left
截取左端低品质类别,大家看图中箱线图,左端品质都很高,无低品质区,设置为0;

–p-trunc-len
类别截取长度,也是为了去除右端低品质种类,我们看来大于120随后,品质下滑不小,甚至中位数都降低至20以下,需求整个去除。

# 单端连串去噪,
去除左端0bp(–p-trim-left用于切除边缘低品质区),连串切成120bp长;生成代表种类和OTU表;一碗水端平命名用于下游分析
qiime dada2 denoise-single \
  –i-demultiplexed-seqs demux.qza \
  –p-trim-left 0 \
  –p-trunc-len 120 \
  –o-representative-sequences rep-seqs-dada2.qza \
  –o-table table-dada2.qza
mv rep-seqs-dada2.qza rep-seqs.qza
mv table-dada2.qza table.qza

 

Deblur 

与DADA2二选一,用户可自动比较结实的出入,依据喜好选拔

# 按测序品质过滤体系
qiime quality-filter q-score \
 –i-demux demux.qza \
 –o-filtered-sequences demux-filtered.qza \
 –o-filter-stats demux-filter-stats.qza
#
去冗余生成OTU表和代表系列;结果文件名有deblur,没有用于下游分析,请读者想测试的团结尝尝
qiime deblur denoise-16S \
  –i-demultiplexed-seqs demux-filtered.qza \
  –p-trim-length 120 \
  –o-representative-sequences rep-seqs-deblur.qza \
  –o-table table-deblur.qza \
  –o-stats deblur-stats.qza

 

Feature表统计

qiime feature-table summarize \
  –i-table table.qza \
  –o-visualization table.qzv \
  –m-sample-metadata-file sample-metadata.tsv
qiime tools view table.qzv

 

表示系列计算

qiime feature-table tabulate-seqs \
  –i-data rep-seqs.qza \
  –o-visualization rep-seqs.qzv
qiime tools view rep-seqs.qzv

 

建树:用于各样性分析

# 多类别比对
qiime alignment mafft \
  –i-sequences rep-seqs.qza \
  –o-alignment aligned-rep-seqs.qza
# 移除高变区
qiime alignment mask \
  –i-alignment aligned-rep-seqs.qza \
  –o-masked-alignment masked-aligned-rep-seqs.qza
# 建树
qiime phylogeny fasttree \
  –i-alignment masked-aligned-rep-seqs.qza \
  –o-tree unrooted-tree.qza
# 无根树转换为有根树
qiime phylogeny midpoint-root \
  –i-tree unrooted-tree.qza \
  –o-rooted-tree rooted-tree.qza

 

Alpha多样性

读者思想时间:上边两种性分析,供给根据标准化的OTU表,标准化选拔重抽样至类别一致,如何陈设样品重抽样深度参数。–p-sampling-depth

 

如是数据量都非常的大,选最小的即可。如若有分别数据量一点都一点都不大,去除最小值再选最小值。比如此分析最小值为917,大家选拔1080纵深重抽样,即保留了超过44%样品用于分析,又去除了数据量过低的不胜值。

注:本示例为454一代的测序,数据量十分小。今后相似选用HiSeq
PE250测序,数据量都格外大,常常能够利用3万或5万的正统筛选,仍可保留十分之九以上样本。过低或过高级中学一年级般结果也会充足,不建议坐落一起分析。

#
总结二种性(包蕴持有常用的Alpha和Beta各类性方法),输入有根树、Feature表、样本重采集样品深度(一般为最小样本数据量,或掩盖绝半数以上样品的数据量)

qiime diversity core-metrics \
  –i-phylogeny rooted-tree.qza \
  –i-table table.qza \
  –p-sampling-depth 1080 \
  –output-dir core-metrics-results

# 输出结果蕴涵各种各类性结果,文件列表和释疑如下:

# beta多样性bray_curtis距离矩阵 bray_curtis_distance_matrix.qza 

# 阿尔法三种性evenness(均匀度,考虑物种和丰度)指数 evenness_vector.qza

# alpha多样性faith_pd(考虑物种间发展关系)指数 faith_pd_vector.qza

# beta多样性jaccard距离矩阵 jaccard_distance_matrix.qza

# alpha多样性observed_otus(OTU数量)指数 observed_otus_vector.qza

# 阿尔法种种性香农熵(考虑物种和丰度)指数 shannon_vector.qza

# beta多样性unweighted_unifrac距离矩阵,不考虑丰度
unweighted_unifrac_distance_matrix.qza

# beta多样性unweighted_unifrac距离矩阵,考虑丰度
weighted_unifrac_distance_matrix.qza

 

#
faith_pd算法计算Alpha各种性组间差别是或不是显著,输入多种性值、实验设计,输出计算结果

qiime diversity alpha-group-significance \
  –i-alpha-diversity core-metrics-results/faith_pd_vector.qza \
  –m-metadata-file sample-metadata.tsv \
  –o-visualization
core-metrics-results/faith-pd-group-significance.qzv

 

# 总结evenness组间差别是不是鲜明

qiime diversity alpha-group-significance \
  –i-alpha-diversity core-metrics-results/evenness_vector.qza \
  –m-metadata-file sample-metadata.tsv \
  –o-visualization
core-metrics-results/evenness-group-significance.qzv

 

# 网页展现结果,只就算qzv的文本,均可用qiime tools
view查看或在线https://view.qiime2.org/查看,现在不再赘述

qiime tools view core-metrics-results/evenness-group-significance.qzv

读者思想时间:实验设计中的那一种分组织承办法,与微生物群众体育的丰盛度差别相关,那几个出入明显吗?

 

解答:图中可按Catalogy选拔分类方法,查看分裂分组下箱线图间的分布与差别。图形下边包车型客车报表,详细详述组间相比的显然性和假中性(neuter gender)率计算。

结果大家会看出本实验设计的分组织承办法有Bodysite, Subject,
ReportAntibioticUse,唯有肉体地点各组间差距鲜明,且上面总结结果也存在很多组间的鲜明性差距

 

Beta多样性

# 按BodySite分组,统计unweighted_unifrace距离的组间是或不是有拨云见日差别

qiime diversity beta-group-significance \
  –i-distance-matrix
core-metrics-results/unweighted_unifrac_distance_matrix.qza \
  –m-metadata-file sample-metadata.tsv \
  –m-metadata-category BodySite \
  –o-visualization
core-metrics-results/unweighted-unifrac-body-site-significance.qzv
\
  –p-pairwise

 

# 按Subject分组,统计unweighted_unifrace距离的组间是或不是有明显差距

qiime diversity beta-group-significance \
  –i-distance-matrix
core-metrics-results/unweighted_unifrac_distance_matrix.qza \
  –m-metadata-file sample-metadata.tsv \
  –m-metadata-category Subject \
  –o-visualization
core-metrics-results/unweighted-unifrac-subject-group-significance.qzv
\
  –p-pairwise

 

# 可视化三维展现unweighted-unifrac的主坐标轴分析

qiime emperor plot \
  –i-pcoa core-metrics-results/unweighted_unifrac_pcoa_results.qza
\
  –m-metadata-file sample-metadata.tsv \
  –p-custom-axis DaysSinceExperimentStart \
  –o-visualization
core-metrics-results/unweighted-unifrac-emperor.qzv

 

# 可视化三维体现bray-curtis的主坐标轴分析

qiime emperor plot \
  –i-pcoa core-metrics-results/bray_curtis_pcoa_results.qza \
  –m-metadata-file sample-metadata.tsv \
  –p-custom-axis DaysSinceExperimentStart \
  –o-visualization core-metrics-results/bray-curtis-emperor.qzv

 

# 网页显示结果,或下载在线查看

qiime tools view core-metrics-results/bray-curtis-emperor.qzv

读者思想时间:按subject分组有显著区别呢?按body-site分组有分明分歧吧?这一个body-site组间存在区别?

按任何距离总结的结果,读者能够仔细看看不相同距离矩阵计算结果的界别。个人感觉,一般比较好解释科学难题的不二法门正是契合的格局

 

物种分类

# 下载物种注释

wget -O gg-13-8-99-515-806-nb-classifier.qza
https://data.qiime2.org/2017.6/common/gg-13-8-99-515-806-nb-classifier.qza

 

# 物种分类

qiime feature-classifier classify-sklearn \
  –i-classifier gg-13-8-99-515-806-nb-classifier.qza \
  –i-reads rep-seqs.qza \
  –o-classification taxonomy.qza

 

# 物种结果转换表格,可用以查看

qiime taxa tabulate \
  –i-data taxonomy.qza \
  –o-visualization taxonomy.qzv

 

# 物种分类柱状图

qiime taxa barplot \
  –i-table table.qza \
  –i-taxonomy taxonomy.qza \
  –m-metadata-file sample-metadata.tsv \
  –o-visualization taxa-bar-plots.qzv

# 网页显示结果,或下载在线查看

qiime tools view taxa-bar-plots.qzv

读者思想时间1:代表系列文件rep-seqs.qzv可视化结果中,能够下载fasta文件采纳NCBI举办blast注释物种音信,与大家眼下的结果相比较,看看有何两样,各分类级其余注释定义的相似程度是怎么样? 

读者思考时间2:查看门水平(level2)分类结果柱状图,看每一类body-site中主要丰度的花色是哪些?

 

差异丰度分析

距离丰度分析应用ANCOM (analysis of composition of
microbiomes),是二零一六年公布在Microb Ecol Health
Dis上的办法,小说称在微生物组方面更专业,但不收受零值(零在二代测序结果表中很宽泛)。笔者个人直接用edge科雷傲,感觉可信赖,因为德州仪器量测序本质上是一致的

 

差异Features/OTUs分析

# OTU表添加假count,因为ANCOM不允许有零

qiime composition add-pseudocount \
  –i-table table.qza \
  –o-composition-table comp-table.qza

 

# 接纳ancon,按BodySite分组进行差距总计

qiime composition ancom \
  –i-table comp-table.qza \
微生物,  –m-metadata-file sample-metadata.tsv \
  –m-metadata-category BodySite \
  –o-visualization ancom-BodySite.qzv

 

# 查看结果

qiime tools view ancom-BodySite.qzv

读者思想时间:区别身体部分有那些Features存在丰度差别?那一组是最高或最低丰度?那此差距的Features属那多少个分类单元?

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

不同分类学级别分析:以按门水平统一再总结差距

# 按门水平实行统一,计算各门的总reads

qiime taxa collapse \
  –i-table table.qza \
  –i-taxonomy taxonomy.qza \
  –p-level 2 \
  –o-collapsed-table table-l2.qza

 

# 同理去除零

qiime composition add-pseudocount \
  –i-table table-l2.qza \
  –o-composition-table comp-table-l2.qza

 

# 在门水平按取样部分分析

qiime composition ancom \
  –i-table comp-table-l2.qza \
  –m-metadata-file sample-metadata.tsv \
  –m-metadata-category BodySite \
  –o-visualization l2-ancom-BodySite.qzv

读者思想时间:不相同身体部分有那多少个Features存在丰度差距?那一组是最高或最低丰度?那此差别的Features属那叁个分类单元? 

 

结果描述:结果的可视化(Visual)页面,一共分为三有的。

先是个表为ANCOM statistical
results,只列出组间存在显著差别的门,其计算值W的一个钱打二17个结及表明尚不清楚,查原始小说也平素不找到。有待更新版中表达。

其次个表为各组的丰度分位数,正是箱线图的原始数据,为何小编没有平素出图,我将与小编联系座谈;目前得以相比各组的遍布,来具体分析组间的差别,但不够直观;

总结各项目标火山图,坐标轴还尚无详细解释,但其意思是越靠上越强烈差异。此图接纳Python的bokeh库生成的交互式图形,能够点击图中的点来查看具体的详实,如具体的分类学新闻。相当于表1的可视化。

结果的网页还有别的页面,如peek页面能够查阅此文件的宗旨消息,Provenance页面展现当前结果的成形进度图,点击进程中的点能够查阅具体的顺序和参数;链接按扭可以扭转共享链接;下载按扭能够下载原始文件。

相关文章