三代测序组拼接组装工具Falcon

基因组装配工具Falcon工作流程

1 Falcon简介
Falcon (Fast Alignment and
CONsensus),是由PacBio(北冰洋生物科技公司)新开发的二倍体基因组从头拼接组装工具,由HGAP(Hierarchical
Genome Assembly Process)扩大而来,但装有更快的拼接组装效能。
Falcon的健康运行,需要DAZZ_DB模块用来构建体系的数据库,DALIGNER模块举行连串比对寻找连串之间的交汇和pypeFLOW模块记录和追踪流程进度。

生物科技 1

 

2 Falcon工作步骤

运行:fc_run.py fc_run.cfg
fc_run.cfg为布局文件,包含falcon运行所需要的各个参数。

1)构建用于错误更正的本来面目系列重叠信息
fc_run.py生成prepare.rd脚本,调用Daligner中的fasta2DB生成Dazzler Data
Base;调用DB
split分割数据块,最后的职责数取决于对队列数据库的划分(-s参数);调用HPCDaligner生成一多级局部比对的下令。具体由生成以rj起先的本子调用Daligner举办部分比对,生成一多样包含类别之间比对新闻的”.las”文件。0-rawreads文件夹中的所有.las格式的文书会被以rp开首的脚本调用sort和merge命令合并成一个.las格式的公文。

2)错误更正和预组装
张冠李戴更正和预组装的目的在于将原来体系转化为高质量的预组装体系。在以c开头的脚本中,调用LA4Falcon读取las格式文件转换成falcon所能识此外格式,以管道的艺术流入fc_consensus.py举办不当更正和预组装,生成consensus连串,放在fasta格式文件中,以用于后续基因组装配。生成的fasta文件个数与以m起首的文书夹个数一致。法斯特(Fast)a文件的头信息可以被Daligner解析。

3)构建错误更正后的队列重叠信息
与第一步相似。参数设置与第一也仿佛,重要不同在于-e,可以安装较高的六个预组装的队列的关联度,比如-e.96,因为此时连串的错误率已经很低了。

4)过滤重叠
过滤重叠的来头:1),倘诺一条类别完全包含此外一条连串,这种重叠音信是没价值的;2)连串两端的重叠关系并不需要过多的重叠音讯,一定量的重叠音讯变可以推算出;3)体系某段的覆盖度较高,可能是由重复区域造成,覆盖度较低,存在较高的错误率等。
规定重叠关系的最大交汇数目,序列两端的最大和纤维覆盖度等设置可以在布置文件中的overlap_filtering_setting设置。

5)基于重叠音信构建串图
fc_ovlp_to_graph.py会生成一些用于构建重叠群contig的串图文件。
依据重叠消息,构建图的边,边的音信储存在sg_edges_list文件中,这一个边进一步连接成unitigs的音信存储在utg_data文件中。ctg_path则存储依照unitigs构建每个contig的图。fc_生物科技,ovlp_to_graph.py涉及的参数有:
–min_len MIN_LEN:用于装配拼接的系列最低长度
–min_idt MIN_IDT:用于装配拼接的队列之间的最低比对相似度
–lfc:解决串图中的节点时,使用local flow
constraint方法而不是最佳重叠策略。

6)基于图构建重叠群(contig)
fc_graph_to_contig.py遵照图路径和体系,构建contig。

3 Falcon安装
眼下PacBio提供了总体falcon倚重模块的integrate版本,详见https://github.com/PacificBiosciences/FALCON-integrate
只需遵照步骤执行
git clone git://github.com/PacificBiosciences/FALCON-integrate.gitcd FALCON-integratemake initmake virtualenvmake checkmake -j installmake test # to run a simple one

但前提是你的处理器必须联网,倘诺您的总括机没有联网,可以下载Falcon20150728,执行install-offline.sh。

4 Falcon 配置文件fc_run.cfg
[General]# list of files of the initial bas.h5 filesinput_fofn = input.fofn 指出所有输入数据#input_fofn = preads.fofn

input_type = raw 标明体系类型,即是否曾经完结了不当更正
#input_type = preads

# The length cutoff used for seed reads used for initial mapping
length_cutoff = 10000 用于错误更正的种子连串的最低长度

# The length cutoff used for seed reads usef for pre-assembly
length_cutoff_pr = 10000用于构建重叠的预组装种子连串的最低长度

# target = pre-assembly
# target = mapping
target = assembly
用于控制Daligner任务队列,-pe指定并行环境,-q指定要交给到的连串,8意味着线程。
sge_option_da = -pe smp 8 -q bigmem
sge_option_la = -pe smp 2 -q bigmem
sge_option_pda = -pe smp 8 -q bigmem
sge_option_pla = -pe smp 2 -q bigmem
sge_option_fc = -pe smp 24 -q bigmem
sge_option_cns = -pe smp 8 -q bigmem

pa_concurrent_jobs = 32 fc_run.py提交并发任务的数目cns_concurrent_jobs = 32ovlp_concurrent_jobs = 32-dal决定单个任务中相互比对的数据块的数目(影响生成的任务数),-e序列之间的关联程度,-s trace points sparse ,-l 低于-l的序列将被忽略,-t Tuple suppression frequency?????,-h Hit threshold (in bp.s)pa_HPCdaligner_option = -v -dal128 -t16 -e.70 -l1000 -s1000ovlp_HPCdaligner_option = -v -dal128 -t32 -h60 -e.96 -l500 -s1000-s序列数据库分割后,每个数据块的Mb大小,低于-x阈值长度的序列将被忽略pa_DBsplit_option = -x500 -s400ovlp_DBsplit_option = -x500 -s400--min_cov种子序列的最低覆盖度;--max_n_read用于错误修正的最大序列数目,防止重复区域中序列的影响,--output_multi output multi correct regions,--min-idt minimum identity of the alignments used for correction,--max_n_read 用于生成consensus的最低序列数目,--n_core生成consensus的线程数falcon_sense_option = --output_multi --min_idt 0.70 --min_cov 4 --local_match_count_threshold 2 --max_n_read 200 --n_core 6--max_diff序列两端的最大覆盖度差异,max_cov序列两端的最大覆盖度--min_cov最低覆盖度,bestn如有输出指定数目的最好的重叠overlap_filtering_setting = --max_diff 100 --max_cov 100 --min_cov 1 --bestn 10

参考:https://github.com/PacificBiosciences/FALCON/wiki/Manual
https://github.com/PacificBiosciences/FALCON-integrate

#####################################################################
#版权所有 转载请告知 版权归作者所有 如有侵权 一经发现
必将追究其法律责任
#Author: Jason
#####################################################################

转自:http://wp.zxzyl.com/?p=95

相关文章