三代测序组拼接组装工具Falcon

基因组装配工具Falcon工作流程

1 Falcon简介
Falcon (法斯特(Fast)(Fast) Alignment and
CONsensus),是由PacBio(大西洋生物科技公司)新开发的二倍体基因组从头拼接组装工具,由HGAP(Hierarchical
Genome Assembly Process)扩充而来,但装有更快的拼接组装效能。
Falcon的正常化运行,需要DAZZ_DB模块用来构建连串的数据库,DALIGNER模块举办连串比对寻找系列之间的交汇和pypeFLOW模块记录和追踪流程进度。

4858美高梅 1

 

2 Falcon工作步骤

运行:fc_run.py fc_run.cfg
fc_run.cfg为布局文件,包含falcon运行所急需的各种参数。

1)构建用于错误更正的本来连串重叠音讯
fc_run.py生成prepare.rd脚本,调用Daligner中的fasta2DB生成Dazzler Data
Base;调用DB
split分割数据块,最终的任务数取决于对队列数据库的分开(-s参数);调用HPCDaligner生成一雨后春笋局部比对的通令。具体由生成以rj初阶的本子调用Daligner举行部分比对,生成一文山会海包含体系之间比对音信的”.las”文件。0-rawreads文件夹中的所有.las格式的文本会被以rp起始的本子调用sort和merge命令合并成一个.las格式的文件。

2)错误更正和预组装
不当更正和预组装的目的在于将原始连串转化为高质料的预组装体系。在以c起头的剧本中,调用LA4Falcon读取las格式文件转换成falcon所能识其它格式,以管道的不二法门流入fc_consensus.py举行不当更正和预组装,生成consensus体系,放在fasta格式文件中,以用来后续基因组装配。生成的fasta文件个数与以m起头的文书夹个数一致。Fast(Fast)a文件的头新闻可以被Daligner解析。

3)构建错误更正后的队列重叠音讯
与第一步相似。参数设置与第一也接近,重要不同在于-e,可以设置较高的多少个预组装的队列的关联度,比如-e.96,因为此时系列的错误率已经很低了。

4)过滤重叠
过滤重叠的缘故:1),假诺一条连串完全包含其它一条连串,这种重叠消息是没价值的;2)连串两端的重叠关系并不需要过多的重合消息,一定量的交汇信息变可以推算出;3)类别某段的覆盖度较高,可能是由重复区域造成,覆盖度较低,存在较高的错误率等。
规定重叠关系的最大交汇数目,系列两端的最大和微小覆盖度等装置可以在配置文件中的overlap_filtering_setting设置。

5)基于重叠信息构建串图
fc_ovlp_to_graph.py会生成一些用以构建重叠群contig的串图文件。
依照重叠音讯,构建图的边,边的消息储存在sg_edges_list文件中,这么些边进一步连接成unitigs的信息囤积在utg_data文件中。ctg_path则存储依据unitigs构建每个contig的图。fc_ovlp_to_graph.py涉及的参数有:
–min_len MIN_LEN:用于装配拼接的队列最低长度
–min_4858美高梅,idt MIN_IDT:用于装配拼接的队列之间的最低比对相似度
–lfc:解决串图中的节点时,使用local flow
constraint方法而不是超级重叠策略。

6)基于图构建重叠群(contig)
fc_graph_to_contig.py按照图路径和系列,构建contig。

3 Falcon安装
当前PacBio提供了全方位falcon倚重模块的integrate版本,详见https://github.com/PacificBiosciences/FALCON-integrate
只需服从步骤执行
git clone git://github.com/PacificBiosciences/FALCON-integrate.gitcd FALCON-integratemake initmake virtualenvmake checkmake -j installmake test # to run a simple one

但前提是您的微机必须联网,假设你的微处理器没有联网,可以下载Falcon20150728,执行install-offline.sh。

4 Falcon 配置文件fc_run.cfg
[General]# list of files of the initial bas.h5 filesinput_fofn = input.fofn 指出所有输入数据#input_fofn = preads.fofn

input_type = raw 标明系列类型,即是否曾经成功了错误更正
#input_type = preads

# The length cutoff used for seed reads used for initial mapping
length_cutoff = 10000 用于错误更正的种子体系的最低长度

# The length cutoff used for seed reads usef for pre-assembly
length_cutoff_pr = 10000用来构建重叠的预组装种子连串的最低长度

# target = pre-assembly
# target = mapping
target = assembly
用来控制Daligner任务队列,-pe指定并行环境,-q指定要提交到的队列,8意味着线程。
sge_option_da = -pe smp 8 -q bigmem
sge_option_la = -pe smp 2 -q bigmem
sge_option_pda = -pe smp 8 -q bigmem
sge_option_pla = -pe smp 2 -q bigmem
sge_option_fc = -pe smp 24 -q bigmem
sge_option_cns = -pe smp 8 -q bigmem

pa_concurrent_jobs = 32 fc_run.py提交并发任务的数目cns_concurrent_jobs = 32ovlp_concurrent_jobs = 32-dal决定单个任务中相互比对的数据块的数目(影响生成的任务数),-e序列之间的关联程度,-s trace points sparse ,-l 低于-l的序列将被忽略,-t Tuple suppression frequency?????,-h Hit threshold (in bp.s)pa_HPCdaligner_option = -v -dal128 -t16 -e.70 -l1000 -s1000ovlp_HPCdaligner_option = -v -dal128 -t32 -h60 -e.96 -l500 -s1000-s序列数据库分割后,每个数据块的Mb大小,低于-x阈值长度的序列将被忽略pa_DBsplit_option = -x500 -s400ovlp_DBsplit_option = -x500 -s400--min_cov种子序列的最低覆盖度;--max_n_read用于错误修正的最大序列数目,防止重复区域中序列的影响,--output_multi output multi correct regions,--min-idt minimum identity of the alignments used for correction,--max_n_read 用于生成consensus的最低序列数目,--n_core生成consensus的线程数falcon_sense_option = --output_multi --min_idt 0.70 --min_cov 4 --local_match_count_threshold 2 --max_n_read 200 --n_core 6--max_diff序列两端的最大覆盖度差异,max_cov序列两端的最大覆盖度--min_cov最低覆盖度,bestn如有输出指定数目的最好的重叠overlap_filtering_setting = --max_diff 100 --max_cov 100 --min_cov 1 --bestn 10

参考:https://github.com/PacificBiosciences/FALCON/wiki/Manual
https://github.com/PacificBiosciences/FALCON-integrate

#####################################################################
#版权所有 转载请告知 版权归作者所有 如有侵权 一经发现
必将追究其法律责任
#Author: Jason
#####################################################################

转自:http://wp.zxzyl.com/?p=95

相关文章