生物构造变异分析软件meerkat 0.189下笔记(二)

一、 运行meerkat

    前面已经依序安装了meerkat
的条件与meerkat,运行了先行处理同步,在交互呼应之bam文件目录下生成了巨额文书,因此,当要为此meerkat处理某个bam文件时,应先将欠bam文件移动到专有的一个文书夹,manual中呢建议这样用。

     预处理生成的公文包:

     黑名单文件.gz

     isinfo文件:包括插入大小信息

     pdf文件:插入大小的布图,unmapped reads长度的遍布图,softclip
reads长度分布图

    
pre.log文件:日志文件,包括输入的参数,输入输出信息,reads数,unallign
reads数等

     softclips.fq.gz: softlip reads文件,完整的read

     softclips.rdist:softclip 的reads长度分布信息记录

     unmapped.fq.gz:unmapped的reads 文件,完整的read

     unmapped.rdist: unmapped的reads长度的遍布信息

     sr1.fq.gz : 从softclip read 或者 unmaped read 切下来的指定bp
的reads

     sr2.fq.gz :  与sr1.fq配对的reads

     一个文件夹包括1_1fq.gz,1_2fq.gz , 
里面有两样长短的reads。每个read group 人工的reads 对

   

    

   1.1  meerkat.pl

          perl ./scripts/meerkat.pl [options]

         -b  FIle    已经sort过的bam文件

         -k  int    [0/1]是不是采用预处理发生的私名单文件,默认1

         -d  FLT    call discordant mate pairs
的正经差阈值,默认3.这选项控制什么寻找discordant
read对,等同于概念最深的concordant
fragment(配对之reads定位及之片段),计算办法是:中位插入大小+d x
sd,如果插入大小分布图狭窄并针对如,就使用默认参数,例如下面一亚图。如果分布图偏宽,或者带在长尾,三四图,参数应要为5,对于大深度(>30x),尽管分布图狭窄,但是使用5见面轻微好一些。如果头窄,但是依然带在一个尾(图五),好像大部分TCGA数据那样,在meekat.pl这无异步用5较3再次好

4858mgm 1

 

 

 4858mgm 2

 4858mgm 3

 

 

         -c  FLT    集簇discordant mate
pair标准差阈值,默认和-d相同。控制什么集簇,构建断点的置信区间。等同于概念覆盖断点的最为酷有(中位插入大小+c
x sd)。如果-d 选项是5还是小于5,使用用-c相同之参数,如果-d
很老,比如10,那么以还粗之-c,比如5。如果数据来深高的测序深度,或者来广泛的正片的浮动,那么下5如果未是3来避免不能够构建断点的置信区间。

         -p  FLT    call一个事变支持之配对数阈值,默认2

         -o  INT   
需要支持全长reads对的数额,默认是0,设定是选项会下滑小复杂事件的敏感度。如果运用-a
1 -l 1推介用-o 1 来避免重复序列导致的不在少数人工产物

         -q  INT    call一个事件支持的split reads数,默认是1

         -z  INT    事件频的绝特别价值,默认1,000,000,000

         -s  INT    从unmapped reads
开始跟后面切下来的bp数,必须和同拍卖的-s 参数设置一样

         -m  INT    [0/1],如果设定也1,使用meerkat
去去除duplicates,如果设为0,使用Picard 的 flag ‘d‘ marked
,或者其它工具去除duplicates.bwa mem 的多寡必须用picard mark duplicate
,所以要使为0.

          -a  INT   
[0/1],处理非单一比对,默认1。如果测序质量不好,或者测序深度不够,将参数设为0,这样合成对的reads都深受视作单纯比对下。这仗bwa
mapping 时生成的XT标签。如果无XT标签,使用选择Q.

          -u  INT   
[0/1],使用bam文件之满比对,如果BAM文件不是由BWA产生的,或者由bwa产生而从未XT标签,那么开是选项,开了之选项会强制关闭-a选项。默认是0。开了这选项下应利用-Q
参数过滤低mapping
reads,推荐-Q设置10,对于bwa比对过之bam,也可持续过滤。

          -Q  INT    被运的reads的极其小mapping quality,默认是0

          -g  INT    
在根本的bam文件使用的备择mapping数,默认使用成套。备择mapping
数之前经过bwa -N 参数输出及XA标签中。bwa mem 默认 输出备择mapping。

          -f  INT    在clipped
比对吃考虑的备择mapping数,默认使用任何。

          -l  INT    [0/1],是否考虑clipped
比对,默认1.跟预处理一样,对于bwa mem 出来的基因组,不欲再次mapping.

          -t  INT    在bwa比对面临之所以到之核数,默认1

          -R  STR    包括黑名单read group的文本,每一样履行一个read
group ID

          -F  STR    fasta文件夹路径

          -S  STR    samtools路径,如果samtools不以环境变量中的话

          -W  STR    bwa路径,如果bwa不以环境变量中的话

          -B   STR    blastall 和 formatdb
的路,如果非以环境变量的话语

          -P  STR   
指定运行顺序,dc|cl|mpd|alg|srd|rf|all,默认all,每一样步运行都急需达到同步之结果

                            dc:  extract discordant read
pairs,提取discordant read对

                            cl:  construct clusters of discordant read
pairs,将discordant read对建簇

                            mpd: call events based on read
pairs,基于read 对call 事件

                            alg: align split reads to candidate break
point regions,比对split read
到候选的断点区域。如果您闹多中心的语句,可以将alg步骤切为简单步,alg1及alg2,alg1运转多线程,alg2运行单线程。

                            srd:  confirm events based on split reads
and filter results,基于split reads和过滤的结果对事件进展说明

                            rf: refine break points by local
alignments,通过区域比对定义断点

                            all: run all above steps ,运行总体步骤

           -h    帮助

    manual 中之比喻:

    50bp reads,<10x 的TCGA 基因组    使用-s 18 -d 5 -a 0 -l 0 -q
1,猜测:reads 长度比小,所以取1/3 read 长,-s 取18, TCGA
基因组,插入分布狭窄带尾,所以-d 设为5, 测序深度较逊色,reads
长度比短,所以尽量保存数据,-a 设为0, -l 设为0,-q 设的比较逊色,1。

    75-101bp reads, 30-40x TCGA 基因组    使用-s 20 -d 5 -p 3 -o 1
-a 0 -u 1 -Q 10,猜测:reads长度较丰富,取1/5read尺寸,-s 取20,TCGA
基因组,插入分布狭窄带尾,所以-d
设为5,长度比丰富,深度较生,因此降低敏感度,增加特异度,所以-p 设为3,-o
设为1,由于没XT tag和XA tag ,因此-a 1 选项无法运行,因此设为-u 1 -a 0
-Q 10 。如果及时是bwa mem的数据以来,参数应设为-s 20 -d 5 -p 3 -o 1 -m 0
-l 0,bwa mem 数据未欲重新于对softclips -l
0,必须用picard去除duplicate,-m设为0,估计是是早版本的bwa,因此比对经常好生成XT标签,-a
默认为1。

    101bp reads, 60-80x TCGA 基因组    使用-s 20 -d 5 -p 5 -o
3,75-101bp 使用-s 20,TCGA基因组使用-d 5,测序深度深,-o 设置双重高3。

   
如果肿瘤基因组60x,相呼应的正常基因组30x,那么以60x之参数,常常为此配对的正规组织被之black.list.gz
重命名并放到肿瘤bam文件处理的文本夹,替换cancer的blacklist.gz文件。

       

     1.2 mechanism.pl

       perl
./scripts/mechanism.pl [options]

        -b  FILE    sort过的bam文件

        -o  INT    [0/1]在TE包括rmsk类型 \”Other\”,默认1

        -t  INT    TE的绝要命价值,默认100000

        -z  INT    被拍卖的SV的数据限制,默认1000000000

        -R  STR    repeat注释路径,能够从UCSC下充斥

        -h  help

 

二、参照

   
manual中于出的多寡,HapMap个体NA18507(42x深度,100bp读长,500bp插入大小),用10审批bwa比对费1.5龙跟10GB的内存。30x深度的肿瘤数据,要多于两上又越30G的内存,如果测序质量无顶好,比如很多底嵌合比对和众非单一mapped的reads,就见面花还多之日子以及内存。、

 

三、结果

   
运行完预处理与meerkat.pl后,能够赢得两个文件.intra.refined.typ.sorted和inter.refined.typ.sorted,运行了mechanism.pl后,会取得.variants文件,否则,就该归看一下装置是否出现问题。

    
运行的瘤子基因组文件的时候,一定要是管例行组织的blacklist文件替换肿瘤基因组的blacklist文件,blacklist文件可以在先行处理中生成。如果在事先处理着冒出错误信息“differing
read lengths“,没有涉嫌,仅仅是报您以一些read group中长度不相同。

 

 四、包含的另程序

    4.1
转换variant 文件到vcf格式**
   **

perl ./scripts/meerkat2vcf.pl -i variantfile -o vcffile -H headerfile -F /db/hg18/hg18_fasta/

    -F选项可以生一个峰文件

    4.2  融合基因注释

 

perl ./scripts/fusions.pl -i variantfile -G /db/hg18/refGene_hg18_sorted.txt

 

    4.3  为形成位点设计引物

        使用primer.pl

        -i  FILE    输入文件,fusion.pl产生的融合文件

        -o  FILE    输出文件

        -p  STR    引物固定序列

         -c  INT   
列数补偿,默认0,如果第一列有什么样事件的样品名称,那么要为1

         -f  INT    侧翼区域,默认500,设计引物所在的区域

         -s  STR    被“,”分隔的引物大小,默认20,23,25,27

         -m  STR    引物最小,最美,最可怜Tm值,”,”分隔,默认50,60,65

         -n  INT    对各级一个引物片段,设计的音物个数,默认5

          -r  INT    掩盖repeat,默认0

          -q  INT    输出设计引物的侧翼序列

          -F  STR    fasta文件文件夹路径

          -P  STR    primer_core程序文件夹路径

          -L  STR    bla文件夹t路径

          -V  STR    blat服务器,例如fServer start 10.11.240.76
17777/reference/hg18/hg18.2bit -stepSize=5,服务器路径应该为10.11.240.76

          -T  STR    blat端口,上面例子中之17777

          -h  help

   
全部音物都是由于Primer3生成,对于各一个轩然大波,挑出.1和.2,不同的势头认为是不同的风波,所以得到引物的时节一直拷贝出来,不欲格外的反向互补,如果序列是小写字母,那么证明引物在又序列。理论及,你应该用
1 blat hit 挑来多少写的引物。如果blat hit
是0,意味着由最多hit了,所以并非选择这种引物。有时候,即使引物是于再次序列及(小写字母),但是当基因组上仍然是单纯比对之,(1
blat
hit),因为凡重元件的变异,挑选这种引物是好的。如果由片引物PCR没有结果,你得择2个正朝着引物,两单反朝引物来而进行4
只PCR 反应。引物设计之广阔规则仍然要采用,比如,你当选TM
值相差不大并且GC含量不太极端的。

    4.4  计算等位基因频率

        使用discon.pl,这个脚本会告诉您所有断点的discordant 和
concordant的read对.

        -i  FILE    输入variants 文件,必须

       -o  FILE    输入文件,必须

       -D  INT    从bam文件中计算discordant
pair的数量,默认0,基因分型的下打开这选项

       -B  FILE    bam文件,必须

       -C  FILE    由Meerkat 产生的cluster文件,必须

       -I  FILE    Meerkat 运行时有的isinfo文件

       -K  FILE    包含要不经意的read group的文书称,一个read ID 一行,和
meerkat.pl的R参数一样

       -S  FILE    samtools文件夹路径,如果samtools不再环境变量中

       -d  FLT    call discordant read 对的科班差阈值,默认3

       -Q  INT    使用的reads 最小的mapping quality,默认0

       -h  help

      

perl ./scripts/discon.pl -d 5 -Q 10 -i $somaticg -o $somaticg_rp -B $cancer_bam -C
$cancer_cluster -I $cancer_isinfo -K $cancer_blacklistrg -S /home/ly55/opt/samtools/

    结果文件中每一个轩然大波时有发生一个 RP tag ,A_B_C_D格式

    A:全长的discordant read 对数

    B:从部分比对的reads中discordant的reads数

    C:第一断点的concordant reads 数

    D:第二断点的concordant reads数

    A+B应该等以及Meerkat得到的总的reads数

       

 

 以上内容无非作个人笔记使用,仅供参考

 

参考资料

meerkat manual
:http://gensoft.pasteur.fr/docs/Meerkat/0.189/Manual\_0.189.pdf**
**

相关文章