Skip to content

Latest commit

 

History

History
360 lines (300 loc) · 21.9 KB

2-拷贝数变异.md

File metadata and controls

360 lines (300 loc) · 21.9 KB

拷贝数变异

CNV及其形成机制

  • 在基因组水平上,CNV 不像单核苷酸多态性(SNPs)那样高频发生,但是它们对生物的表型、功能、适应性等有重要作用,且其产生的影响比 SNP 要更加强烈 (Alkan et al. 2011; Zhang et al. 2009; Ho et al. 2020; Henrichsen et al. 2009a; Henrichsen et al. 2009b)。CNVs 是驱动基因和基因组进化的重要机制(Zhang et al. 2009)。越来越多的研究表明,CNVs 通过各种分子机制(如基因剂量、基因融合)对家畜的孟德尔性状和数量性状的表型变异具有重要影响。如果CNV 存在于蛋白编码区,则改变蛋白功能,如果在调控区,则改变基因表达水平(Liu and Bickhart 2012)。
  • CNV为基因组序列中长度为 50 bp - 5 Mb 的重复和缺失变异,在群体中,不同个体间重叠区域 CNV 的整合结果称作 CNV 区域(CNV Region, CNVR)。当这些 CNVs 被发现在蛋白质编码基因(CNV 基因)或 miRNA(CNV-miRNA)的基因组区域时,该遗传变异就可能作用于分子调控机制,并影响着生物的表型多样性和对疾病的易感性。
  • 非等位同源重组(Non-allelic homologous recombination, NAHR)、非同源末端连接(Non-homologous end joining, NHEJ)、复制叉停滞与模板交换(Fork stalling and template switching, FoSTeS)、L1 介导的反转录转座(L1-mediated retrotranspositio, LINE1)是基因组中形成重排的主要机制,同时也是大部分 CNV 产生的原因。
    • 由于非同源染色体之间的两个相似序列区域容易发生重组,所以 NAHR常发生在减数分裂和有丝分裂过程。姐妹染色单体之间发生交叉的过程可能增加 DNA片段或丢失另一个 DNA 片段,从而导致染色体片段的重复、缺失和倒位。

    • NHEJ 机制是细胞用来修复由电离辐射或活性氧物质引起的 DNA 双链断裂(Double-strand breaks, DSBs)的生理形式。

    • FoSTeS 是一种基于 DNA 复制的机制,可以解释复杂的基因组重排和 CNV。

    • L1 转座通过逆转录和整合方式引发 CNV 的产生。基因组中倒位和易位等组合事件的鉴别在技术上仍然具有挑战性,要完全鉴别其变异类型和成因的成本也很高,相对而言,CNV 更容易被鉴别,且可以为分析复杂变异提供强有力的遗传学证据。image

      image

检测手段

芯片法和测序法

  • 芯片法主要包括比较基因组杂交芯片(Array comparative genomic hybridization, a CGH)和 SNP 芯片(Singlenucleotide polymorphism arrays)。
  • DNA 测序法主要包括全基因组测序(Whole genome sequnecing, WGS)和单分子测序
  • Paired-end mapping(PEM)方法、Split read(SR)方法、Read depth(RD)方法和 De novo 组装是检测基因组拷贝数变异的主要策略。
    • RD 方法通过利用短读取序列数据与参考基因组进行比对,标准化每个区域的读取深度,其中低或零深度的区域被解释为缺失,深度增加的区域被解释为拷贝数的重复或扩增。
    • RD 方法相较于 PEMSR 方法有着较高的检出率和准确性。
  • 现在基于二代测序数据分析 CNV的研究还存在着样本少测序深度较低选用参考基因组质量差异大等不足之处,这些因素均会对 CNV 检测结果产生不利影响image

检测软件

matchclips2-刘正喜师姐的脚本

基于long soft clips的CNV断点计算方法

  1. matchclips计算CNV
每个样品分别进行matchclips2计算:
很快,结果也挺准确的
/home/software/matchclips2/matchclips -t 4 \
                                      -f GCF_002263795.1_ARS-UCD1.2_genomic.fna \
                                      -b BC-448.sorted.addhead.markdup.bam \
                                      -o CNV.BC-448.txt


ls *bam|cut -d"." -f 1 | sort -u | while read id; do /home/software/matchclips2/matchclips -t 4 -f /home/sll/genome-cattle/ARS-UCD1.2/GCF_002263795.1_ARS-UCD1.2_genomic.fna -b ${id}.sorted.addhead.markdup.bam -o ${id}.cnv.txt; done
结果文件:
1、CHROM  
2、起始位置  
3、中止位置 
4、DEL或DUP  
For DEL, the 5' break point is BEGIN and 3' is END,
For DUP, the 5' break point is END and 3' is BEGIN.、
5、区域长度:3' break point - 5' break point
6、UN,碱基数量This number tells how many bases are repeated at the two break points
7、RD:n1;n2;n3:s
  1. cnvtable合并结果
#保证当前目录没有其他txt文件的情况下
find -name '*txt' -exec basename {} \; > cnvf.txt
#进行合并
/home/software/matchclips2/cnvtable -L 10000 -cnvf cnvf.txt -O 0.5 -o overlap.txt

cnvf.txt为含有上一步结果文件名称的txt文件,一列一个
-cnv  STR  file names separated by white spaces
-i    STR  IDs for the files separated by white spaces 
-cnvf STR  a file with list of file names and(or) ids
-l   INT  minimum length to include, INT=3 
-L  INT  maximum length to include, INT=10000000 
-t   STR  only process STR type of CNVs
-R  STR  subset cnvs in region STR
-chr 1-22XY are treated as chr[1-22XY]
-O  FLOAT  minimum reciprocal overlap ratio [0.0, 1.0], FLOAT=0.5
-o  STR  outputfile, STR=STDOUT

CNVcaller软件

  • 软件运行过程(整个过程输入文件均使用绝对路径) image
  • 怎么定义一个窗口是否为拷贝数变异窗口?
在定义一个窗口是否为拷贝数变异窗口时,CNVcaller 首先需要对各个样本设定阈值。考虑到测序过程中,可能会有一定比例的样本由于各种系统偏差导致测序 reads 出现系统偏斜,从而造成窗口读段数不是随机分布,即窗口读段数的标准差会明显升高。CNVcaller 默认群体中至少 75%的样本是测序质量较高的样本。根据经验,校正后滑动窗口 reads 数的变异系数(coefficient of variation,CV)一般要低于 0.2。
对于测序质量较高(或者 CV 值较低)的前75%的样本,CNVcaller 默认拷贝数缺失与重复的阈值分别设为:1-0.35 和 1+0.35;针对测序质量相对差(或者 CV 值较大)的后 25%的样本,CNVcaller 会通过样本的 CV 与所有样本 CV 的四分之三分位数的比值计算得到该样本的矫正系数γ,并将拷贝数缺失与重复的阈值分别设为:1-0.35*γ和 1+0.35*γ。对于不符合哈迪温伯格平衡的群体(如大豆、小麦杂合变异比例极低的纯系群体),CNVcaller 默认拷贝数缺失与重复的阈值分别为:1-0.75 和1+0.75。
  • 关于频率,CNVcaller 通过分别统计基因组每个窗口杂合变异和纯合变异的样本数,默认杂合变异或纯合变异样本占所有样本 10%以上,即CNV在二倍体群体中的变异频率超过5%,该窗口就被判定为拷贝数变异窗口。对于纯系群体,CNVcaller默认纯合变异个体数超过 2的窗口为拷贝数变异窗口。

详情可以参考姜雨老师团队主导开发的数据库omicsDB (nwsuaf.edu.cn)

安装参考:JiangYuLab/CNVcaller (github.com)

使用前准备:

在Individual.Process.sh和CNV.Discovery.sh脚本文件中修改CNVcaller 的安装路径(该软件的安装路径),默认是当前工作目录 image

即修改为:export CNVcaller=/home/sll/miniconda3/CNVcaller

  1. 在当前目录创建referenceDB.windowsize文件,构建参考基因组数据库
perl CNVReferenceDB.pl ref.fa -w 400

perl /home/sll/miniconda3/CNVcaller/bin/CNVReferenceDB.pl /home/sll/genome-cattle/ARS-UCD1.2/GCF_002263795.1_ARS-UCD1.2_genomic.fna -w 800

作用:将参考基因组按用户指定大小(-w)的滑动窗口及一定的步长(内置是滑动窗口
大小的一半)分别统计基因组上每个窗口的 GC、repeat 及 gap 含量。
-w the window size (bp) for all samples [default=800] 滑动窗口大小及步长,内置是滑动窗口大小的一半, >10x使用400-1000,<10x使用1000-2000
-l the lower limit of GC content [default=0.2] 窗口可能含有的最低GC比例,低于该比例的窗口不会进入后续计算。
-u the upper limit of GC content [default=0.7] 窗口可能含有的最高GC比例
-g the upper limit of gap content [default=0.5] 窗口可能含有的最高gap比例
生成一个“referenceDB.800”的文件。 
第一列,染色体名称           第二列,窗口在对应染色体上的序号
第三列,窗口实际起始位置     第四列,GC 含量
第五列,重复序列含量         第六列,gap 比例
  1. 计算每个窗口的绝对拷贝数 设置Individual.Process.sh中的环境变量
export CNVcaller=/home/sll/miniconda3/CNVcaller

bash /home/sll/miniconda3/CNVcaller/Individual.Process.sh -b `pwd`/SRR8588100.sorted.addhead.markdup.bam -h SRR8588100 -d /home/sll/miniconda3/CNVcaller/Btau5.0.1_800_link -s none

-h BAM 文件的标头信息,需要与 BAM 文件中 SM 标签保持一致(用户可以通过 samtools view -H BAM 查看)。
-d 校正所需要的dup文件。可看后面Dup文件的创建。查看物种dup文件JiangYuLab/CNVcaller (github.com)。
-s 性染色体名称。CNVcaller 会根据给定的性染色体所有窗口读段数的中位数与所有常染色体窗口读段数的中位数比例来确定该个体的性别。
运行结束后,三个默认文件夹(RD_raw、RD_absolute、RD_normalized)将会在当前目录下被创建,分别包含了每个样本的全基因组所有窗口原始读段数、通过 link 文件合并后的读段数,以及每个样本经 GC 测序偏斜校正和标准化后的绝对拷贝数。标准化的文件名显示了该个体基因组所有窗口的读段数平均值、标准差与性别(1 为 XX 或 ZZ,2 为 XY 或ZW),其中平均值和标准差可用于样本的质控。

绝对拷贝数为 1 时,表示为正常的拷贝数,即正常二倍体;0.5 表示杂合缺失;0 表示纯合缺失;1.5 表示杂合重复;2 表示纯合重复;绝对拷贝数超过 2 表示复杂的多次重复。

  1. 拷贝数变异区域的确定(多样本合并,单个样本会报错)

通过综合考虑绝对拷贝数的分布、变异的频率及相邻窗口的显著相关性来初步确定 CNVR 的边界(primaryCNVR)。最后,将相邻且拷贝数在群体中分布显著相关的 CNVR进一步合并得到最终的拷贝数变异检测结果(mergedCNVR)。

cd RD_normalized
cp referenceDB.800 RD_normalized
记得把第一步生成的referenceDB.800放进去,输入文件用绝对路径!!!
list 上一步输出的文件名的列表,一行一个,多个样本,需包含绝对路径,RD_normalized文件夹中的文件。
    ls -R `pwd`/*sex_1 > list.txt
    touch exclude_list
exclude_list 为空文件,提前创建
运行完成后,会在当前目录下产生两个文件名为`primaryCNVR,mergeCNVR 的文本文件。
	
bash /home/sll/miniconda3/CNVcaller/CNV.Discovery.sh -l `pwd`/list.txt -e `pwd`/exclude_list -f 0.1 -h 1 -r 0.1 -p primaryCNVR -m mergeCNVR

-l 个体经绝对拷贝数校正后的结果文件列表
-e 该列表中的样本不被用于 CNVR 的检测,但结果文件会记录这些样本的绝对拷贝数。exclude_list 为空文件代表所有个体将被用于CNVR检测。
-f 当一个窗口有超过该频率的个体绝对拷贝数与正常拷贝(“1”)显著差异(杂合删除或者杂合复制)时,就定义该窗口为候选拷贝数变异窗口。
-h 当一个窗口有超过该频数的个体绝对拷贝数与正常拷贝(“1”)显著差异(纯合删除或者纯合复制)时,就定义该窗口为候选拷贝数变异窗口。
##只需要满足-f 与-h 中的任意一个即可
-r 在定义 CNVR 时,如果相邻(没有 overlap)候选拷贝数变异窗口的绝对拷贝数的相关系数高于该值将被合并。
####推荐使用显著水平为 0.01 的 pearson 相关系数。该值越高拷贝数检测的准确性越高,但获得的拷贝数变异区域越碎片化。
  1. 基因型判定

利用混合高斯模型将每个样本的拷贝数归入不同的基因型分类,并以 VCF 格式输出,以方便后续通过全基因组关联分析挖掘与重要经济性状有关的拷贝数变异。

python /home/sll/miniconda3/CNVcaller/Genotype.py --cnvfile mergeCNVR --outprefix genotypeCNVR --nproc 4

--cnvfile CNVR 结果文件,包含全部样本的拷贝数信息,上一步的输出结果(mergeCNVR)。--outprefix 输出结果文件的前缀,默认会输出两个文件,其中,后缀为 tsv 的文件记录了分
类结果的基本统计信息,方便后续过滤低质量的 CNVR;后缀为 vcf 的文件为常规 VCF 格式。
--nproc 程序使用的进程数,默认为单进程,使用此参数可显著减少程序运行时间,但会增加内存消耗。
--merge (若想使用CNVR进行后续的群体遗传学分析,则使用这个参数)为了得到更多的双等位 CNVR 用于后续分析,可以使用--merge 选项。使用后,会增加一个后缀为 _merge.vcf 的 输 出 文 件 , 类 似 <outprefix>.vcf 文 件 , 区 别 在 于<outprefix>_merge.vcf 中把所有重复算作一种变异类型

报错: image

解决: sed -i "s/harabaz/harabasz/g" /home/sll/miniconda3/CNVcaller/Genotype.py

  1. 结果文件 genotypeCNVR.vcf文件内容
CHROM: 所在染色体
POS:CNVR的起始坐标位置
ID:CNVR的编号,格式为:序列坐标:起始位置-终止位置
ALT: 变异类型,包括CN0、CN1、CN2和CNH,分别代表0个拷贝、1个拷贝、2个拷贝和超过2个的拷贝
INFO:包含CNVR的终止位置(END),CNVR的变异类型(SVTYPE),基因分型的对数自然值(LOGLIKELIHOOD)和轮廓系数(SILHOUETTESCORE)
FORMAT:每个个体基因分型结果的输出格式,GT和CP分别代表个体的基因分型结果和绝对拷贝数。
number:表示当前CNVR包含的窗口数
gap:gap(含N的比例)
repeat:重复序列(依据基因组序列小写字母)
gc:gc的比例
kmer:代表该CNVR的所有kmer在基因组上出现次数的中位数还是平均数,用来表示该CNVR的重复性。
og_likelihood:表示该CNVR的所有样本绝对拷贝数的分型的效果;
average:该CNVR所有样本绝对拷贝数的平均值
sd(standard deviation):表示该CNVR所有样本绝对拷贝数的标准差;

genotypeCNVR.csv文件中

dd就是纯合丢失,Ad就是杂合丢失,AA就是正常拷贝,AB就是杂合gain,BB就是纯合gain,剩余的BC和M就是更复杂的拷贝数gain。

image image

Dup文件的创建

blasr软件安装建议从github下载压缩文件上传

sawriter是目录alignment/bin/下的sawritermc

创建自己所需要的dup文件:

  1. Split genome into short kmer sequences
python 0.1.Kmer_Generate.py [OPTIONS] FAFILE WINSIZE OUTFILE

<FAFILE> Reference sequence in FASTA format
<WINSIZE> The size of the window to use for CNV calling
<OUTFILE> Output kmer file in FASTA format

python /home/sll/miniconda3/CNVcaller/bin/0.1.Kmer_Generate.py /home/sll/genome-cattle/ARS-UCD1.2/GCF_002263795.1_ARS-UCD1.2_genomic.fna 400 kmer.fa
  1. Align the kmer FASTA (from step 1) to reference genome using blasr.
sawriter 创建sa索引文件
/home/sll/software/blasr-master/alignment/bin/sawritermc /home/sll/genome-cattle/ARS-UCD1.2/GCF_002263795.1_ARS-UCD1.2_genomic.fna.sa /home/sll/genome-cattle/ARS-UCD1.2/GCF_002263795.1_ARS-UCD1.2_genomic.fna

blasr 生成比对后的kmer.aln文件
blasr kmer.fa /home/sll/genome-cattle/ARS-UCD1.2/GCF_002263795.1_ARS-UCD1.2_genomic.fna --sa /home/sll/genome-cattle/ARS-UCD1.2/GCF_002263795.1_ARS-UCD1.2_genomic.fna.sa \
                                                                                        --out kmer.aln -m 5 \
											--noSplitSubreads --minMatch 15 --maxMatch 20 \
											--advanceHalf --advanceExactMatches 10 --fastMaxInterval \
											--fastSDP --aggressiveIntervalCut --bestn 10
  1. Generate duplicated window record file.
   python 0.2.Kmer_Link.py [OPTIONS] BLASR WINSIZE OUTFILE

<BLASR> blasr results (-m 5 format)
<WINSIZE> The size of the window to use for CNV calling
<OUTFILE> Output genome duplicated window record file

python /home/sll/miniconda3/CNVcaller/bin/0.2.Kmer_Link.py kmer.aln 1000 Bos_ARS1.2_window.link

cnvnator

检测出的片段长度很长,假阳性结果率较低,还算比较准确的一个软件

  1. 提取mapping信息
cnvnator -root SAMN05788539.root -tree SAMN05788539.sorted.addhead.markdup.bam -unique
nohup /home/software/CNVnator_v0.4.1/src/cnvnator -root BC-448.root -tree BC-448.sorted.addhead.markdup.bam -unique &

#提取比对后的reads,构建树,如果程序之前运行失败,已经生成了一个root文件,在下次重新运行时一定要删除该root文件,如果不删除,新的分析结果会追加到错误的root文件中,影响后续分析。另外,可以添加 -chrom 函数指定染色体 如 -chrom 1 2 代表选择1,2号染色体。
  1. 生成质量分布图HISTOGRAM
cnvnator -root SAMN05788539.root -d -his 100 -d /ref
nohup /home/software/CNVnator_v0.4.1/src/cnvnator -root BC-448.root -d -his 100 &

cnvnator -root SAMN05788539.root -d -his 100 -fasta ref 
(将参考基因组放于当前文件夹时)

# 100指的是bin size,可以通过-eval参数进行筛选,也可以根据经验值进行确定,一般测序深度20-30x选取bin size大小100,2-3x选取500,100x选取30。
# -d指定目录,内部存放给染色体的fasta文件,该参数指针对报错信息显示不能解析基因组文件,此时需要指定参考基因组的位置,且各染色体需要拆分成单独的fasta文件(目录下有其文件也可以,只要有所有染色体的序列就好,软件会自动识别)
  1. 生成统计结果
cnvnator -root SAMN05788539.root -stat 100
/home/software/CNVnator_v0.4.1/src/cnvnator -root BC-448.root -stat 100
  1. RD(reads depth)信息分割partipition
cnvnator -root SAMN05788539.root -partition 100
/home/software/CNVnator_v0.4.1/src/cnvnator -root BC-448.root -partition 100
##cnvnator在进行变异检测时,以提供的bin size对整个基因组进行切割,之后按照RD(read-depth)为基准进行cnv的检测。
  1. 变异检出
/home/software/CNVnator_v0.4.1/src/cnvnator -root BC-448.root -call 100 > BC-448-cnvout.txt

运行之后输出结果如下:
#第一列变异类型
#第二列位点信息
#第三列CNV大小
#第四列为标准化参数normalized_RD
#第5-8列为e-value值,其中第五列越小,说明结果越准确
#第九列q0质量值
  1. 转为vcf格式 cnvnator内置脚本:cnvnator2VCF.pl
/home/software/CNVnator_v0.4.1/src/cnvnator2VCF.pl cnv.call.txt > cnv.vcf

LUMPY

每种算法都要其优势和不足之处,综合运用多种策略有助于提高检测的灵敏度,lumpy就是这样一款软件,集合了read-pairsplit-readread-depth, 等多种策略来预测CNV

  1. mapping 推荐采用bwa-mem算法将双端序列比对到参考基因组上,为了加快运行速度,这里用samblaster软件进行markduplicate, 用法如下
samblaster --excludeDups \
--addMateTags  \
--maxSplitCount 2 \
--minNonOverlap 20 \

samtools view -Sb - > sample.bam
  1. extract discordant paired-end alignments discordant reads指的是R1和R2端比对之间的距离超过了期望的插入片段长度或者比对到了不同链的reads
samtools view -b -F 1294 \
sample.bam \
> sample.discordants.unsorted.bam
  1. extract split-reads alignments split-reads指的是覆盖了断裂点的单端reads,这些reads根据断裂点拆分成subreads后可以正确的比多到参考基因组上。

在软件的安装目录,自带了一个名为extractSplitReads_BwaMem的脚本,用于提取split-reads, 用法如下

samtools view -h sample.bam | scripts/extractSplitReads_BwaMem -i stdin | samtools view -Sb - > sample.splitters.unsorted.bam
  1. sort bams 软件要求输入的bam文件必须是排序之后的文件,所以对提取的两个子bam进行排序,用法如下
samtools sort \
sample.discordants.unsorted.bam \
sample.discordants

samtools sort \
sample.splitters.unsorted.bam \
sample.splitters
  1. run lumpy lumpyexpresslumpy的一个封装脚本,使用起来更加方便,基本用法如下
lumpyexpress \
-B sample.bam \
-S sample.splitters.bam \
-D sample.discordants.bam \
-o sample.vcf
  1. genotype 检测到的CNV, 可以用svtyper这个软件预测在样本中的分型结果,用法如下
svtyper \
-B sample.bam \
-S sample.splitters.bam \
-i sample.vcf \
> sample.gt.vcf

Vst分析

Vst分析是类似于Fst的一个指标,用来衡量群体间每个CNVR差异大小的统计量。

Vst=(Vt-Vs)/Vt

Vt表示所有样本该区域拷贝数大小的方差,Vs表示两个群体各自的方差根据各自群体大小加权之后的值。

标准差函数: ———— STDEV(A1:A6)

方差函数: ———— VAR(A1:A6)

Vst的值介于0-1之间,值越大表示群体间该区域拷贝数变异差异越大,反之则越小。