-
3.2. Samtools로 BAM 가공하기Bioinformatics solution/NGS GATK HaplotypeCaller 2018. 9. 11. 10:28728x90반응형SMALL
우선 Samtools를 깔아야 한다. 해당 프로그램은 NGS 분석의 It Item이다.
http://www.htslib.org/doc/samtools.html
다들 깔아야 한다. 요새 PICARD 잘 안쓴다. 멀티 THREADING이 되어야 NGS 분석 도구 답지 않은가?
SAM의 경우 BWA MEM 결과를 통해서 얻을 수 있다.
그런데 이 SAM의 경우 PCR artifact에 의해서 분석의 bias가 발생할 수 있다.
그러기 때문에 duplicate라 불리는 PCR artifact를 제거해야 한다.
* 잠깐
PCR artifact는 PCR에 의해 생성되는 인공물로, 같은 DNA 조각이 분석될 수 있음을 암시한다. duplicate를 찾는 방법은 다음 사이트에 나와 있다.
내용을 요약하자면 같은 위치에 맵핑이 된다면, 우연히 같은 모양으로 shearing되었다고 판단하기 보다는 PCR에 의해 amplification된 duplicate라고 생각하는 것이 맞다는 것이다.
http://www.htslib.org/algorithms/duplicate.html
이러한 사유로, 참조유전체에 대하여 정렬하고 duplicate도 체크 하는 과정을 거쳐야 한다.
준비물 SAM 파일 준비 (BWA 로 만든 것)
samtools sort -m 10G -n -o [QN sorted bam] -@ 10 [input bam] samtools fixmate -@ 10 -m [QN sorted bam] [fixmate bam] samtools sort -m 10G -o [sorted bam] -@ 10 [fixmate bam] samtools index -@ 10 [sorted bam] samtools markdup -@ 10 -s [sorted bam] [duplicates marking bam] samtools index -@ 10 [duplicates marking bam]
여기서 넘나 많은 [] 가 사용되었다. 하나하나 알아보자 [QN sorted bam]: read1과 read2의 상호 정보를 표시하여 정렬한 BAM으로 duplicate 확인을 위함 [fixmate bam]: 서로의 pair 끼리 sorting한 정보, 이를 통해 duplicate 파악용 데이터 확보 [sorted bam]: 이젠 모든 read 정렬 [duplicates marking bam]: 앞서 정보를 모두 이용하여 duplicates 정보를 표시(marking)
duplicates로 marking되면 GATK의 후 단계에서 해당 데이터를 이용하지 않게 된다.
bias가 줄어들게 된다.
단 해당 작업은 Amplicon에 대하여 duplicates marking을 하면 안된다.
왜냐하면 amplicon은 특정 DNA를 amplification하는 것인데, 같은 DNA를 증폭 시켰으니 amplified DNA가 많을 수 밖에 없다. 간혹 amplicon-seq에서 이런 실수를 하는 경우가 있는데, 조심하자~
728x90반응형LIST'Bioinformatics solution > NGS GATK HaplotypeCaller' 카테고리의 다른 글
4.1. GATK BQSR 실행 (Base Quality Score Recalibration) [optional,but recommended] (0) 2018.09.14 3.3. Qualimap2로 BAM 검증하기 (QA QC) (0) 2018.09.14 3.1. BWA를 통한 FASTQ의 맵핑 (BWA) 진행하기 (1) 2018.09.10 2.2. FASTQ의 QA (Quality Assessment) 진행하기 (0) 2018.09.04 2.1. FASTQ의 adapter sequence 서열 제거하기 (0) 2018.09.03