ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 3.2. Samtools로 BAM 가공하기
    Bioinformatics solution/NGS GATK HaplotypeCaller 2018. 9. 11. 10:28
    728x90
    반응형
    SMALL


    우선 Samtools를 깔아야 한다. 해당 프로그램은 NGS 분석의 It Item이다.


    http://www.htslib.org/doc/samtools.html


    다들 깔아야 한다. 요새 PICARD 잘 안쓴다. 멀티 THREADING이 되어야 NGS 분석 도구 답지 않은가?


    SAM의 경우 BWA MEM 결과를 통해서 얻을 수 있다.

    그런데 이 SAM의 경우 PCR artifact에 의해서 분석의 bias가 발생할 수 있다. 

    그러기 때문에 duplicate라 불리는 PCR artifact를 제거해야 한다.


    * 잠깐

    PCR artifact는 PCR에 의해 생성되는 인공물로, 같은 DNA 조각이 분석될 수 있음을 암시한다. duplicate를 찾는 방법은 다음 사이트에 나와 있다.

    내용을 요약하자면 같은 위치에 맵핑이 된다면, 우연히 같은 모양으로 shearing되었다고 판단하기 보다는 PCR에 의해 amplification된 duplicate라고 생각하는 것이 맞다는 것이다.

    http://www.htslib.org/algorithms/duplicate.html


    이러한 사유로, 참조유전체에 대하여 정렬하고 duplicate도 체크 하는 과정을 거쳐야 한다.


    준비물
    SAM 파일 준비 (BWA 로 만든 것)
    samtools sort -m 10G -n -o [QN sorted bam] -@ 10 [input bam]
    samtools fixmate -@ 10 -m [QN sorted bam] [fixmate bam] 
    samtools sort -m 10G -o [sorted bam] -@ 10 [fixmate bam]
    samtools index -@ 10 [sorted bam]
    samtools markdup -@ 10 -s [sorted bam] [duplicates marking bam]
    samtools index -@ 10 [duplicates marking bam]

    여기서 넘나 많은 [] 가 사용되었다.
    하나하나 알아보자
    [QN sorted bam]: read1과 read2의 상호 정보를 표시하여 정렬한 BAM으로 duplicate 확인을 위함
    [fixmate bam]: 서로의 pair 끼리 sorting한 정보, 이를 통해 duplicate 파악용 데이터 확보
    [sorted bam]: 이젠 모든 read 정렬
    [duplicates marking bam]: 앞서 정보를 모두 이용하여 duplicates 정보를 표시(marking)


    duplicates로 marking되면 GATK의 후 단계에서 해당 데이터를 이용하지 않게 된다.

    bias가 줄어들게 된다.


    단 해당 작업은 Amplicon에 대하여 duplicates marking을 하면 안된다.


    왜냐하면 amplicon은 특정 DNA를 amplification하는 것인데, 같은 DNA를 증폭 시켰으니 amplified DNA가 많을 수 밖에 없다. 간혹 amplicon-seq에서 이런 실수를 하는 경우가 있는데, 조심하자~


    728x90
    반응형
    LIST

    댓글

Designed by Tistory.