-
2.1. FASTQ의 adapter sequence 서열 제거하기Bioinformatics solution/NGS GATK HaplotypeCaller 2018. 9. 3. 14:54728x90반응형SMALL
오늘날 Illumina 기기에서는 paired-end로 된 서열을 얻게 된다.
Paired-end 란 무엇인가?
최신 기술로, FASTQ를 만들 때 DNA의 양쪽을 읽는 기술이다. 과거에는 한쪽만 읽고 버렸다. (콜럼버스의 달걀 처럼 최초의 시도는 어려운 생각이다.)
그 전에 Illumina 기기에 DNA를 어떻게 넣는가 알아보자!
1. Cell에서 DNA를 뽑는다. (DNA extraction kit; 자세한 것은 여기에서 확인
https://www.qiagen.com/us/shop/sample-technologies/dna/genomic-dna/dneasy-blood-and-tissue-kit/ )
2. DNA를 일정한 길이로 조각낸다.
일반적으로 550 bp로 자른다.
어떻게 일정한 길이로 자를까? chemical reaction, biological enzyme 쓰면 일정한 길이로 조각낼 수 없지 않은가?
https://www.thermofisher.com/order/catalog/product/4482277
정답은 초음파....
물리가 답이다.
DNA 자를때, DNA 순도 높일때 이 기계가 최고다. 그런데 기계가 비싸다. 소모품도 비싸다.
3. DNA가 illumina 기기의 flow cell에 붙을 수 있도록 adapter를 붙여준다.
Illumina 기기가 DNA 잡아서 읽는 것이 아니다. 기판이 adapter 서열과 달라 붙어서 증폭 (amplification) 시켜서 읽는다.
이 3단계에서 이용한 adapter 서열 때문에 다음의 과정을 거치게 된다.
우리의 순수한 DNA에 adapter 서열이 들어가게 되면, 가짜 유전변이가 나온다. 위양성(false positive)을 가진 정보가 생기기 때문에 없애주게 된다.
Illumina 기기의 adapter는 알려져 있기 때문에 이러한 작업을 할 수 있게 된다.
https://cutadapt.readthedocs.io/en/stable/ 여기서 다운받자
준비물 cutadapt 설치 (python2는 single core, python3는 multi core 계산이 가능함) fastq 파일 준비 (이번 실습은 paired end fastq 기준)
[sample] input이름 [out] output 이름
cutadapt -a AGATCGGAAGAGCACACGTCTGAACTCCAGTCA -A AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT -o [out 1st fastq] -p [out 2nd fastq] [sample 1st fastq] [sample 2nd fastq]
만약 들어간 DNA가 짧다면, adapter 서열이 읽혀지게 된다. 그렇기 때문에 adapter 서열의 정보를 넣어주게 되면 짧은 DNA에서 읽혀진 adapter 서열을 제거하게 된다.
728x90반응형LIST'Bioinformatics solution > NGS GATK HaplotypeCaller' 카테고리의 다른 글
3.2. Samtools로 BAM 가공하기 (2) 2018.09.11 3.1. BWA를 통한 FASTQ의 맵핑 (BWA) 진행하기 (1) 2018.09.10 2.2. FASTQ의 QA (Quality Assessment) 진행하기 (0) 2018.09.04 2.0. bcl 이미지를 fastq로 변환하기 (0) 2018.08.30 1.1. GATK 변이 추출 흐름도 (GATK germline variant calling workflow) (0) 2018.08.23