-
2. FASTQ 다루기Bioinformatics solution/NGS STAR HTseq 2022. 12. 21. 20:50728x90반응형SMALL
2.1. FASTQ adapter 제거하기
준비물은 fastq 이며, 사용한 illumina machine과 library kit을 알아야 한다.
illumina machine 중 nextseq과 novaseq의 경우 2-color chemistry를 통하여 4 가지 nucleotide를 구분하게 된다. 그렇기 때문에 poly-G 가 실제 poly-G인가 아니면 non-signal 인가를 구분하여야 한다. 3 prime sequence가 끝까지 G로 연속되는 homopolymer라면 CutAdapt 프로그램이 non-signal로 인식하게 제거해 준다.
library kit 마다 adapter 서열이 다르기 때문에 (대부분은 TruSeq adapter 서열을 이용하면 된다) 이를 조정하기 위해서 서열을 파악해야 한다.
그렇기 때문에 1. 어떤기기 2. 어떤 library kit 인가를 파악하여야 한다.
cutadapt \ -a AGATCGGAAGAGCACACGTCTGAACTCCAGTCA \ -A AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT \ -q 20 -m 11 -j 8 \ -o [output 1st fastq] -p [output 2nd fastq] \ [input 1st fastq] [input 2nd fastq] # q: Phred score 20 이상만 이용 # m: 최소 길이 11 bp (STAR aligner가 길이 0 인 read에서 오류를 발생시킨다) # o: output 이름 # p: 2nd fastq output 이름 # a: 1st fastq의 5'에 붙는 adapter sequence # A: 2nd fastq의 5'에 붙는 adapter sequence
2.2. FASTQC를 통한 quality check
해당 사항은 그냥
준비물 fastq 파일 준비
코드
fastqc [input fastq]
이렇게 output 으로 html 형태로 받을 수 있게 된다.
728x90반응형LIST'Bioinformatics solution > NGS STAR HTseq' 카테고리의 다른 글
3.2. STAR aligner로 mapping 하기 (1) 2022.12.28 3.1. STAR 사용을 위한 reference genome indexing (0) 2022.12.23 3.0. 왜 우리는 total RNA sequencing을 하는가? (mRNA sequencing과의 비교를 통한 접근) (0) 2022.12.22 1. RNA sequencing 분석하기 (0) 2022.12.21