-
3.1. STAR 사용을 위한 reference genome indexingBioinformatics solution/NGS STAR HTseq 2022. 12. 23. 20:51728x90반응형SMALL
우선 참조유전체(reference genome)이 있어야 하며, 이 fasta 파일의 indexing을 진행하여야 한다.
그런데, RNA 는 exon에 대한 정보가 추가적으로 필요하다. intron은 pre-mature RNA에서 splicing 된 후 capping 등의 가공을 통하 mRNA가 된다. 그렇기 때문에 NGS read가 빠르게 exon에 mapping하기 위해서 exon에 대한 정보까지 더하여 indexing을 진행하게 된다. indexing에 이용되는 RNA는 gencode를 통해 검증된 데이터를 이용하게 된다.
준비물: reference fasta, genocode GTF
STAR --runMode genomeGenerate \ --genomeDir [reference genome directory] \ --genomeFastaFiles [reference genome fasta] \ --sjdbGTFfile [genecode gtf] \ --sjdbOverhang [read length] --outFileNamePrefix [prefix]
여기서 핵심은 read length의 option이 들어간다는 점이다. 왜냐하면 read 길이에 대한 junction point에 대하여 indexing을 해두어 빠른 mapping이 가능케 하는 것이다.
그렇기 때문에 주로 쓰는 read length에 대하여 미리 indexing 하는 것이 좋다.
SRA, ENA, DDBJ에서 구할 수 있는 public NGS raw data의 경우에는 100 bp, 150 bp 다양하게 존재하기 때문에 미리 만들어 두면 좋다.
728x90반응형LIST'Bioinformatics solution > NGS STAR HTseq' 카테고리의 다른 글
3.2. STAR aligner로 mapping 하기 (1) 2022.12.28 3.0. 왜 우리는 total RNA sequencing을 하는가? (mRNA sequencing과의 비교를 통한 접근) (0) 2022.12.22 2. FASTQ 다루기 (0) 2022.12.21 1. RNA sequencing 분석하기 (0) 2022.12.21