Bioinformatics solution/NGS STAR HTseq
-
3.2. STAR aligner로 mapping 하기Bioinformatics solution/NGS STAR HTseq 2022. 12. 28. 18:35
우선 참조유전체(reference genome)이 있어야 한다. 그리고 paired end ILLUMINA sequencing fastq를 사용하는 이유는 요새는 이게 가장 싸다. (왜냐하면 NovaSeq으로 돌려야 bp당 sequencing 비용이 가장 저렴한데, 한번 flowcell을 돌릴때 같은 length의 single-end or paired-end data를 generation 해야한다. NovaSeq은 WGS 기준 30X로 30명 분을 생산한다고 하기 때문에, 다 같은 형태의 data - 같은 single or pair end, 그리고 150 bp or 100 bp- 형태로 같게 해야 한다.) 그렇기 때문에 나의 안내도 마찬가지로 paired-end mapping으로 기록하였다. 준비물: r..
-
3.1. STAR 사용을 위한 reference genome indexingBioinformatics solution/NGS STAR HTseq 2022. 12. 23. 20:51
우선 참조유전체(reference genome)이 있어야 하며, 이 fasta 파일의 indexing을 진행하여야 한다. 그런데, RNA 는 exon에 대한 정보가 추가적으로 필요하다. intron은 pre-mature RNA에서 splicing 된 후 capping 등의 가공을 통하 mRNA가 된다. 그렇기 때문에 NGS read가 빠르게 exon에 mapping하기 위해서 exon에 대한 정보까지 더하여 indexing을 진행하게 된다. indexing에 이용되는 RNA는 gencode를 통해 검증된 데이터를 이용하게 된다. 준비물: reference fasta, genocode GTF STAR --runMode genomeGenerate \ --genomeDir [reference genome di..
-
3.0. 왜 우리는 total RNA sequencing을 하는가? (mRNA sequencing과의 비교를 통한 접근)Bioinformatics solution/NGS STAR HTseq 2022. 12. 22. 23:12
RNA는 mRNA, tRNA, rRNA로 크게 나뉜다. 1. mRNA만 당겨오는 (enrichment) poly-A tail bait 형태의 mRNA sequencing 2. rRNA를 제거 하는 ribosomal RNA depletion kit를 이용하는 total RNA sequencing이 있다. 일반적으로 생각하면 2번을 이용하면 miRNA, siRNA등 다양한 RNA를 볼 수 있을 것이라고 생각한다. 하지만 아니다. small RNA는 size check를 이용하여 sequencing을 하게 된다. 그렇다면 왜 total RNA sequencing을 하게 되는것인가? 그리고 왜 우리는 약간의 돈을 더 주고 total RNA sequencing을 하게 되는가? 1번의 경우에는 poly-A tail..
-
2. FASTQ 다루기Bioinformatics solution/NGS STAR HTseq 2022. 12. 21. 20:50
2.1. FASTQ adapter 제거하기 준비물은 fastq 이며, 사용한 illumina machine과 library kit을 알아야 한다. illumina machine 중 nextseq과 novaseq의 경우 2-color chemistry를 통하여 4 가지 nucleotide를 구분하게 된다. 그렇기 때문에 poly-G 가 실제 poly-G인가 아니면 non-signal 인가를 구분하여야 한다. 3 prime sequence가 끝까지 G로 연속되는 homopolymer라면 CutAdapt 프로그램이 non-signal로 인식하게 제거해 준다. library kit 마다 adapter 서열이 다르기 때문에 (대부분은 TruSeq adapter 서열을 이용하면 된다) 이를 조정하기 위해서 서열을 ..
-
1. RNA sequencing 분석하기Bioinformatics solution/NGS STAR HTseq 2022. 12. 21. 20:37
RNA seq 가격이 떨어져서 micro array를 대체한지 어언 10년이 되었다. 이에 따라 수 많은 review 논문에서 RNA seq 분석방법이 정리되어 오고 있다. 초심자들에게 직접적인 명령어를 공유하고 빠른 분석을 하고자 이번 글을 쓰게 되었다. 앞으로 부지런히 bioinformatic blog를 정리하여 올리도록 하겠다. 이번에 올릴 분석 방법은 illumina paired-end sample을 대상으로 작성되었다. (왜냐하면 요새 국내 NGS 데이터 생산 vendor 사에서 100 bp paired end로 100 M reads의 total RNA seq을 주로 서비스 하기 때문이다.) 우선 해당 사항은 10.1038/s41576-019-0150-2 을 기반으로 쓰여지게 되었다. 가장 흔한..