Bioinformatics solution
-
3.2. STAR aligner로 mapping 하기Bioinformatics solution/NGS STAR HTseq 2022. 12. 28. 18:35
우선 참조유전체(reference genome)이 있어야 한다. 그리고 paired end ILLUMINA sequencing fastq를 사용하는 이유는 요새는 이게 가장 싸다. (왜냐하면 NovaSeq으로 돌려야 bp당 sequencing 비용이 가장 저렴한데, 한번 flowcell을 돌릴때 같은 length의 single-end or paired-end data를 generation 해야한다. NovaSeq은 WGS 기준 30X로 30명 분을 생산한다고 하기 때문에, 다 같은 형태의 data - 같은 single or pair end, 그리고 150 bp or 100 bp- 형태로 같게 해야 한다.) 그렇기 때문에 나의 안내도 마찬가지로 paired-end mapping으로 기록하였다. 준비물: r..
-
3.1. STAR 사용을 위한 reference genome indexingBioinformatics solution/NGS STAR HTseq 2022. 12. 23. 20:51
우선 참조유전체(reference genome)이 있어야 하며, 이 fasta 파일의 indexing을 진행하여야 한다. 그런데, RNA 는 exon에 대한 정보가 추가적으로 필요하다. intron은 pre-mature RNA에서 splicing 된 후 capping 등의 가공을 통하 mRNA가 된다. 그렇기 때문에 NGS read가 빠르게 exon에 mapping하기 위해서 exon에 대한 정보까지 더하여 indexing을 진행하게 된다. indexing에 이용되는 RNA는 gencode를 통해 검증된 데이터를 이용하게 된다. 준비물: reference fasta, genocode GTF STAR --runMode genomeGenerate \ --genomeDir [reference genome di..
-
3.0. 왜 우리는 total RNA sequencing을 하는가? (mRNA sequencing과의 비교를 통한 접근)Bioinformatics solution/NGS STAR HTseq 2022. 12. 22. 23:12
RNA는 mRNA, tRNA, rRNA로 크게 나뉜다. 1. mRNA만 당겨오는 (enrichment) poly-A tail bait 형태의 mRNA sequencing 2. rRNA를 제거 하는 ribosomal RNA depletion kit를 이용하는 total RNA sequencing이 있다. 일반적으로 생각하면 2번을 이용하면 miRNA, siRNA등 다양한 RNA를 볼 수 있을 것이라고 생각한다. 하지만 아니다. small RNA는 size check를 이용하여 sequencing을 하게 된다. 그렇다면 왜 total RNA sequencing을 하게 되는것인가? 그리고 왜 우리는 약간의 돈을 더 주고 total RNA sequencing을 하게 되는가? 1번의 경우에는 poly-A tail..
-
2. FASTQ 다루기Bioinformatics solution/NGS STAR HTseq 2022. 12. 21. 20:50
2.1. FASTQ adapter 제거하기 준비물은 fastq 이며, 사용한 illumina machine과 library kit을 알아야 한다. illumina machine 중 nextseq과 novaseq의 경우 2-color chemistry를 통하여 4 가지 nucleotide를 구분하게 된다. 그렇기 때문에 poly-G 가 실제 poly-G인가 아니면 non-signal 인가를 구분하여야 한다. 3 prime sequence가 끝까지 G로 연속되는 homopolymer라면 CutAdapt 프로그램이 non-signal로 인식하게 제거해 준다. library kit 마다 adapter 서열이 다르기 때문에 (대부분은 TruSeq adapter 서열을 이용하면 된다) 이를 조정하기 위해서 서열을 ..
-
1. RNA sequencing 분석하기Bioinformatics solution/NGS STAR HTseq 2022. 12. 21. 20:37
RNA seq 가격이 떨어져서 micro array를 대체한지 어언 10년이 되었다. 이에 따라 수 많은 review 논문에서 RNA seq 분석방법이 정리되어 오고 있다. 초심자들에게 직접적인 명령어를 공유하고 빠른 분석을 하고자 이번 글을 쓰게 되었다. 앞으로 부지런히 bioinformatic blog를 정리하여 올리도록 하겠다. 이번에 올릴 분석 방법은 illumina paired-end sample을 대상으로 작성되었다. (왜냐하면 요새 국내 NGS 데이터 생산 vendor 사에서 100 bp paired end로 100 M reads의 total RNA seq을 주로 서비스 하기 때문이다.) 우선 해당 사항은 10.1038/s41576-019-0150-2 을 기반으로 쓰여지게 되었다. 가장 흔한..
-
BLAST 를 local에서 돌리기Bioinformatics solution/NGS history 2019. 6. 29. 21:43
BLAST를 내거 원하는 DB에 대해서 돌리고 싶을 때가 있다. 예를 들어 내가 대장균에 대하여 primer를 제작했는데, 해당 생물에 primer가 unique하게 달라 붙는가를 알고 싶을 때가 있다. 그러면 2가지 단계로 blast를 수행하면 된다. 1. 원하는 genome sequence에 대한 blast db 만들기 준비물 reference genome (fasta format) makeblastdb -in [reference genome; fasta] -dbtype nucl -out [output name] 해당 명령어를 실행하면 output name에 대한 3가지 확장자를 가진 파일을 얻게 된다. nhr nin nsq 해당 파일을 output name과 동일한 directory 아래에 보관하자..
-
4.2. GATK HaplotypeCaller 수행으로 genome VCF 만들기 (Make the genome VCF by using GATK HaplotpeCaller)Bioinformatics solution/NGS GATK HaplotypeCaller 2019. 1. 26. 02:27
오랜만에 본업으로 글을 작성하게 되었다. GATK germline variant call의 경우 올해 안에 완성하도록 노력하겠다. 주업과 취미를 고루 잘하는 블로거가 되도록 하겠다. 우선 small variant ( < 50 bp variant) 에 대하여 먼저 언급하겠다. 1.아니 Human genomics와 Next generation sequencing의 연구에 대하여 이야기 해보겠다. 현재의 Cancer Moon Shot project (https://www.cancer.gov/research/key-initiatives/moonshot-cancer-initiative) 와 Precision Medicine Initiative (https://obamawhitehouse.archives.gov/p..
-
[CENT OS 7] 개요 윈도우에 설치하기Bioinformatics solution/Linux related 2018. 12. 1. 22:52
컴퓨터의 구조와 윈도우, cent OS