Bioinformatics solution
-
[etc] BWA single end mapping (old fashioned)Bioinformatics solution/NGS GATK HaplotypeCaller 2018. 12. 1. 21:45
우선 참조유전체(reference genome)이 있어야 하며, 이 fasta 파일의 indexing을 진행하여야 한다. 준비물: reference fasta bwa index -a bwtsw [Ref fasta] 한번 돌린적 있는 참조유전체는 아마 이미 indexing이 되어 있을 것이다. 그럼 나의 FASTQ 종류를 보고 이제 맵핑 알고리즘을 정하자.!!!!!! BWA is a software package for mapping low-divergent sequences against a large reference genome, such as the human genome. It consists of three algorithms: BWA-backtrack, BWA-SW and BWA-MEM. Th..
-
[SAMtools] BAM에서 특정 region에 대한 fastq 뽑기Bioinformatics solution/NGS htslib related 2018. 10. 18. 09:31
SAMtools를 이용하면 특정 region에 대한 fastq를 얻어 낼 수 있다. 준비물 BAM 특정 region에 대한 BED samtools view -b -L [BED] -@ 10 [BAM]| samtools fastq -1 [paired 1 fastq] -2 [paired 2 fastq] - 근데 해당 분석을 진행하면, paired end에서 BED region에 overlapping되는 부분만 얻을 수 있게 된다. fastq1과 fastq2의 pair가 맞지 않는 상황이 발생한다. 예) 30X로 만들어진 BAM, 유전자 한개(2 kb 정도)에 대하여 수행한 결과Pair 1은 188 readsPair 2는 195 reads이고Pair 양쪽에 있는 경우는 163개였다.합집합은 220 이기 때문에 ..
-
4.1. GATK BQSR 실행 (Base Quality Score Recalibration) [optional,but recommended]Bioinformatics solution/NGS GATK HaplotypeCaller 2018. 9. 14. 09:41
GATK 본격 시작 https://software.broadinstitute.org/gatk/best-practices/ 10번은 읽어야 NGS variant calling을 안다고 할 수 있지 않겠는가? Illumina 기기 이전부터, Sanger sequencing을 할 때에도 Phred-score 로 염기서열 읽은 것에 대한 수치를 기록해 왔다. 우리는 이러한 Phred-score 기반으로 변이가 맞는 가 아닌가를 베이지안 추론을 진행하게 된다. 그러기 때문에 Illumina 기기 특유의 bias를 줄이지 않는다면 계통적 오류(systemic error)에 의한 위양성(false positive)를 얻게 된다. 물론 위음성(false negative)도 생긴다. * 잠깐 프레드 스코어는 해당 결과를..
-
3.3. Qualimap2로 BAM 검증하기 (QA QC)Bioinformatics solution/NGS GATK HaplotypeCaller 2018. 9. 14. 09:04
http://qualimap.bioinfo.cipf.es/다운 받자 BAM의 경우 SAMTOOLS 만으로도 충분히 QA QC를 할 수 있다. 하지만,,, 내부적으로 이미 확보된 QAQC 파이프라인이 없을 땐 QualiMap2를 이용하면 훌륭한 검증을 할 수 있다. depth 알 수 있다. coverage 알수 있다.mapping ratio 알 수 있다. 이정도에 visualization 까지 하면 훌륭하지 않은가? * 잠깐PCR artifact는 PCR에 의해 생성되는 인공물로, 같은 DNA 조각이 분석될 수 있음을 암시한다. duplicate를 찾는 방법은 다음 사이트에 나와 있다.내용을 요약하자면 같은 위치에 맵핑이 된다면, 우연히 같은 모양으로 shearing되었다고 판단하기 보다는 PCR에 의해 ..
-
3.2. Samtools로 BAM 가공하기Bioinformatics solution/NGS GATK HaplotypeCaller 2018. 9. 11. 10:28
우선 Samtools를 깔아야 한다. 해당 프로그램은 NGS 분석의 It Item이다. http://www.htslib.org/doc/samtools.html 다들 깔아야 한다. 요새 PICARD 잘 안쓴다. 멀티 THREADING이 되어야 NGS 분석 도구 답지 않은가? SAM의 경우 BWA MEM 결과를 통해서 얻을 수 있다.그런데 이 SAM의 경우 PCR artifact에 의해서 분석의 bias가 발생할 수 있다. 그러기 때문에 duplicate라 불리는 PCR artifact를 제거해야 한다. * 잠깐PCR artifact는 PCR에 의해 생성되는 인공물로, 같은 DNA 조각이 분석될 수 있음을 암시한다. duplicate를 찾는 방법은 다음 사이트에 나와 있다.내용을 요약하자면 같은 위치에 맵핑..
-
3.1. BWA를 통한 FASTQ의 맵핑 (BWA) 진행하기Bioinformatics solution/NGS GATK HaplotypeCaller 2018. 9. 10. 16:52
우선 참조유전체(reference genome)이 있어야 하며, 이 fasta 파일의 indexing을 진행하여야 한다. 준비물: reference fasta bwa index -a bwtsw [Ref fasta] 한번 돌린적 있는 참조유전체는 아마 이미 indexing이 되어 있을 것이다. 그럼 나의 FASTQ 종류를 보고 이제 맵핑 알고리즘을 정하자.!!!!!! BWA is a software package for mapping low-divergent sequences against a large reference genome, such as the human genome. It consists of three algorithms: BWA-backtrack, BWA-SW and BWA-MEM. Th..
-
2.2. FASTQ의 QA (Quality Assessment) 진행하기Bioinformatics solution/NGS GATK HaplotypeCaller 2018. 9. 4. 17:16
모든 작업은 재현 가능해야 한다. 현대 산업화에서 가장 중요한 것은 균일한 품질을 갖는 상품이다.이러한 균질하고 재현가능한 결과를 얻기 위해서는 품질 평가가 필요하다.이러한 품질 평가단계로 FASTQ 에서는 FASTQC라는 프로그램을 이용하게 된다. Quality Assessment 는 매우 중요하다. https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ 다운 받아서 설치하자. 설치 방법은 매우 단순하다.준비물 fastq 파일 준비 fastqc [sample fastq] 해당 실행은 매우 쉽다. 결과로 결과를 보는게 중요할 뿐이다.이것은 추후 업로드 하겠다.
-
2.1. FASTQ의 adapter sequence 서열 제거하기Bioinformatics solution/NGS GATK HaplotypeCaller 2018. 9. 3. 14:54
오늘날 Illumina 기기에서는 paired-end로 된 서열을 얻게 된다. Paired-end 란 무엇인가? 최신 기술로, FASTQ를 만들 때 DNA의 양쪽을 읽는 기술이다. 과거에는 한쪽만 읽고 버렸다. (콜럼버스의 달걀 처럼 최초의 시도는 어려운 생각이다.) 그 전에 Illumina 기기에 DNA를 어떻게 넣는가 알아보자! 1. Cell에서 DNA를 뽑는다. (DNA extraction kit; 자세한 것은 여기에서 확인https://www.qiagen.com/us/shop/sample-technologies/dna/genomic-dna/dneasy-blood-and-tissue-kit/ ) 2. DNA를 일정한 길이로 조각낸다. 일반적으로 550 bp로 자른다. 어떻게 일정한 길이로 자를까? ..