Bioinformatics solution/NGS htslib related
-
[SAMtools] BAM에서 특정 region에 대한 fastq 뽑기Bioinformatics solution/NGS htslib related 2018. 10. 18. 09:31
SAMtools를 이용하면 특정 region에 대한 fastq를 얻어 낼 수 있다. 준비물 BAM 특정 region에 대한 BED samtools view -b -L [BED] -@ 10 [BAM]| samtools fastq -1 [paired 1 fastq] -2 [paired 2 fastq] - 근데 해당 분석을 진행하면, paired end에서 BED region에 overlapping되는 부분만 얻을 수 있게 된다. fastq1과 fastq2의 pair가 맞지 않는 상황이 발생한다. 예) 30X로 만들어진 BAM, 유전자 한개(2 kb 정도)에 대하여 수행한 결과Pair 1은 188 readsPair 2는 195 reads이고Pair 양쪽에 있는 경우는 163개였다.합집합은 220 이기 때문에 ..
-
[BCFtools] 유전변이(variant) 찾기 - VCF 만들기 - BCFtools를 이용한 방법Bioinformatics solution/NGS htslib related 2018. 8. 27. 15:48
VCF의 유전변이(variant) 결과를 염기서열(DNA sequence)에 반영하는 방법은 다음과 같다. 선행되어야 할 것은 1. 참조유전체(reference genome)2. BCFtools3. 맵핑되고, sorting 되어 있는 BAM과 indexing된 BAI 해당 3가지 정보가 확보되면 다음과 같이 서열을 얻게 된다. bcftools로 변이를 찾고 vcf로 바꾸는 과정을 linux pipe ('|') 이용하여 한번에 진행하게 된다. 아쉽게도 아직은 bcftools에서 mpileup을 얻는 과정에 병렬 처리(parallel)가 되지 않는다. [s_ref]: 참조유전체 파일 (fasta 형식) [bam]: binary 형태의 맵핑 파일 [sample]: VCF 파일에서 이용할 샘플의 이름 -Ou: ..
-
[BCFtools] VCF 결과를 반영한 서열(Sequence) 추출 - BCFtools를 이용한 방법Bioinformatics solution/NGS htslib related 2018. 8. 23. 14:20
VCF의 유전변이(variant) 결과를 염기서열(DNA sequence)에 반영하는 방법은 다음과 같다. 선행되어야 할 것은 1. 참조유전체(reference genome)2. BCFtools3. 원하는 서열의 범위4. 변이정보를 갖는 VCF 해당 4가지 정보가 확보되면 다음과 같이 서열을 얻게 된다. 1 단계. VCF 압축, indexing 하기 (bcftools를 수행하기 위한 선행작업 bzip2 -c [sample].vcf > [sample].vcf.gz tabix -p vcf [sample].vcf.gz 2단계. FASTA 형태로 결과 얻기 [s_ref]: 참조유전체 파일 (fasta 형식) [s_region]: string 형태의 영역 정보 (예, '9:4170921-4232571') [sam..