-
[BCFtools] VCF 결과를 반영한 서열(Sequence) 추출 - BCFtools를 이용한 방법Bioinformatics solution/NGS htslib related 2018. 8. 23. 14:20728x90반응형SMALL
VCF의 유전변이(variant) 결과를 염기서열(DNA sequence)에 반영하는 방법은 다음과 같다.
선행되어야 할 것은
1. 참조유전체(reference genome)
2. BCFtools
3. 원하는 서열의 범위
4. 변이정보를 갖는 VCF
해당 4가지 정보가 확보되면 다음과 같이 서열을 얻게 된다.
1 단계. VCF 압축, indexing 하기 (bcftools를 수행하기 위한 선행작업
bzip2 -c [sample].vcf > [sample].vcf.gz tabix -p vcf [sample].vcf.gz
2단계. FASTA 형태로 결과 얻기
[s_ref]: 참조유전체 파일 (fasta 형식) [s_region]: string 형태의 영역 정보 (예, '9:4170921-4232571') [sample]: VCF 파일에서 이용할 샘플의 이름 (vcf는 여러 샘플의 결과를 가질 수 있기 때문에 그 중 서열 추출 대상의 이름이
samtools faidx [s_ref] [s_region] |bcftools consensus -s [sample] [vcf.gz] -o [output].fa
파이프 ('|') 형태를 이용하는 이유는 bcftools가 참조유전체의 서열에 대한 정보를 standard in 형태로 받기 때문이다.
결과는 FASTA 형태로 출력된다.
728x90반응형LIST'Bioinformatics solution > NGS htslib related' 카테고리의 다른 글
[SAMtools] BAM에서 특정 region에 대한 fastq 뽑기 (0) 2018.10.18 [BCFtools] 유전변이(variant) 찾기 - VCF 만들기 - BCFtools를 이용한 방법 (1) 2018.08.27