Bioinformatics solution
-
2.0. bcl 이미지를 fastq로 변환하기Bioinformatics solution/NGS GATK HaplotypeCaller 2018. 8. 30. 10:34
2.0. BCL 파일 가공관련 수행 (BCL --> FASTQ) 우선 공공데이터(public data)나 MiSeq 같이 적은 데이터를 생산하는 기기의 경우에는 바로 FASTQ를 만들기 때문에 이와 같은 과정이 필요 없다. 그러나 갑자기 NextSeq이나 HiSeq, NovaSeq을 연구소에서 사서 분석하라고 한다면.... BCL을 FASTQ로 변환하는 것을 알아보자. BCL은 Illumina 기기에서 저장되는 것으로, 변환 프로그램은 당연하게도 일루미나에서 배포한다. chown -hR [BCL2FASTQ user] 디렉토리 주인이어야 해당 프로그램 돌릴 수 있다!!!!!![pwd]: 현재 디렉토리, 주로 FASTQ를 BCL 디렉토리 아래에 만들게 된다. --no-lane-splitting: 각각의 위치..
-
[centOS 6.8] 외장 하드 연결 (External HDD mount)Bioinformatics solution/Linux related 2018. 8. 28. 10:10
외장하드 4TB가 넘어가면 FAT 형식이 아니다.... 그렇기 때문에 특별한 처리를 해야 한다. 리눅스에 연결하기 위해서는 , mount를 하기 위해선... 2가지를 다운받아야 한다. https://centos.pkgs.org/6/forensics-x86_64/fuse-exfat-1.0.1-1.el6.x86_64.rpm.html https://centos.pkgs.org/6/forensics-x86_64/exfat-utils-1.2.3-1.el6.x86_64.rpm.html 다운 받았으면 설치하면 된다. (당연히 su 권한으로 설치해야 된다.)rpm -Uvh exfat-utils-1.0.1-1.el6.x86_64.rpm 다음과 같이 설치 된다. warning: exfat-utils-1.0.1-1.el6...
-
[BCFtools] 유전변이(variant) 찾기 - VCF 만들기 - BCFtools를 이용한 방법Bioinformatics solution/NGS htslib related 2018. 8. 27. 15:48
VCF의 유전변이(variant) 결과를 염기서열(DNA sequence)에 반영하는 방법은 다음과 같다. 선행되어야 할 것은 1. 참조유전체(reference genome)2. BCFtools3. 맵핑되고, sorting 되어 있는 BAM과 indexing된 BAI 해당 3가지 정보가 확보되면 다음과 같이 서열을 얻게 된다. bcftools로 변이를 찾고 vcf로 바꾸는 과정을 linux pipe ('|') 이용하여 한번에 진행하게 된다. 아쉽게도 아직은 bcftools에서 mpileup을 얻는 과정에 병렬 처리(parallel)가 되지 않는다. [s_ref]: 참조유전체 파일 (fasta 형식) [bam]: binary 형태의 맵핑 파일 [sample]: VCF 파일에서 이용할 샘플의 이름 -Ou: ..
-
[BCFtools] VCF 결과를 반영한 서열(Sequence) 추출 - BCFtools를 이용한 방법Bioinformatics solution/NGS htslib related 2018. 8. 23. 14:20
VCF의 유전변이(variant) 결과를 염기서열(DNA sequence)에 반영하는 방법은 다음과 같다. 선행되어야 할 것은 1. 참조유전체(reference genome)2. BCFtools3. 원하는 서열의 범위4. 변이정보를 갖는 VCF 해당 4가지 정보가 확보되면 다음과 같이 서열을 얻게 된다. 1 단계. VCF 압축, indexing 하기 (bcftools를 수행하기 위한 선행작업 bzip2 -c [sample].vcf > [sample].vcf.gz tabix -p vcf [sample].vcf.gz 2단계. FASTA 형태로 결과 얻기 [s_ref]: 참조유전체 파일 (fasta 형식) [s_region]: string 형태의 영역 정보 (예, '9:4170921-4232571') [sam..
-
[linux bash shell] bz2 풀기Bioinformatics solution/Linux related 2018. 8. 23. 09:48
bz2를 bzip2로 압축해제 하는것을 추천 bzip2 -d filename.bz2 위의 명령어는 원래 파일이 없어진다.원래 파일을 보존하기 위해서 -k option 을 이용한다.bzip2 -dk filename.bz2 -----------------------------------------------------------------------------------------------bzip2to compress and decompress files Examples compress files (original file will be removed after compression) bzip2 myfile.txt bzip2 *.txt keep the original file (option -k) bzip..
-
1.1. GATK 변이 추출 흐름도 (GATK germline variant calling workflow)Bioinformatics solution/NGS GATK HaplotypeCaller 2018. 8. 23. 08:45
1.1. GATK 변이 추출 흐름도 (GATK germline variant calling workflow) NGS에 대한 기본 지식이 있는 분들을 위한 개론을 기술하게 되었다.추후 NGS에 대한 역사, 기반 지식은 추가적으로 기술려고 한다. [그림 추가 업로드 예정] [bcl2fastq - cutadapt - BWA - Samtools - GATK - VCFtools][ ㄴFASTQC ㄴQualimap2 ] 유전변이(variant)에 대한 분석을 위해서 각 개체에서 얻은 DNA 분자를 기기로 파악한 후, 기기에서 얻은 광학적 정보(Base Call format; BCL)를 문자 정보(FASTQ)로 변형 한 후, 추가적인 분석에 따라 통계적 방법을 이용하여 유전변이 정보를 획득하게 된다. 이 과정에서 B..