분류 전체보기
-
2.2. FASTQ의 QA (Quality Assessment) 진행하기Bioinformatics solution/NGS GATK HaplotypeCaller 2018. 9. 4. 17:16
모든 작업은 재현 가능해야 한다. 현대 산업화에서 가장 중요한 것은 균일한 품질을 갖는 상품이다.이러한 균질하고 재현가능한 결과를 얻기 위해서는 품질 평가가 필요하다.이러한 품질 평가단계로 FASTQ 에서는 FASTQC라는 프로그램을 이용하게 된다. Quality Assessment 는 매우 중요하다. https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ 다운 받아서 설치하자. 설치 방법은 매우 단순하다.준비물 fastq 파일 준비 fastqc [sample fastq] 해당 실행은 매우 쉽다. 결과로 결과를 보는게 중요할 뿐이다.이것은 추후 업로드 하겠다.
-
2.1. FASTQ의 adapter sequence 서열 제거하기Bioinformatics solution/NGS GATK HaplotypeCaller 2018. 9. 3. 14:54
오늘날 Illumina 기기에서는 paired-end로 된 서열을 얻게 된다. Paired-end 란 무엇인가? 최신 기술로, FASTQ를 만들 때 DNA의 양쪽을 읽는 기술이다. 과거에는 한쪽만 읽고 버렸다. (콜럼버스의 달걀 처럼 최초의 시도는 어려운 생각이다.) 그 전에 Illumina 기기에 DNA를 어떻게 넣는가 알아보자! 1. Cell에서 DNA를 뽑는다. (DNA extraction kit; 자세한 것은 여기에서 확인https://www.qiagen.com/us/shop/sample-technologies/dna/genomic-dna/dneasy-blood-and-tissue-kit/ ) 2. DNA를 일정한 길이로 조각낸다. 일반적으로 550 bp로 자른다. 어떻게 일정한 길이로 자를까? ..
-
2.0. bcl 이미지를 fastq로 변환하기Bioinformatics solution/NGS GATK HaplotypeCaller 2018. 8. 30. 10:34
2.0. BCL 파일 가공관련 수행 (BCL --> FASTQ) 우선 공공데이터(public data)나 MiSeq 같이 적은 데이터를 생산하는 기기의 경우에는 바로 FASTQ를 만들기 때문에 이와 같은 과정이 필요 없다. 그러나 갑자기 NextSeq이나 HiSeq, NovaSeq을 연구소에서 사서 분석하라고 한다면.... BCL을 FASTQ로 변환하는 것을 알아보자. BCL은 Illumina 기기에서 저장되는 것으로, 변환 프로그램은 당연하게도 일루미나에서 배포한다. chown -hR [BCL2FASTQ user] 디렉토리 주인이어야 해당 프로그램 돌릴 수 있다!!!!!![pwd]: 현재 디렉토리, 주로 FASTQ를 BCL 디렉토리 아래에 만들게 된다. --no-lane-splitting: 각각의 위치..
-
[centOS 6.8] 외장 하드 연결 (External HDD mount)Bioinformatics solution/Linux related 2018. 8. 28. 10:10
외장하드 4TB가 넘어가면 FAT 형식이 아니다.... 그렇기 때문에 특별한 처리를 해야 한다. 리눅스에 연결하기 위해서는 , mount를 하기 위해선... 2가지를 다운받아야 한다. https://centos.pkgs.org/6/forensics-x86_64/fuse-exfat-1.0.1-1.el6.x86_64.rpm.html https://centos.pkgs.org/6/forensics-x86_64/exfat-utils-1.2.3-1.el6.x86_64.rpm.html 다운 받았으면 설치하면 된다. (당연히 su 권한으로 설치해야 된다.)rpm -Uvh exfat-utils-1.0.1-1.el6.x86_64.rpm 다음과 같이 설치 된다. warning: exfat-utils-1.0.1-1.el6...
-
[BCFtools] 유전변이(variant) 찾기 - VCF 만들기 - BCFtools를 이용한 방법Bioinformatics solution/NGS htslib related 2018. 8. 27. 15:48
VCF의 유전변이(variant) 결과를 염기서열(DNA sequence)에 반영하는 방법은 다음과 같다. 선행되어야 할 것은 1. 참조유전체(reference genome)2. BCFtools3. 맵핑되고, sorting 되어 있는 BAM과 indexing된 BAI 해당 3가지 정보가 확보되면 다음과 같이 서열을 얻게 된다. bcftools로 변이를 찾고 vcf로 바꾸는 과정을 linux pipe ('|') 이용하여 한번에 진행하게 된다. 아쉽게도 아직은 bcftools에서 mpileup을 얻는 과정에 병렬 처리(parallel)가 되지 않는다. [s_ref]: 참조유전체 파일 (fasta 형식) [bam]: binary 형태의 맵핑 파일 [sample]: VCF 파일에서 이용할 샘플의 이름 -Ou: ..
-
[BCFtools] VCF 결과를 반영한 서열(Sequence) 추출 - BCFtools를 이용한 방법Bioinformatics solution/NGS htslib related 2018. 8. 23. 14:20
VCF의 유전변이(variant) 결과를 염기서열(DNA sequence)에 반영하는 방법은 다음과 같다. 선행되어야 할 것은 1. 참조유전체(reference genome)2. BCFtools3. 원하는 서열의 범위4. 변이정보를 갖는 VCF 해당 4가지 정보가 확보되면 다음과 같이 서열을 얻게 된다. 1 단계. VCF 압축, indexing 하기 (bcftools를 수행하기 위한 선행작업 bzip2 -c [sample].vcf > [sample].vcf.gz tabix -p vcf [sample].vcf.gz 2단계. FASTA 형태로 결과 얻기 [s_ref]: 참조유전체 파일 (fasta 형식) [s_region]: string 형태의 영역 정보 (예, '9:4170921-4232571') [sam..
-
[linux bash shell] bz2 풀기Bioinformatics solution/Linux related 2018. 8. 23. 09:48
bz2를 bzip2로 압축해제 하는것을 추천 bzip2 -d filename.bz2 위의 명령어는 원래 파일이 없어진다.원래 파일을 보존하기 위해서 -k option 을 이용한다.bzip2 -dk filename.bz2 -----------------------------------------------------------------------------------------------bzip2to compress and decompress files Examples compress files (original file will be removed after compression) bzip2 myfile.txt bzip2 *.txt keep the original file (option -k) bzip..
-
1.1. GATK 변이 추출 흐름도 (GATK germline variant calling workflow)Bioinformatics solution/NGS GATK HaplotypeCaller 2018. 8. 23. 08:45
1.1. GATK 변이 추출 흐름도 (GATK germline variant calling workflow) NGS에 대한 기본 지식이 있는 분들을 위한 개론을 기술하게 되었다.추후 NGS에 대한 역사, 기반 지식은 추가적으로 기술려고 한다. [그림 추가 업로드 예정] [bcl2fastq - cutadapt - BWA - Samtools - GATK - VCFtools][ ㄴFASTQC ㄴQualimap2 ] 유전변이(variant)에 대한 분석을 위해서 각 개체에서 얻은 DNA 분자를 기기로 파악한 후, 기기에서 얻은 광학적 정보(Base Call format; BCL)를 문자 정보(FASTQ)로 변형 한 후, 추가적인 분석에 따라 통계적 방법을 이용하여 유전변이 정보를 획득하게 된다. 이 과정에서 B..