ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 2.0. bcl 이미지를 fastq로 변환하기
    Bioinformatics solution/NGS GATK HaplotypeCaller 2018. 8. 30. 10:34
    728x90
    반응형
    SMALL

    2.0. BCL 파일 가공관련 수행 (BCL --> FASTQ)


    우선 공공데이터(public data)나 MiSeq 같이 적은 데이터를 생산하는 기기의 경우에는 바로 FASTQ를 만들기 때문에 이와 같은 과정이 필요 없다.


    그러나 갑자기 NextSeq이나 HiSeq, NovaSeq을 연구소에서 사서 분석하라고 한다면....


    BCL을 FASTQ로 변환하는 것을 알아보자.


    BCL은 Illumina 기기에서 저장되는 것으로, 변환 프로그램은 당연하게도 일루미나에서 배포한다. 


    chown -hR [BCL2FASTQ user] 

    디렉토리 주인이어야 해당 프로그램 돌릴 수 있다!!!!!!

    [pwd]: 현재 디렉토리, 주로 FASTQ를 BCL 디렉토리 아래에 만들게 된다.
    

    --no-lane-splitting: 각각의 위치에서 읽힌 같은 샘플 데이터를 합쳐달라는 의미. 대부분 합쳐서 분석하지만, 이 명령어 없이 lane 별로 분석하기도 한다.

    bcl2fastq -R [pwd] -p 10 --output-dir [pwd]/fastq --no-lane-splitting


    주의점은 SampleSheet.csv 라는 이름의 파일이 무조건 BCL 디렉토리에 있어야 된다.


    이거는 실험하는 분한테 만들어달라고 해야한다.

    https://www.illumina.com/content/dam/illumina-marketing/documents/products/technotes/sequencing-sheet-format-specifications-technical-note-970-2017-004.pdf

    해당 파일을 열면 다음과 같다. 


    *BCL: Base Call Format.으로 일반적으로 Illumina의 경우 해독할 DNA를 라이브러리화 하게 되며, 라이브러리의 각각의 단일 분자 DNA가 증폭되어 군집(cluster)을 이루게 된다. 이렇게 만들어진 군집에 대하여 각 dNTP마다 다른 형광(fluorescence dye)을 띠는 특성을 이용하여 염기서열을 해독하게 된다. 이러한 과정에서 이미지가 생성되는데, RTA (Real Time Analysis)라는 Illumina 기기 내부의 프로토콜에 따라 각 군집의 이미지를 생성하고 이러한 이미지를 BCL(Base Call)이라는 압축된 실행이미지 파일로 저장하게 된다.

     

    **FASTQ: 염기서열 해독에 대한 텍스트 파일. 이미지로 구성된 BCL 파일은 플로우 셀이라는 판 위의 물리적 좌표와 이미지의 세기, 각 군집에 대한 품질 수치에 대한 정보를 갖게 된다. 해당 이미지 정보를 텍스트화 하여 변형한 것이 FASTQ이다. 이러한 FASTQ 파일은 각 DNA 분자에서 얻은 정보를 4줄로 저장하며, 수 많은 DNA 분자에서 얻은 정보를 하나의 FASTQ로 만들게 된다. 


    728x90
    반응형
    LIST

    댓글

Designed by Tistory.