FASTQ格式
外觀
FASTQ格式是一種儲存生物序列(通常為核酸序列)及其定序質素得分資訊的文字格式。序列與質素得分皆由單個ASCII字元表示。
該格式最初由維爾康姆基金會桑格研究所開發,旨在將FASTA格式序列及其質素數據整合在一起。而目前,FASTQ格式已經成為了儲存高通量定序結果的事實標準。[1]
格式
[編輯]FASTQ檔案中,一個序列通常由四行組成:
- 第一行以@開頭,之後為序列的識別碼以及描述資訊(與FASTA格式的描述行類似)
- 第二行為序列資訊
- 第三行以+開頭,之後可以再次加上序列的標識及描述資訊(可選)
- 第四行為質素得分資訊,與第二行的序列相對應,長度必須與第二行相同
以下為一個包含單個序列的FASTQ檔案範例:
@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
其中!為最低質素、~則為最高質素。以下字元從左到右代表從低到高的質素得分的:
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~
字元與對應的ASCII碼如下:
| 十進制 | 圖形 |
|---|---|
| 33 | ! |
| 34 | " |
| 35 | # |
| 36 | $ |
| 37 | % |
| 38 | & |
| 39 | ' |
| 40 | ( |
| 41 | ) |
| 42 | * |
| 43 | + |
| 44 | , |
| 45 | - |
| 46 | . |
| 47 | / |
| 48 | 0 |
| 十進制 | 圖形 |
|---|---|
| 49 | 1 |
| 50 | 2 |
| 51 | 3 |
| 52 | 4 |
| 53 | 5 |
| 54 | 6 |
| 55 | 7 |
| 56 | 8 |
| 57 | 9 |
| 58 | : |
| 59 | ; |
| 60 | < |
| 61 | = |
| 62 | > |
| 63 | ? |
| 64 | @ |
| 十進制 | 圖形 |
|---|---|
| 65 | A |
| 66 | B |
| 67 | C |
| 68 | D |
| 69 | E |
| 70 | F |
| 71 | G |
| 72 | H |
| 73 | I |
| 74 | J |
| 75 | K |
| 76 | L |
| 77 | M |
| 78 | N |
| 79 | O |
| 80 | P |
| 十進制 | 圖形 |
|---|---|
| 81 | Q |
| 82 | R |
| 83 | S |
| 84 | T |
| 85 | U |
| 86 | V |
| 87 | W |
| 88 | X |
| 89 | Y |
| 90 | Z |
| 91 | [ |
| 92 | \ |
| 93 | ] |
| 94 | ^ |
| 95 | _ |
| 96 | ` |
| 十進制 | 圖形 |
|---|---|
| 97 | a |
| 98 | b |
| 99 | c |
| 100 | d |
| 101 | e |
| 102 | f |
| 103 | g |
| 104 | h |
| 105 | i |
| 106 | j |
| 107 | k |
| 108 | l |
| 109 | m |
| 110 | n |
| 111 | o |
| 112 | p |
| 十進制 | 圖形 |
|---|---|
| 113 | q |
| 114 | r |
| 115 | s |
| 116 | t |
| 117 | u |
| 118 | v |
| 119 | w |
| 120 | x |
| 121 | y |
| 122 | z |
| 123 | { |
| 124 | | |
| 125 | } |
| 126 | ~ |
最初桑格研究所的FASTQ格式允許序列與質素資訊分成多行儲存。但一般不推薦採用這種方式,因為第一、第三行開頭的@與+符號同樣也可能出現在質素資訊中,可能會造成資訊提取的困難。
參見
[編輯]參考文獻
[編輯]- ^ Cock, Peter J. A.; Fields, Christopher J.; Goto, Naohisa; Heuer, Michael L.; Rice, Peter M. The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. Nucleic Acids Research. 2010-04, 38 (6): 1767–1771 [2025-01-15]. ISSN 0305-1048. PMC 2847217
. PMID 20015970. doi:10.1093/nar/gkp1137. (原始內容存檔於2024-11-13) (英語).