2011年12月2日

如何下載DNA序列

思源研習會的前晚,梅子問我有沒有辦法下載第11號染色體的所有序列,因為她想要做一些遺傳學的活動(見此篇)。如果可以印出來,就可以顯示DNA龐大的序列,然後又可以標示出那些重要的基因。

這個有點困難的任務,後來在NCBI的網站上達成了。不過這網頁能下載的都是一個基因一個基因,那要怎麼下載一整個序列呢?

後來我想到一個方式,可以用改網址連結的方式來做。
http://www.ncbi.nlm.nih.gov/nuccore/NT_009237.18?from=1&to=1000&report=fasta
這串網址可以下載前1000個序列,只要我改那個 to=1000,變成 to=135000000,那不就可以一次全下了嗎?(11染色體有135M的長度)

我試了一下,發現這樣實在太嚇人了。下載是可以下載,不過量非常巨大啊。

光是把1M的序列存成純文字檔,就要1MB的容量,列印出來要328張A4紙。而第11號染色體的序列有135M以上,全部下載完,至少要135MB,要把序列都列印完,至少要328x135=44280張A4紙。

列印出來的確會變得很壯觀啊。