2020年6月16日

資訊圖表視覺化(6)-折線圖的陷阱

如果問我哪種圖表最容易踩到地雷,那我一定認為是折線圖。

折線圖裡的陷阱一是「不該連的,卻連起來」

以下圖片取自「台灣民意基金會」,第一張圖勉強可以接受,你把它的橫軸當作是有連續意義的意向來看,好像也勉強說得過去。

1


第二張圖可以理解意圖是什麼,也是把意向當作是一軸的兩端這樣來看的。但這類型的資料還是不要連線吧。
5



折線圖裡的陷阱二是忽略了「折線圖的X軸只有文字和日期兩種」,以下幾張圖分別取自台灣民意基金會和蘋果日報。

雖然橫軸都是日期,但是如果你仔細看這些橫軸,它們的日期間隔是不等距的,但是畫出來的圖卻成了等距的!這些都是在繪圖時,錯把橫軸設定成文字屬性所造成。
2 3 4




以下,我將上圖的無薪假圖表去除其他裝飾圖樣,重新繪製一次,分別設定橫軸是文字和日期,你可以看到兩者的資料點位置是不同的,這種不等距的日期就應該把橫軸設定成日期啊。

橫軸是文字或日期



這種橫軸屬性沒設定好的問題,其實在科展圖表裡也很容易出現,特別是生物科的科展中,那些不定期調查生物的題目。例如調查某些生物的出現次數,或是觀察生物的生長等。

第一,調查生物的出現,通常都是週末的時候進行,週六、週日調查後,下次又是一週後,所以每個日期都是不等距。第二,若是觀察生物的生長情形,例如莖的高度,實務上可能進行方式會是一開始測量一次後,等到莖長到一定高度時,再測第二次,所以每次的數據採集時間不一定是等距。

化學實驗也可能有這種情形,像是測量某個化學反應的生成氧氣量,會測量收集到一毫升、兩毫升、三毫升、五毫升、十毫升的所需時間,所以也不一定是等距的時間。

這些測量又需要考慮時間尺度是什麼?如果是以秒、分、小時數、日數,繪圖時一定是使用散佈圖,不會使用折線圖,原因已經在這系列中寫了三萬零八次了。

什麼時候會用到折線圖呢?就只有「日期」幾月幾號這種才會用折線圖啊。而且你要考慮清楚,你的實驗到底是要用「日期」還是「日數」?

舉例來說,你做了一個結晶實驗,三月二日開始做實驗,每隔幾天測量一次晶體的大小,雖然在你的紀錄表上寫的是3/2、3/5、3/7,,,,但是作圖時應該將這些日期轉換成「日數」,也就是第1天、第4天...。

然後你還需要想清楚實驗上的第一天並不是第一天,為什麼?因為你的圖表橫軸是「實驗經過天數」,所謂的實驗第一天,其實是實驗第零天才對,因為你作實驗的當下,還沒有「經過一天」啊。沒想到吧?

當然這樣的資料就是用散佈圖來畫,不是使用折線圖來畫。


假設你都已經想好了,我的實驗因為跟季節有關係,所以橫軸就是擺日期,而且是用折線圖來畫,或是用了特殊的方法,也用了散佈圖來畫,就像下圖那樣。那麼我可以加上趨勢線,去分析生物的目擊次數和日期之間的關係嗎?


日期的趨勢線 

答案是不可以!因為Excel的日期不是你想的那樣!


你在Excel儲存格看到的日期,其實內部儲存時是另一套數字格式,稱為datevalue,例如2020/6/16,其實是43998。這個datevalue是有一個初始值為1的,那是1900年1月1日,那你可能會問,那1900年前一天是零還是負一?答案是693962,那個數字同時也是代表西元 3799年 12月 31日(所以到那天時,Excel會有運算錯誤嗎)



excel的日期

知道這個要幹嗎呢?剛剛我們不是說到,想要看日期和個體數之間的關係嗎?也就是你想看下表中的data和Y之間的關係。但你如果是在折線圖上做出趨勢線,其實你看的是數列序號(X1)和個體數(Y)的關係,而如果是在散佈圖上做趨勢線,那就是做datevalue(X2)和Y之間的關係了。



excel的日期2


完全都不是你想的那樣啊。這就是折線圖裡的種種陷阱啊!


關於此篇折線圖與前篇散佈圖與折線圖的實作,可以在此影片中看看