2020年6月16日

資訊圖表視覺化(5)-測試次數該用折線圖還是散佈圖?

來看看科展報告圖表裡常見的錯誤

第一種是把弄混了「實驗重複」的意義。以下這個例子是測量單擺的擺動時間,研究者為了「減少實驗誤差」,因此每個擺長都做了五次測試。

隨後畫出了兩種圖,第一種是初使用Excel的人非常容易做出的錯誤圖表。明明只有兩組數據,但圖中卻出現了三條線,因為繪圖者把「測試次數」也放進去圖表了,於是出現了一條斜向上的線段。

第二種圖則廣泛出現在科展圖表中,這個實驗的重複五次是為了減少實驗誤差,所以應該將這五次的實驗數據平均之後畫出,最好再加上標準差,並且在圖說(或圖註)上說明每組實驗的樣本數,這個我們在前一篇已經說過了作法,所以不應該做成此處的第二張圖。


測試次數與重複




「實驗次數」真的不能畫成折線圖嗎?會問這個問題的,我希望你先弄清楚「實驗次數」和「實驗重複」的差異。

以前一個例子來說,為了降低實驗誤差,所以我們會多做幾次實驗,這個稱為「實驗的重複」,每個重複之間是沒有變因的差異的。

但是以接下的例子來說,我們讓一個人連續握拳,每次做一組,一組是20下,然後我們測量做一組所作的時間。這樣子總共測試了五組,請問每組的變因是否有差異?

當然是有的,這個實驗的操縱變因就是握拳組數,在第二組實驗中,實驗者已經握了一組拳,所以已經有點肌肉疲勞了,到了第五組實驗,實驗者已經在先前握了四次拳,所以會更加疲勞。

我們透過操縱「握拳組數」來改變肌肉疲勞程度,看看不同的肌肉疲勞程度是不是會影響每次完成的時間。這樣的實驗,當然就會繪製成以線條為主的圖。

下圖的兩張圖一個是用Excel的折線圖來繪製,另一個則是用散佈圖來畫。乍看之下都相同,但是給你一個小提示,如何判斷作圖者是用哪種圖表樣式來繪製呢?請看橫座標上的刻度,我刻意用紅色標示的部份,發現兩者不同了嗎?

次數繪製折線圖和散佈圖

折線圖中的橫座標數值標籤是位在刻度線之間的,看起來是數字的部份,其實屬性是文字。而散佈圖的數值標籤是位在刻度線之下。就現在這個實驗數據來看,似乎選擇折線圖或是散佈圖都可以?但是如果實驗數據稍有不同,這個圖表就會立刻出現問題。


現在我把次數改成非等距的,分別是 1 2 3 5 10,然後請你看看折線圖和散佈圖的呈現差異是什麼?

改了數據的折線圖和散佈圖



希望你注意到,在折線圖中,不管你數據怎麼改,反正它就是當作是文字處理,所以即使數值不等距,但是繪圖出來的結果還是等距。而散佈圖是把數值真的當做數字在處理,所以畫出來才可以真實的呈現不等距的情況。



但這樣就可以了嗎?接下來其實還有一個初始值的問題,如果我們仔細探討這個實驗,我們的操縱變因其實是「已握拳的組數」,所以第一組握拳的時候,其實它的「已握拳的組數」是 零。

因此畫出來的圖,會有一個點落在Y軸上( X= 0 ) 的的數據點。
握拳組數的散佈圖



接下來,我們回到一開始提到的單擺實驗,到底應該怎麼畫,就這兩組數據來說,要畫長條圖或是散佈圖好像也都可以嗎?不過還是要回到實驗目的。這個實驗要探討的是單擺的擺長與平均擺動時間的關係,所以其實會做更多不同的擺長實驗,所以繪製的時候當然是將平均值繪製散佈圖囉。

而且在數據點夠多的情形下,可以再加上趨勢線,觀察擺長和平均擺動時間的關係,也就是進行線性迴歸的分析。


單擺的平均擺動時間