logo821.gif (10572 bytes) 首頁          新增資料與公告

最新消息:

  垂直農業能解決糧食危機?

 

 

生醫研究之統計方法

首頁
上一層
BSE LAB 介紹
授課資料
人文關懷
無官御史台
智能生物產業
蘭花產業
蘭界感言篇
活動公告區
Orchids Cultivation

 

 

好數據,壞結果

 

中興大學 生物系統工程研究室  陳加忠

 
 

這篇文章是來自M. BadertscherE. Pretsch兩位作者的評論論文 ”Bad results from good data”,發表於Trends in Analytical Chemistry , 25(11):1131-1138, 2006。文章中以實例說明分析化學研究者在數據整理最常見的錯誤。

一、線性迴歸之誤用

二、相關係數之濫用

三、數據轉換用以線性化之問題

四、不良數據能得到好結果?生物晶片的問題

一、線性迴歸之誤用

在分析化學中為了建立校正方程式,yi為量測之反應值,xi為已知的濃度,以(yi,xi)數據群配合最小平方法建立線性迴歸方程式y=a0+a1x。有許多研究論文採用此方式,但是其不合理處如下:

1.          在無濃度(x=0),y值應該為零,因此a0不存在。

2.          使用最小平方法,其假設條件是具有相同變異量。

典型的校正曲線如圖12。兩組校正數據之特點是通過原點,而且隨著樣本濃度的增加,數據(yi)的變異也為之增加。對原本數據進行對數ln (yi)轉換,新的校正曲線其預測曲線如圖3與圖4。圖1與圖3之殘差圖如圖56所示。由此呈現線性校正公式的不恰當。

研究人員使用原始數據進行線性方程式計算,往往未曾檢查數據之分佈特性,而認定數據之差異值是常數。以最小平方法計算參數之後,又未使用殘差圖以評估模式是否適用。這是線性迴歸的錯誤。

二、相關係數之濫用

統計軟體之執行結果往往呈現一個r值,代表相關係數。研究者通常認為r值愈大,迴歸方程式愈佳。因此r值接近1.0,幾手是研究人員夢寐以求的數據。而r值之真正意義度反而被忽略。r值與決定係數(coefficient of determinationR2不同,r值是代表兩個任意變數其相關的強度與方向。

在生化研究中,xi為已知濃度值,不是任意變數,因此以r值判斷迴歸公式是否適切,這是不適當的標準。對迴歸方程式而言,標準偏差s,(standard deviation of the errors)反而是更好的判別標準。

三、數據的轉換

在許多試驗中,yixi之數據佈往往不是直線。許多方程式如langmuir isotherm, Michaelis-Menten equation都是非線性。過去之研究方法是加以轉換為線性型式再進行迴歸分析。這種轉換技術有兩個錯誤:1. 誤差結構被轉換,因此變異均勻分佈特性不再存在。2. xi本身應該是無誤差之定值,轉換後反而不存在。

以下列公式加以討論

                            (1

xy為獨立與非獨立變數,αβ為參數。有兩個方法可加以線性轉換

            (2

        (3

以上述三個公式,分別執行非線性與線性迴歸,其數據分佈如圖7。結果如下:

公式

 

α

 

α信賴區間

 

β

 

β信賴區間

 

1.000

 

±0.024

 

1.000

 

±0.106

 

-0.056

 

±1.013

 

-0.662

 

±11.546

 

1.014

 

±0.516

 

1.026

 

±0.786

 

由上表可知,非線性方程式如果進行數據轉換後,再以線性迴歸之結果,其參數或許與原本非線性迴歸的參數相差不大。但是其變異數的差異極大。由信賴區間即可得知其預測能力之不足。

將數據轉換,主要的好處是可以以數據分佈圖判別是否可以線性化,但是不可以採用轉換後的數據進行線性迴歸分析。

四、好的結果來自壞數據

感測元件陣列(Sensor array),或稱電子鼻或電子舌,每年的論文為3000500篇。論文內容主要使用非選擇性(non-selective)的感測元件製成晶片,量測數據再以化學計量學加以處理。因此宣稱可同時量測多種離子。

這些研究者忽略了使用非選擇性感測元件,對於量測誤差將會強烈的放大。這種放大是來自校正公式中係數的相關性。對一組校正方程式而言,為感測器之反應值,為標準濃度,為校正係數之矩陣,代表誤差

的平均標準差為MSE,由量測誤差之變異數α2加以計算:

MSE2tr-1

Tr稱為matrix trace function

各校正方程式之參數Kij計算如下:

Kij = a k0j + (1-a) Rand (0, 1)

a為相關係數,範圍為0~0.95

不同數目的感測元件,在不同的相關程度下,對6種待測濃度其計算誤差的放大倍率如下表

感測元件數目

相關程度, a

0

0.5

0.9

0.95

6

49

329

17141

76793

12

9.8

39

987

3958

24

3.5

13.7

343

1374

 

由上述數據可知,相關程度愈高,誤差的放大愈嚴重。尤其以6元件檢測6種濃度,誤差的擴大更是明顯。唯有增加各元件的數目與加強元件的單一選擇性,才能減少誤差以增加精密性。

 

1. Phosphatidylethanol 量測之反應高度其原始數據分佈

 

2. DNA 量測之尖峰面積其原始數據分佈

 

3. Phosphatidylethanol 量測反應高度對數轉換之數據分佈

 

 

4. DNA量測尖峰面積對數轉換之數據分佈

5. Phosphatidylethanol 量測之反應高度與標準濃度以線性迴歸之殘差圖

 

6. DNA 量測之尖峰面積與標準濃度以線性迴歸之殘差圖

 

7. langmuir isotherm Michaelis-Menten equation之原數據