logo821.gif (10572 bytes) 首頁          新增資料與公告

置頂公告  :

BSE網站預定20221月結束公告

最新消息  :

台灣為什麼不是先進國家
 

 

生醫研究之統計方法

首頁
上一層
BSE LAB 介紹
非洲產業研究中心
授課資料
人文關懷
無官御史台
武漢肺炎與產業
智能生物產業
活動公告區
Orchids Cultivation

 

 
如何以正確的方式來進行多重對比測試?
 

 

 
 

Korean J Anesthesiol 2018,10,71:353-360

 https://doi.org/10.4097/kja.d.18.00242

 以實驗條件的平均值進行多次比較測試(MCT)。當虛無假設被拒絕,在驗證要發現,當一定的實驗條件下平均值具有統計學上的顯著差異或是該組裝置之間有特定差異。如果多次比較測試(MCT)同時執行多個假設檢定時,錯誤率會增加,則會出現問題。因此在MCT中,必須將錯誤率控制在適當的水準。在本文中,我們將討論如何同時測試多個假設,同時限制第一型錯誤率,以避免造成α膨脹。要選擇適當的測試,我們必須在統計檢定力和I類錯誤率之間保持平衡。如果測試過於保守,則不太可能發生I型錯誤。但是同時該測試可能沒有足夠的能力,導致II型錯誤發生的可能性增加。大多數研究人員可能希望找到調整I型錯誤率的最佳方法,以區分觀察到的數據之間的實際差異,而又不會浪費太多的統計檢定力。這份文件將有助於研究人員了解的MCT之間的差異,並適當地應用它們。

 

多重比較測試及其限制

我們並不是只對每個實驗的兩組比較感興趣。有時(實際上,經常)我們可能必須確定三個或更多組的之間是否存在差異。用於這種確定的最常用的分析方法是變方分析(ANOVA)。如果在ANOVA之後拒絕虛無假設(H0),即在三組情況下,則H0μA = μB = μC ,我們不知道一個群體與某個群體有何不同。ANOVA的結果未提供有關群組內的各種組合之間的差異的詳細資訊。因此,研究人員通常會進行額外的分析,以明確特定實驗組對之間的差異。如果三組的ANOVA中否定了原假設(H0),則將考慮以下情況:

μA ≠ μB ≠ μC μA ≠ μB = μC μA = μB ≠ μC μA ≠ μC = μB

 

是在哪種情況下,原假設被拒絕?回答這個問題的唯一方法是應用多重比較MCT),有時也被稱為事後檢定

執行MCT的方法有幾種,例如Tukey方法,Newman- Keuls 方法,Bonferroni 方法,Dunnett 方法,Scheffé 檢定等。在本文中,我們討論了用於分析給定數據的最佳多重比較方法,說明如何區分這些方法,並介紹了在一般多重比較情況下調整P值以防止α膨脹的方法。此外,我們描述了在多次比較中應始終考慮的I類錯誤(α膨脹)的增加,以及在每種相應的多重比較方法中應用的I類錯誤的控制方法。

 

P值和ɑ膨脹的含義

在統計假設檢定中,顯著性概率,或稱漸近顯著性或P值(概率值)表示在H0為真時將實際觀察到的極端結果的概率。實驗的顯著性是在實驗的樣本空間中定義的隨機變量,其值在1之間。

H0被統計拒絕(即使實際上是真的)時,會發生I型錯誤,而II類錯誤是指偽陰性,表示H0被統計接受,但H0為假(表1)。

在比較這三組的情況下,它們可以形成以下三對:第組與第2組,第2組與第3組以及第1組與第3組。用於此比較的一對稱為族群。比較每個族群時發生的I型錯誤稱為族群式錯誤FWE)。換句話說,為適當地調整FWE而開發的方法是稱為多重比較方法。當對一個族群和其他族群同時進行相同的(未經調整)顯著性水準統計分析時,可能會發生α 膨脹。例如,如果一個人在兩個給定的A組和B組之間進行了Student’s學生t檢定,且誤差小於5%,且統計結果明顯不同,則H0的真實概率(AB組相同的假設)為95 。在這一點上,讓我們比較稱為C組另一組,這是我們要比較它和A組和B之不同,如果在AB組與效果的一個執行另一個Student’s學生t檢定也是不顯著的。真正的一個的概率不顯著的AB,以及BC之間的結果是0.95×0.95 = 0.902590.25%,因此,測試α誤差為1 - 0.9025 = 0.0975,而不是0.05。同時,如果A組和C組之間的統計分析也沒有顯著性結果,則所有三對(族群)的無顯著性概率為0.95×0.95×0.95 = 0.857,實際檢定α誤差為1 − 0.857 = 0.143,大於14%。

 

膨脹α= 1 −1 −α N =檢定的假設數量

 

隨著比較次數的增加,I型錯誤概率的膨脹率也隨之增加(圖1)。表2顯示了根據比較次數拒絕H0的可能性增加。

  不幸的是,控制MCT顯著性水準的結果,可能會增加未被檢測為具有統計學意義的偽陰性病例的數量。但它們確實有所不同(表1)。偽陰性(II型錯誤)會導致試驗成本增加。因此,如果是這種情況,我們甚至可能不想嘗試控制MCT的顯著性水準。顯然,這種刻意的迴避增加了偽陽性結果發生的可能性。

 

多重比較的分類(或類型):單步法與逐步法

如前所述,對給定組進行重複測試會導致稱為α膨脹的嚴重問題。因此,這些年來,統計領域已經開發了許多MCT方法。有四標準用於評價和比較的方法的後多重比較法:'保守性,' '最優化,“ 方便” 強韌性。保守性包括製作一個嚴格的統計推論整個的分析。在其他詞語,所統計的結果比較方法具有意義。只針對一個特定的控制型錯誤,即是,該方法可以產生一個強韌結果存在有小的差異之間的族群。在第二個標準是最優化。統計上,最佳統計量是保守統計量中最小的CI 。在其他的話,該標準誤差是在最小之中統計保守的統計量。保守主義是更重要的不是最優,因為在前者是一個特徵評價下產生。在第三個條件便利的字面認為容易對計算。大多數統計以電腦處理此問題。然而,豐富的數學是必需的,以了解它的性質,這意味著是該標準如果它是太複雜了是不太方便來使用。第四個標準是對違反假設不敏感,這是通常稱為對作為強韌性。在其他也就是說,在該情況下,違反的所述假設的相等變異量在ANOVA,一些不太敏感方法介紹如下。因此,在這種情況下,它可是適當,使用的方法有TamhaneT2Games-Howell,DunnettT2,和DunnettC,可在一些統計應用。

該領域的大多數研究人員都對了解相關群體之間的差異感興趣。這些組可以是實驗中的所有群對,也可以是一個對照組和其他組,也可以是兩個以上的組(一個子組)和另一個實驗組(另一個子組)。無論要比較的成對的類型如何,都應在具有完整變方分析結果意義下,應用所有事後子群比較方法。僅在通過ANOVA的事後測試進行時才是正確的。

通常,MCT分為兩類:單步過程和逐步過程。逐步過程可進一步分為增加和降低方法。此分類取決於用於處理I類錯誤的方法。如其名稱所示,單步過程假設一種假設的I型錯誤率。在這種假設下,幾乎所有成對比較(多個假設)都被執行(使用一個臨界值進行測試)。換句話說,每個比較都是獨立的。一個典型的例子是Fisher最小顯著不同(LSD)檢定。其他例子是Bonferroni, Sidak, Scheffe, Tukey, Tukey-Kramer, Hochberg’s GF2, Gabriel, and Dunnett測試。

逐步程序處理第I型錯誤是根據先前選擇的比較結果錯誤,也就是,它處理以預定的順序成對比較,並且每個比較進行僅針對先前具有統計顯著差異的比較結果。通常,此方法可提高過程的統計檢定力,同時始終保留I型錯誤率。在對比測試統計,最顯著測試(用於降低過程)或最顯著測試(用於增加過程)被用以識別,並依在前面的測試結果,顯著依次進行比較。如果在此過程中有一個比較測試無法拒絕原假設,則所有其餘測試都將被拒絕。此方法與前述方法的顯著水準並不相同,而是將所有相關組分類為統計上相似的子群。逐步的方法包括Ryan-Einot-Gabriel-Welsch Q (REGWQ), Ryan-Einot-Gabriel- Welsch F (REGWF), Student-Newman-Keuls (SNK), and Duncan tests。這些方法具有不同的用途,例如,SNK檢定開始比較兩個族群最大的差異與所述第二大的兩個其它族群不同。如果在一個顯著差異僅。比較現有的結果。因此,此方法稱為降低方法,因為隨著比較的進行,差異的程度會減小。它指出,臨界值比較,由於針對於每對而異。即,這取決於組之間的平均差異的範圍。比較範圍越小,該範圍的臨界值越小;因此,儘管檢定力增加了,但I型錯誤的可能性卻增加了。

所有上述的方法,可以使用在變異量相同假設的情況。如果在變方分析過程中非等變異量假設,則成對比較應基於TamhaneT2DunnettT3Games-HowellDunnettC檢定的統計數據。

 

Tukey檢定法

本次測試採用兩兩事後測試,以確定是否有平均值針對所有可能的子群之間的差Student’s化的範圍分佈。此方法測試所有組中的每個可能子對。最初,Tukey檢定稱為誠實顯著性差異檢定,或簡稱為“ T檢定(它與學生的t檢定不同,不應與它混淆。因為該方法基於t分佈。

它指出的是,Tukey檢定是基於組(平衡數據)作為ANOVA之間的相同樣品計數。隨後,Kramer修改了此方法,以將其應用於樣本數目不平衡的數據,因而被稱為Tukey-Kramer測試。該方法使用兩次比較的基格(cell)大小的諧波平均值。所述 ANOVA的統計假設應適用於群組方法。

獨立變量必須是獨立於的每個其它(變量),因變量必須滿足常態分佈(當量),和所述變異量中的因變量分佈由獨立的變量應該是在同一對每個組具有均質的變異量。

2描述了用於多重比較的單變方分析和Tukey測試的示例結果。根據此圖,Tukey測試是在一個關鍵級別上執行的如前所述,所有成對比較的結果均在事後測試部分的一張表中列出。結果結論該族群AB是不同的,而A組和C不是不同的,組B也沒有什麼不同。這些奇怪的結果在名為“ 同源子集” 的最後一個表中繼續進行。A組和C組相似,B組和C組也相似;但是,組AB不同。這種類型的推論與三段論推理是不同的。在數學中,如果A = BB = C,則A =C。但是,在統計中,當A = BB = C時,AC不同,因為所有這些結果都是基於統計的可能結果。這種矛盾的結果可能源於統計檢定力不足,即樣本量較小。Tukey測試是一種在配對比較中檢測差異的慷慨方法(保守程度較低)為避免這種不合邏輯的結果,應保證有足夠的樣本量,這將導致較小的標準誤差,並增加拒絕無效假設的可能性。

Bonferroni 方法:ɑ 分裂(Dunn方法)

Bonferroni方法可以用來對不同的群體在基準線比較,研究變量之間的關係,或檢查在臨床試驗中的一個或多個端點。它被施加在許多統計一個post-hoc檢定程序,如ANOVA和其變數,包括共變異分析ANCOVA)的分析和多變量ANOVAMANOVA多個t檢定;和皮爾森的相關性分析。它也用在幾種非參數檢定中,包括Mann-Whitney U檢定,Wilcoxon有符號秩檢定和按等級[4]Kruskal -Wallis檢定,以及分類數據檢定,例如卡方檢定。當在變方分析後作為事後檢定時,Bonferroni 方法使用基於t分佈的臨界值。該Bonferroni方法比Takey檢定,更強的其耐受型第一型我的錯誤更加嚴格,而且比非常保守的更Scheffe薛方法更保守。

但是,它也有缺點,因為它過於保守,統計檢定力較弱Scheffe。調整後的α通常小於所需求值,尤其是在存在許多測試和/或測試統計量呈正相關的情況下。因此,此方法通常無法檢測到實際差異。如果所提出的研究要求II型誤差應避免和可能的效應不容錯過,我們不應該使用Bonferroni校正法。相反,我們應該使用更為自由的方法,例如FisherLSD,它不能控制族群錯誤率(FWER)。Bonferroni 校正的另一種替代方法是產生過於保守的結果,那就是使用逐步(順序)方法的量,the Bonferroni-Holm and Hochberg是合適的,與Bonferroni 試驗比較,較不保守。

 

Dunnett方法

這是一種基於修正的t檢定統計數據(Dunnett t分佈),來分析具有對照組的研究的特別有用的方法。它是一項功能強大的統計方法,因此可以顯示組之間或組組合中相對較小但明顯的差異。有興趣對一個對照組進行兩個或多個實驗組測試的研究人員可以使用Dunnett 檢定。但是,Dunnett 檢定的缺點是,它們之間根本沒有比較對照組以外的組。

例如,假設有三個實驗組ABC,其中使用了實驗藥物,而對照組則是研究中的對照組。在Dunnett 檢定中,將對照組與ABC或它們的組合進行比較。但是,在實驗組ABC之間沒有進行比較。因此測試的檢定力更高,因為與所有成對比較” 相比,測試數量有所減少。

另一方面,Dunnett 方法能夠進行雙尾單尾測試,這使其不同於其他成對比較方法。例如如果根本不知道新藥的作用,則應使用兩尾檢定來確認新藥的作用比常規對照好還是差。隨後,需要進行單方面測試以比較新藥和對照組。由於可以根據情況進行雙面或單面測試,因此可以使用Dunnett 方法而無任何限制。

 

Scheffé 方法:事後的探索性方法 

Scheffé的方法不是簡單的成對比較測試。基於F分佈,它是一種對每組平均值的所有可能成對組合進行同時,聯合成對比較的方法。它控制FWER考慮每一個可能的配對組合。而Tukey檢定當只有所有成對比較後再控制FWER

基本上,一個多重成對比較應該被設計成根據到計劃對比。一個經典的演繹多重比較,使用預定的對比度,這是在早期決定進行的研究設計步驟。通過分配一相反於各組,配對可以被改變,從一些或所有雙的選定組到子群,其中包括幾組其是獨立的或部分依賴於每個其他組。

這就是為什麼Scheffé的方法是比其他方法保守和對檢測差異具有小檢定力。由於Scheffé的方法,基於所有可能的比較,以確認有意義的假設。當群體之間的差異的理論背景是不可用或是以前的研究一直沒完全的實行(探索性數據分析),此方法是首選。以這種方式生成的假設,應通過專門設計為測試新假設的後續研究。這是在探索性數據分析或理論測試重要過程(例如,如果一個類別錯誤很可能在這類研究中出現,分歧應在隨後的研究中被識別。則應該使用通過應用Scheffé 方法發現的特定子群,對比進行後續研究。最後,Scheffé的方法可以對平衡數據和不平衡數據進行簡單或複雜的平均比較。

 

違反變異量均質假設

單向變方分析僅在變異量均質假設成立的情況下執行。然而,這是一個強韌的統計方法,即使有一個族群違背均質假設。在這種情況下,Games-Howell, Tamhane’s T2, Dunnett’s T3, and Dunnett’s C測試可以應用。

Games-Howell方法是Tukey-Kramer方法的改進版本,適用於違反變異量假設均質的情況。這是使用Welch’s自由度的t檢定。此方法使用一種策略來控制整個比較的I型錯誤,並且已知即使樣本大小不同也可以保持預設的顯著性水準。但是,每組中的樣本數量越少,它對I型錯誤控制的容忍度就越高。因此,當樣本數量為六個或更多時,可以應用該方法。

TamhaneT2方法採用Sidak 提出的乘性不等式概念,使用分佈給出了檢定統計量。Sidak的乘法不等式定理代表,每個事件發生交集的概率大於或等於每個事件發生的概率。與Games-Howell方法相比,Sidak 定理通過調整顯著性水準提供了更嚴格的多重比較方法。換句話說,它比類型I錯誤控制更為保守。相反,DunnettT3方法不使用t分佈,而是使用Student’s化的最大模量分佈。該分佈總是提供比T2窄的信賴區間( CI )。使用Welch方法(例如Games-HowellT2)計算自由度。當每個組中的樣本數量少於50個時,這種DunnettT3測試被認為比Games-Howell測試更合適。需要注意的是DunnettC測試使用Student’s化的範圍分佈,這會產生稍窄的CI Games-Howell試驗的50或更多的在樣品大小試驗但是,DunnettC測試的功能勝於Games-Howell測試。

 

調整P值的方法

許多研究設計使用了多種多重比較的來源,例如多種結果,多種預測因素,子群分析,exposures和結果的多個定義,結果的多個時間點(重複測量)以及在連續中期監測過程中對數據的多次觀察。因此,在先前情況下進行的多次比較伴隨著增加的I型錯誤問題,並且有必要相應地調整P值。有各種方法被用於調節P值。但是沒有通用的單一P值調整方法可用來控制多個測試方法。因此,我們介紹了兩種用於多重測試調整的代表性方法:FWER和錯誤發現率(FDR)。

控制組群錯誤率:Bonferroni 調整

解決多重比較問題的經典方法包括控制FWER。可以設定通常使用的小於0.05α的臨界值。如果H0在所有測試中均為真,則從此新的較低的臨界值獲得顯著結果的可能性為0.05。換句話說,如果所有虛無假設H0都是正確的,則由於偶然性,測試族群包含一個或多個誤報的概率為0.05。通常,在根本不犯任何I型錯誤的情況下,通常使用這些方法。屬於該類別的方法是Bonferroni HolmHochbergHommel 調整等。所述的Bonferroni 方法是最常用的方法來控制FWER之一。隨著所檢定假設的數量增加,I型錯誤也隨之增加。因此,顯著水準劃分成的假設測試號碼。以這種方式,可以降低I型錯誤。換句話說,要測試的假設的數量越多,準則越嚴格,產生I型錯誤的可能性就越小,且檢定力越低。

例如,用於執行50 t-檢定,一會設置每T-TEST0.05 / 50 = 0.001。因此,應該認為該測試僅在P <0.001而不是P <0.05時才有意義。

調整後的alphaα=α/ k(檢定的假設數量)

這種方法的優點是計算簡單明白。但是這太保守了,因為當比較次數增加時,顯著性級別變得非常小,系統的功能會降低。強烈建議使用Bonferroni 校正來測試所有測試都不重要的單個通用虛無假設(H0)。這是在下列情況下真以及避免I類錯誤或沒有預規劃的假設執行許多試驗為目的獲得顯著結果。當一個偽陽性時,Bonferroni 校正是合適的。

在一系列測試中是一個問題。當有多個多重比較並且一個正在尋找一兩個重要的比較時,它通常很有用。但是,如果需要許多比較和重要的項目,則Bonferroni 修飾的偽陰性可能很高。

 

控制錯誤發現率:Benjamini -Hochberg調整

控制FWER的另一種方法是使用Benjamini -HochbergBenjamini Yekutieli 調整來控制FDR 。該FDR控制在被錯誤地拒絕虛無假設(I類錯誤)的預期比例並不那麼保守。與FWER控制相比,通過以更大的能力執行比較過程,可以增加發生I型錯誤的可能性。

儘管FDR限制了錯誤發現的數量,但仍會獲得一些發現。因此,如果某些I類錯誤是可以接受的,則可以使用這些過程。換句話說,它是過濾那些在從測試錯誤的假設方法的判斷很重要,而不是像FWER測試所有的假設。

使用FDR執行此更正過程時≥0.05 ,即是P≥0.05 ,個別測試也可能很重要。最後,只有被FDR調整後列出的拒絕區域中小於單個P值的假設將被拒絕。

選擇FDR時應格外小心。如果我們決定對繼續在有趣的個體進行更多的實驗重新結果。如果實驗的額外成本低,成本偽陽性(缺少潛在的重要發現)為高,那麼我們應該使用高FDR,如0.100.20,以確保重要的事情不會錯過。此外應注意的是,Bonferroni 校正和Benjamini -Hochberg程序均假定各個測試是獨立的。

 

結論與啟示

本文提到的多種比較方法的目的是控制在ANOVA之後進行後測試或在各種測定法中進行成對比較時進行母群顯著性水準的推理。整體顯著性水準的概率是所有測試虛無假設,至少一個被拒絕,或者一個或以上,不包含真正的價值。

通常,醫學研究論文中發現的常見統計錯誤是由多重比較的問題引起的[11]。這是因為研究人員試圖在一個實驗中同時測試多個假設,因此本文的作者已經指出了這個問題。

由於生物醫學論文強調的顯著性多重比較,越來越多的期刊已經開始,提交和審查過程包括需要單獨確定在多重比較過程中是否適當使用。根據對三種醫學雜誌上發表的文章,進行10年以上多次比較的適當性的研究結果,有33%(47/142)的論文沒有使用多次比較校正。相比較而言,在61%論文(86/142),沒有合理進行校正。只有6.3%(9/142)的受試論文使用了適當的校正方法[8]35.9Bonferroni方法被用來在論文。大部分(71%)論文只提供很少的討論或沒有討論,而只有29%的人對此方法有一定的了解和/或討論[8]。這些結果的意義非常重大。一些作者決定不使用調整後的P值,或者比較校正後的和未校正後的P值的結果,從而導致對結果的解釋潛在複雜。因此降低了已發表研究結果的可靠性。

在一項研究中,發生了許多可能影響MCT選擇的情況。例如,一組可能具有不同的樣品數目。一個多重比較分析測試是專門開發用於處理不相同的群體。在這種研究中,檢定力可能是個問題,有些測試比其他測試具有更大的檢定力。儘管在某些研究中所有比較測試都很重要,但在其他研究中僅應測試實驗組或比較預定組合。當特殊情況影響特定的成對分析時,應通過特定統計數據解決感興趣的問題,和要分析的數據類型的能力來控制選擇多個比較分析測試。因此,重要的是研究人員必須選擇最適合其數據的測試,有關組群比較的資訊類型以及分析所需的能力(圖3)。

通常,大多數成對的MCT 基於平衡數據。因此,當有樣本的數量差異較大,應小心採取選擇多個比較各程序。LSDSidak BonferroniDunnett檢定使用t-統計不會造成任何問題,因為作為該樣本的每個組中的數量是相同的之假設不存在。使用Student’s範圍分佈的Tukey檢定可能會出現問題,因為前提是所有假設在原假設中都是相同的。因此,當樣本數不同時,可以使用使用樣本數的諧波平均值的Tukey-Kramer檢定。最後,我們必須檢查變異量均衡假設是否滿足。前面已經提到的多重比較方法都被假定為均等分佈。TamhaneT2DunnettT3Games-HowellDunnettC等是多重比較測試方法並沒有變異量均值的假定。

References

1.Lee DK. Alternatives to P value: confidence interval and effect size. Korean J  Anesthesiol 2016; 69: 555-62.

2.Kim TK. Understanding one-way ANOVA using conceptual figures. Korean J Anesthesiol 2017; 70: 22-6.

3.Stoline MR. The status of multiple comparisons: simultaneous estimation of all pairwise comparisons in one-way ANOVA designs. Am Stat 1981; 35: 134-41.

4. Dunn OJ. Multiple comparisons among means. J Am Stat Assoc 1961; 56: 52-64.

5. Chen SY, Feng Z, Yi X. A general introduction to adjustment for multiple   comparisons. J Thorac Dis 2017; 9: 1725-9.

6. Scheffe H. A method for judging all contrasts in the analysis of variance. Biometrika 1953; 40: 87-110.

7. Dunnett CW. A multiple comparison procedure for comparing several treatments with a control. J Am Stat Assoc 1955; 50: 1096-121.

8. Armstrong RA. When to use the Bonferroni correction. Ophthalmic Physiol Opt 2014; 34: 502-8.

9. Streiner DL, Norman GR. Correction for multiple testing: is there a resolution? Chest 2011; 140: 16-8.

10. Benjamini Y, Hochberg Y. Controlling the false discovery rate: a practical and   powerful approach to multiple testing. J R Stat Soc Ser B (Method) 1995; 57: 289- 300.

11. Lee S. Avoiding negative reviewer comments: common statistical errors in anesthesia journals. Korean J Anesthesiol 2016; 69: 219-26.