logo821.gif (10572 bytes) 首頁          新增資料與公告

   

最新消息  :

農業數位化-農業4.0系統文獻評論

農業和營養物大數據

MICA 項目中將數據和資訊轉化為知識

 

 

數據分析與知識產業

首頁
上一層
BSE LAB 介紹
非洲產業研究中心
生醫研究之統計方法
授課資料
人文關懷
無官御史台
武漢肺炎與產業
智能生物產業
活動公告區

 

 

一個非常簡單的定量數據分析指南

 

國立中興大學 生物產業機電工程學系 陳加忠

 
 

Peter Samuels

Birmingham City University

Technical Report · April 2020

DOI: 10.13140/RG.2.2.25915.36645

這個指南是什麼?

本指南的目的是幫助大學部學生、教職員工和研究人員了解分析他們在學習、教學或研究過程中,可能收集或遇到的典型定量數據的基本原則。

什麼是統計?

統計學是一門學術科目,涉及對從數據集中得出的數量進行呈現、解釋和推理。常見的統計量是中間值的度量,例如平均值、眾數和中位數,以及散佈的度量,例如範圍和標準差。

該學科有五個主要子領域:

1.描述性統計(也稱為探索性數據分析),這不涉及任何決策

2.數據挖掘。在大型數據集中尋找事先未預料到的關係的系統方法。此外數據分析應用在組織內的決策制定中使用數據挖掘。

3.時間序列分析,一種分析時間相關事件的系統方法,這些事件依賴於先前的事件(例如脈搏率或股價)。

4.統計檢驗(也稱為推論統計),這涉及對從總體樣本得出的統計量進行推理,假設事件是獨立的,並以一定的信賴度做出決策。

5.概率論,它提供了支持統計分析和決策推理的理論。

儘管統計學是數學的一個分支,但它的大部分推理都與數學非常不同。因為它不是定性,就是涉及基於概率的決策,而不是精確的數學證明。

定量研究過程

本指南偏重於描述性統計和統計測試,因為這些是大學和研究生級別所需的常見定量數據分析形式。在涉及以下階段的研究項目的背景下分析數據:

1.確定你的目標和研究問題。

2.進行文獻綜述。

3.對於原始數據研究:建立概念框架,並使用它來設計數據收集工具來收集您的原始數據。

4.對於二手數據研究:確定數據來源並評估其有效性和可靠性。

5.處理您的數據集,使其為分析做好準備。

6.使用描述性統計和非正式解釋進行探索性數據分析。

7.進行推論分析。

8.報告您的發現。

大學和研究等級數據分析

在大學和研究所的統計學經驗,通常與在學校教授統計學的方式大不相同。學校的統計教育通常涉及關於人為問題的摘要資訊,使用簡單、乾淨的數據和一種正確的分析方法。大學和研究所研究的數據經常被應用。這些數據集往往龐大、複雜和混亂,有些數據缺失。有些數據的有效性有問題。

需要提出一個可信的分析計劃,而以一種正確的方法來分析此類數據集。但是您應該願意在進行過程中修改您的計劃,這取決於您所發現的情況。如有必要,執行替代方案分析。這需要一種稱為啟發式或原始認知的額外技能,這代表著控制過程。

 什麼是定量數據?

從本質上講,定量數據是涉及數字和類別的事實資訊。類別通常是指選項之間的選擇,例如您最喜歡的食物類型或您的意見,範圍從非常不同意到非常同意。這導致了三種基本類型的數據:

1.數值數據(可以是整數或小數)。

2.具有自然排序的類別(如非常同意、同意、中立、不同意、非常不同意),這被稱為序數數據。

3.沒有任何約定順序的類別(如蛋白質、乳製品、碳水化合物、水果和蔬菜),這被稱為名義數據。

統計分析中最好的定量數據是數值型,其次是有序型,最後是名義型。了解您計劃收集或分析的數據類型很重要,因為這會影響您的分析方法。

定量數據分析的 12 步方法

1 步:從目標和研究問題開始

大多數研究都是從這些開始的。模糊的調查內容是危險的,因為它們沒有重點,並且可能無法系統地進行。還有一個更大的風險是你會發現一些只是隨機事件的東西。

2 步:收集與您的目標和研究問題一致的數據

假設您已經開始進行一個研究問題,您需要考慮需要收集哪些數據才能調查此問題。然後還有一些問題:你將從哪裡獲得這些數據?你將如何處理這個過程?以及你應該獲得多少數據?

其中數據收集被稱為你的樣品,這是假定來自一個更大的群體。如何取樣,這是你的抽樣方法,是隨機的還是非隨機的?大多數統計檢定假設數據是隨機抽樣的。對於問卷,您還應該考慮如何最大化您的回覆率以減少偏差。

基本上,你應該盡可能收集多的數據。它也應該是盡可能有好的品質。關於可接受的最小數據量是多少,以及稱為樣本量計算的正式過程有一些經驗公式。然而,這兩種方法都存在弱點。

3 步:處理您的數據並創建原始數據電子表格

這一步經常被忽視。數據分析應從電子表格開始,其中列中收集的數據類型和行中的實例,而不是源自原始數據的匯總統計。如果您從線上調查問卷中下載數據,通常會非常混亂,需要先進行整理。

4 步:通過描述性分析了解您的數據

描述性分析涉及從原始數據創建表格、圖表和匯整統計。這可能從收集到的各種類型的數據(稱為變數)開始,但是將一個變數與另一個變數進行比較通常更有用。選擇要相互比較的變數,應該以您的目標和研究問題為指導。不要隨意執行此操作,也不需要報告所有內容。

此外,表格或圖表的選擇應基於最能解釋內容的形式。如果表格包含太多數字,讀者可能難以處理。在解釋其含義時,數據的形式通常比具體的數值更重要。

5 步:非正式地解釋和報告您的分析

現在你可以寫一個敘述來配合你的描述性統計數據。這應該通過對描述性統計數據的含義,進行非正式解釋,來尋求回答您的研究問題。不要同時使用圖表和表格來表示同一件事。選擇最好的,並始終寫一個敘述來配合它。注意不要使用不恰當的統計語言,例如在您沒有進行任何統計測試時就使用顯著一詞。 

描述性分析到此結束:其餘步驟與統計測試相關。

6 步:決定是分析數據集中的變數組還是僅分析單個變數

例如,問卷通常包含關於同一事物的問題組,稱為數量表。這使得分析更容易並且可能更準確,因為您只需分析量表的值(數字),而不是來自構成量表(通常是有序的)的單個問題(稱為項目)的數據。

如果您選擇使用其他人的問卷並希望使用其量表,您首先需要評估有關它的已發表文獻,以確保其量表有效且可靠量測他們應該準確量測的內容。如果您設計了自己的問卷並希望使用您設計的量表,您首先需要進行可靠性分析,但準備刪除您建立的大約一半的項目。還有一個介於兩者之間的選項,您可以使用他人問卷的一部分或對其進行修改,但這超出了本指南的範圍。

7 步:了解您的統計設計

統計測試主要做兩件事:調查組之間的差異和探索變數之間的關係。稱為關聯性或相關性。還有一個問題是是否多次量測相同的對象,或是否正在量測不同的對象。最後有兩種主要類型的測試,稱為參數測試和非參數測試。

參數測試通常更敏感,但它們有一些假設,您首先需要檢查,然後才能運行它們。下圖顯示了選擇簡單測試的決策樹。

8 步:生成高級描述性統計數據並檢查測試假設

大多數參數檢驗的假設是數據呈常態分佈。這可以通過生成具有擬合常態曲線的直方圖來檢查。還有常態性檢驗,例如 Shapiro-Wilk 檢驗。其他假設是:獨立樣本 t 檢驗的差異數相等,可以使用 Levene 檢驗進行評估。以及用於線性相關和迴歸的散點圖的橢圓分佈形狀,可以用以定性評估。

信賴區間是一種有用的高級描述性統計數據,可以彌補探索數據和統計檢驗之間的差距。這些通常顯示在誤差條形圖上。

9 步:了解虛無假設統計檢驗過程

雖然它經常受到批評,但虛無假設統計檢驗過程提供了一種明確的方法,來做出關於組間或變數之間比較的決定。想像一下,您是法庭上的一名法官,您的數據正在接受審判。您的數據是無辜的,此假設被稱為虛無假設。這通常是指兩組之間沒有差異或兩個變數之間沒有關係。您的工作是評估以決定,是否有足夠的證據證明您的數據存在差異或存在關係,或宣告您的數據無罪。超出合理懷疑水平通常設置為 95% 的信賴度。證據通常有兩種形式 - 一個統計值代表您的樣本中發生的事件,一個相關的概率值(稱為顯著性值)衡量您的事件發生的可能性或可​​能性。如果顯著性值小於 0.05,則拒絕虛無假設。例如如果您擲硬幣 20 次並且您擲出 6 個正面(您的統計值),則此事件的概率約為 0.037,但其顯著性值為 0.115,因為它是通過將正面較少的事件的概率相加(即從 0 5 次)。因此在 20 次拋硬幣中得到 6 次正面並不是什麼重大事件。您會得出結論,沒有足夠的證據來確定您的硬幣有偏見。

10 :運行並解釋適當的測試

通常使用 Excel SPSS 等統計軟體來運行統計測試。這些測試的輸出需要解釋。例如,右表是 SPSS 的輸出,用於進行卡方檢驗,以確定騷亂的原因與警察使用的警察之間是否存在關聯。要解釋的數字是 Pearson 卡方行 (0.172) 的漸近顯著性(兩側)。但是,Exact sign可以解釋 Fisher 精確檢驗 (0.214) 的(兩側)。由於這兩個值都高於 0.05 臨界值。我們會得出結論,沒有足夠的關聯證據。

11 步:報告結果

結果需要在解釋後報告。這需要引用相關的概率值,將它們與顯著性臨界值進行比較,以便做出關於虛無假設的決定,並將此決定返回到您的研究問題。將軟體輸出直接複製並粘貼到您的發現報告中通常是不合適的,但這可以在附錄中提供。您可能還需要將您的發現與文獻中其他人的發現進行比較,並討論任何差異或影響。

12 步:準備好使用大量認知,重新分析您的數據

如前所述,在應用統計學中,數據集複雜而混亂,可以通過多種方式對其進行分析。有鑑於此,您應該考慮是否進行額外的分析,以進一步調查您的研究問題。但是請注意,每次運行統計測試時,都會引入偽陽性結果(稱為第一類錯誤)的可能性。如果您決定運行多個測試,您可能希望增加您的信賴度臨界值,例如從 95% 99%。並尋找相應較低的顯著性數值,例如小於 0.01 而不是小於 0.05