單變量 (統計)
單變量(Univariate)是統計學中常見的詞語,說明只由單一屬性或是特徵的的觀察值組成的資料類型。像員工的薪資就是單變量的資料[1]。單變量資料和其他統計資料一樣,先進行量測、蒐集、表列以及分析,再來可以由圖表、影像或是其他分析工具進行可視化[2]。
資料類型
[編輯]有些單變量資料包括數字(例如身高170公分或體重65公斤),有些則不是數字(例如黑髮或是棕髮)。一般來說會用分類單變量資料和數值單變量資料來加以區分。
分類單變量資料
[編輯]分類單變量資料包括非數值的觀察值,可以用分類代替。其中包括了可以識別每一個元素的標籤或是名稱。單變量的類別資料,通常是採用名目(nominal)或次序(ordinal)的衡量尺度[3]。
數值單變量資料
[編輯]數值單變量資料包括是數值的觀察值。可能會用區間或是比例的量測尺度。單變量資料可以再分為兩類:離散和連續[2]。離散的數值單變量資料是指所有可能值的集合是有限,或是可數無限(countably infinite)。離散單變量資料一般和計數有關(例如某個人讀了幾本書)。連續的數值單變量資料是指所有可能值的集合是某一區間內的數字。連續單變量資料一般和量測有關(例如身高)。
資料分析和應用
[編輯]單變量分析(Univariate analysis)是最簡單的資料分析方式[4]。單變量資料需要個別的分析每一個變數。蒐集資料的目的是要以此回答和資料相關的問題。單變量資料無法回答有關各變數之間的關係,不過可以用來敘述因觀察值而異的特徵或屬性[5]。一般來說,蒐集資料有兩種目的,一種是進行描述性研究,另一個則是在迴歸分析中了解屬性如何隨變數的個別效應而變化。有一些方法可以敘述單變量中找到的模式,包括圖示法、量測集中趨勢以及量測變異情形[6]
單變量統計和其他統計類似,也有推論統計學和描述統計學的差異。
有些單變量分析的數值,其實用多元變量統計會更加合適,此時若用單變量統計會造成誤導。
量測集中趨勢
[編輯]集中趨勢(Central tendency)是最常見的敘述式量測之一,利用計算平均數、中位數和眾數來估計單變量資料的中心位置[7]。每一個計算都有其優點和限制。平均數的優點是其計算會包括所有資料的值,但很容易會受異常值影響。若有異常值時,使用中位數會比較合適。眾數的好處是容易計算。
要敘述集中趨勢,不限制只能使用單一量測。若資料是分類,沒有數字大小的資料,那只能使用眾數來量測。不過若資料在本質上是數字(序數或是區間/比),那麼平均數、中位數和眾數都可以使用。使用多種量測比較可以對集中趨勢有較準備的敘述[8]。
量測離散程度
[編輯]對單變數資料離散程度或離散度(偏離平均值的程度)可以更充份的揭示單變數資料分布的形狀。這可以提供一些有關資料變異程式度的資訊。離散程度的量測加上集中趨勢的量測更可以瞭解整個資料[9]。最常用的三種離散程度量測有全距、方差和標準偏差[10]。適用哪一種量測視資料種類、資料分布形狀以及集中趨勢的量測方式而定。若資料是分類的,無法量測資料的離散程度,若資料是數值的,上述三種量測都可以。若資料是對稱的,較常用的量測是方差和標準偏差。但若資料有偏度,使用全距會比較合適[3]。
描述式方法
[編輯]描述式統述描述樣本或是母體,可能是探索性資料分析的一部份[11]。
適用的統計方式依測量尺度而不同。若是名目變數,頻率表以及其中眾數的列表就夠了。若是序數變數,可以用中位數來量測集中趨勢,用全距(或其他衍生的統計量)量測離散程度。若是分區間的數值變數,可以再加入算術平均數(平均)和標準偏差。若是比例的變數,可以加入幾何平均數和調和平均數來量測集中趨勢,用變異係數量測離散程度。
若是分區間的數值變數和比例的數值變數,進一步的統計量包括偏度(skewness)和峰度。
推論式方法
[編輯]推論式方法可以從樣本推論母體的特性[11]。若是名目變數,單向卡方檢驗(適合度)可以確定樣本是否符合母體[12]。針對分區間或是比例的數值資料,單向司徒頓t檢定可以推論樣本是否符合特定數值(多半是0)。其他的檢定包括單樣本的符號檢定和Wilcoxon符號秩檢定。
圖示方式
[編輯]最常見的單變量資料圖示方式如下:
頻率分布表
[編輯]頻率是指某數字出現的次數。例如,在表{1, 2, 3, 4, 6, 9, 9, 8, 5, 1, 1, 9, 9, 0, 6, 9}中,數字9的頻率是5,表示其出現了5次。
條形圖
[編輯]
條形圖是由矩形組成的圖。每一個矩形表示在分類中觀測量的次數或是百分比。可以從各矩形的長度或是高度,在視覺上看出各分類的差異。
直方圖
[編輯]
直方圖是用來估計資料的分布,會將資料分成各區域(稱為資料分箱),再統計各區域內資料的頻率[13]。
圓餅圖
[編輯]
圓餅圖是將圓分成數份,表示各分類的相對頻率或是其比例。
分布
[編輯]單變量分布是單一隨機變數的離散類型,離散概率分布可以用概率質量函數(pmf)來敘述,連續概率分布可以用機率密度函數(pdf)來敘述[14]。單變量分布和多變量的聯合分布不同。
常見離散分布
[編輯]常見連續分布
[編輯]相關條目
[編輯]參考資料
[編輯]- ^ Kachigan, Sam Kash. Statistical analysis: an interdisciplinary introduction to univariate & multivariate methods. New York: Radius Press. 1986. ISBN 0-942154-99-1.
- ^ 2.0 2.1 Lacke, Prem S. Mann; with the help of Christopher Jay. Introductory statistics. 7th. Hoboken, NJ: John Wiley & Sons. 2010. ISBN 978-0-470-44466-5.
- ^ 3.0 3.1 Anderson, David R.; Sweeney, Dennis J.; Williams, Thomas A. Statistics For Business & Economics Tenth. Cengage Learning. : 1018. ISBN 978-0-324-80926-8.
- ^ Univariate analysis. stathow.
- ^ Univariate Data. study.com.
- ^ Trochim, William. Descriptive Statistics. Web Center for Social Research Methods. [15 February 2017].
- ^ O'Rourke, Norm; Hatcher, Larry; Stepanski, Edward J. A step-by-step approach to using SAS for univariate & multivariate statistics 2nd. New York: Wiley-Interscience. 2005. ISBN 1-59047-417-1.
- ^ Longnecker, R. Lyman Ott, Michael. An introduction to statistical methods and data analysis 6th ed., International. Pacific Grove, Calif.: Brooks/Cole. 2009. ISBN 978-0-495-10914-3.
- ^ Meloun, Milan; Militky, Jirí. Statistical Data Analysis A Practical Guide.. New Delhi: Woodhead Pub Ltd. 2011. ISBN 978-0-85709-109-3.
- ^ Purves, David Freedman; Robert Pisani; Roger. Statistics 4. New York [u.a.]: Norton. 2007. ISBN 978-0-393-92972-0.
- ^ 11.0 11.1 Everitt, Brian. The Cambridge Dictionary of Statistics
. Cambridge, UK New York: Cambridge University Press. 1998. ISBN 0521593468.
- ^ One-Way Chi-Square.
- ^ Diez, David M.; Barr, Christopher D.; Çetinkaya-Rundel, Mine. OpenIntro Statistics 3rd. OpenIntro, Inc. 2015: 30. ISBN 978-1-9434-5003-9.
- ^ Samaniego, Francisco J. Stochastic modeling and mathematical statistics : a text for statisticians and quantitative scientists. Boca Raton: CRC Press. 2014: 167. ISBN 978-1-4665-6046-8.