統(tǒng)計:概述
系統(tǒng)
1961 0
結(jié)束了概率,下面開始統(tǒng)計。這一篇,是統(tǒng)計的一個小介紹。
統(tǒng)計是研究數(shù)據(jù)的學(xué)科。它包括描述數(shù)據(jù),推測群體信息,判斷假設(shè)的真?zhèn)巍=y(tǒng)計是一門實用學(xué)科。人們利用統(tǒng)計,尋找下一個NBA巨星,推測奧斯卡獎項,尋找自己的真心伴侶。在電影“點球成金”中,球隊的經(jīng)理就是利用統(tǒng)計思想,來搜尋球員,管理球隊,最終造就了一支勁旅。
點球成金?
?
統(tǒng)計這件大事
如果說最早有統(tǒng)計意識的人,那莫過于古往今來的“王霸”之人。精明的王者,早早的意識到數(shù)據(jù)的重要性,也因此從統(tǒng)計數(shù)據(jù)中獲得信息優(yōu)勢。劉邦占領(lǐng)咸陽后,蕭何先去收集的,是王宮里的戶籍、地理、人口等手冊。后來楚霸王來了,則是燒殺搶掠一番。項羽在“大數(shù)據(jù)”意識上,就輸給了劉邦陣營。
因數(shù)據(jù)而流傳千古的,還有征服者威廉。這位來自諾曼底的王者,以旺盛的精力統(tǒng)治著英格蘭。他派遣手下,走遍英格蘭的每個村莊,編纂成統(tǒng)計書 (Domesday Book),詳細(xì)的記錄了英格蘭每個地區(qū)的人口、地理和物產(chǎn),甚至于精確到每家養(yǎng)殖的牲口數(shù)目。無怪乎諾曼底王朝可以延續(xù)數(shù)百年。
Domesday Book
?
現(xiàn)代統(tǒng)計誕生于歐洲近代,主要服務(wù)于政府部門。統(tǒng)計部門的建立受益于啟蒙主義思想。政府管理從中世紀(jì)的影響中走出,開始以理性和科學(xué)的方式,記錄國家發(fā)展。農(nóng)業(yè)社會向工業(yè)社會轉(zhuǎn)型,政府需要更高效的方式,了解國家的方方面面。概率的思想融入統(tǒng)計學(xué),統(tǒng)計從單純的數(shù)字記錄,向估計和推測發(fā)展。隨著現(xiàn)代統(tǒng)計的發(fā)展,許多以前難以精確獲得的數(shù)字,比如出生率,國民生產(chǎn)總值,戰(zhàn)爭耗費等,都通過采樣估計的方式獲得。
管中窺豹
道瓊斯指數(shù)
北京的PM2.5指數(shù)
世界人口
這三者有什么共同之處呢?
?
首先,它們都一定程度代表了某個群體的狀況,比如美國股市,北京的空氣污染狀況,和世界的人口。其次,它們都是通過對群體
采樣
,來獲得的結(jié)果。道瓊斯指數(shù)包含了美國最重要的一些工業(yè)股,而不是所有的股票。PM2.5是北京的數(shù)個觀測站采集到的。世界人口,是通過各地采樣獲得的。
?
PM2.5
?
?
通過樣本(sample),來研究整個群體(population),是統(tǒng)計學(xué)的一大特征。這背后的哲學(xué)是,用部分來理解整體。利用統(tǒng)計工具,我們還可以推測,樣本中信息與真正的整體信息,有多大的誤差。這個研究門類,被稱為
統(tǒng)計推斷
(statistical inference)。它實際上利用了概率論工具,根據(jù)采樣,對群體的狀況作出推論,并給出推論的不確定程度。
確定性的消失
我們希望結(jié)論靠譜,就不能忽視誤差。在日常生活中,我們也會不經(jīng)意的用統(tǒng)計的方式思考,但往往會忽視誤差。從一袋大米中抓出一把,我們會推測整袋大米的質(zhì)量。從認(rèn)識的北京朋友,我們會推斷北京人的性格特征。從身邊的程序員同事,推測碼農(nóng)的收入和氣質(zhì)。這樣很容易得到結(jié)論,但也很容易以偏概全,導(dǎo)致自己的結(jié)論大大偏離現(xiàn)實。嚴(yán)格的統(tǒng)計方法 需要說明結(jié)果的可靠性。
從確定論到不確定論,是人類理性的一次大飛躍。在這一觀點下,自然科學(xué)發(fā)生了質(zhì)的變化。許多早期的科學(xué)結(jié)論,出現(xiàn)了問題。比較典型的就是:“如果在某一時刻知道所有原子的運動狀況,就可以預(yù)測宇宙的未來”。觀測的數(shù)據(jù),如果沒有相關(guān)的誤差描述,不被認(rèn)為是有效的。更有信奉統(tǒng)計理念的狂熱者,比如拉普拉斯。他研究潮汐時,給出優(yōu)美的理論。但他宣稱自己的理論不可信:由于自己的數(shù)據(jù)只有數(shù)千個,達(dá)不到統(tǒng)計理論的健壯性。
?
?
從群體中抽取一個樣品,那么這個樣品究竟是群體的哪個個體,是一個隨機變量。統(tǒng)計學(xué)的不確定性由來于此。這也是統(tǒng)計學(xué)與概率論研究的結(jié)合點。結(jié)合我們對該隨機變量的特征有所了解,比如該隨機變量符合高斯分布,那么可以根據(jù)抽出的樣品,來計算分布的平均值和方差,從而得到群體的狀況。我們還可以對群體作出一些假設(shè)的理論,根據(jù)采樣結(jié)果,來判斷結(jié)論真?zhèn)蔚母怕?。確定性的消失令人不安,卻為統(tǒng)計學(xué)打開了一扇大門。
大數(shù)據(jù)時代
大數(shù)據(jù)時代的一個有趣想像,是人們可以對一些數(shù)量巨大的群體進行直接的運算。比如,我們可以迅速的計算出所有股票的市值,F(xiàn)acebook的用戶發(fā)帖總數(shù)等等。曾經(jīng)的一些采樣統(tǒng)計,在計算機的巨力面前,似乎顯得有些沒有必要。是啊,如果可以直接得到群體的信息,我們何必拘泥于惱人的不確定性呢?
姑且不論計算速度和數(shù)據(jù)采集速度的限制,許多問題的本質(zhì),就阻止了我們美夢。比如簡單的連續(xù)方程積分,就無法真正的擺脫不確定性。自然測量的本質(zhì)的連續(xù)的,計算機運算是離散的。用離散的系統(tǒng),只能盡力的趨近,卻無法真正精確。再者,許多數(shù)據(jù)是無法測量的。比如假設(shè)檢驗、決策,乃至統(tǒng)計為基礎(chǔ)的機器學(xué)習(xí)。它們基于一個無法測量的真相:所有可能性中“最好”的那一個。這一所謂的“最好”,可能只是理論存在。即使有再多的計算機,也無法采集這樣的數(shù)據(jù)。大數(shù)據(jù)時代,統(tǒng)計非但沒有過時,還找到了更大的舞臺。
統(tǒng)計:概述
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061
微信掃一掃加我為好友
QQ號聯(lián)系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元