統計學,最強的商業武器 作者 西內啟
◎資料採礦:從既有的大量資料中,妥善抽出可能有價值的資訊或假設。又或是指達到該目標的方法。重視速度甚於精確度,較適合只需反覆進行單純計算的分析手法。
◎文字探勘:用來分析寫給人類閱讀(或是說給人類聽)之自由文字的方法。它延伸了語言學的既有方法,目前已有相關商業應用。透過分析步驟,將文章依單字分割,然後分析出現的單字,以及單字之間的關聯性等。
◎分析本身並無任何價值,其價值是從分析結果所採取的行動,到底可以帶來多少價值而定。
◎現代統計學之父羅納德.費雪等人的時代和過去的統計學之間最大的差異,便是在於誤差的處理。
◎所謂的「A/B測試」,就是嘗試然後比較A型與B型兩種設計或功能的作法。在統計學上,這種資料處理方式叫做「隨機對照實驗」。
◎「實際上沒有差異,卻因誤差或偶發而產生資料差距(嚴格來說,更極端的差距也包含在內)的機率」為P值。
◎所謂的科學,並不是穿著白袍操作、處理奇怪的機器和藥品,而是「大膽假設、小心求證」的態度。
◎在沒有統計數據支撐的情況下就判定某事絕對錯誤,也同樣是笨到底的行為。
◎要人們「無意識地」或「隨便地」提出的數字,往往一點都不隨機。
◎只要沒有進行隨機對照實驗,再怎麼「於可視為相同的群組內做分層分析」,嚴格來說,都不算是在類似群體間的比較。
◎實際資料比理論上的推測「更接近平均值」,成 為「回歸平凡」。
◎對於具變動性之現象,理論性的預測並沒有那麼準確。
◎找出由偶然取得資料所計算出的統計量,是以何種程度的誤差來推斷真值。
◎
分析軸 | (解釋變數) | ||||
比較兩個群組 | 比較多個群組 | 比較連續值的多寡 | 同時比較多個因素 | ||
想比較的東西 | 連續值 | t檢定 | 變異數分析 | 回歸分析 | 多元回歸分析 |
(反應變數) | 「有/無」兩種值 | 卡方檢定 | 卡方檢定 | 邏輯回歸 | 邏輯回歸 |
◎辛普森悖論,是屬於因為無法做到「公平比較」而造成判斷錯誤的例子之一。像整個群組的單純比較結果與其中分類小群組的比較結果,有時會出現相互矛盾的現象。
◎多重回歸係數可在「若彼此之間無加乘效果」的前提下,呈現出「解釋變數」對「反應變數」的影響程度。
◎邏輯回歸的基本概念就是將原為0或1的形式的「反應變數」(兩種值),改以連續變數形式來處理,以便進行多元回歸分析。
◎傾向分數是指所關注的兩種值中,比較「符合其中一種值」的機率。
◎聚類分析本身「只能做分類」,所以劃分出來的各個群組分別是甚麼樣的群組(聚類),還是必須由人依據各群組的匯總結果來加以解釋才行。
◎神經網路也好,支持向量機也好,只要是資料之間確實存在曲線關係或是涉及多個變數間的複雜關聯性,這些方法就會比回歸模型更有效。
◎只要目標是以預測為主,資料採礦便可確實發揮功效。若目的不在於預測本身,而在於依據預測模型來討論今後該採取的行動,那麼邏輯回歸模型是比較有用的。
留言列表