2018年3月28日 星期三

一個Excel公式搞定獨立性分析

不管是分析男女差異、調薪幅度跟績效有沒有關聯、不同話題引起的討論度是否不一樣,都可以利用Excel中的CHITEST函數來實現。 



舉例來說, 某家冰淇淋店想知道性別會不會影響對冰淇淋口味的選擇,
於是它們統計了最近1個月顧客的消費數據:

理論上, 如果男女對冰淇淋口味都沒什麼特別偏好的話,
消費數據應該是這樣子(兩種口味各50%):

因為在性別與冰淇淋口味間沒有關係的條件下,
理論購買人數的算法如下:

整個獨立性分析最複雜的計算就這樣子了,
計算完上述結果後CHITEST函式就可以登場了,
→ CHITEST(actual_range, expected_range) = χ2
CHITEST的輸入變數有兩個, 分別為:
     1. Actual Range : 實際上的分布
     2. Expected Range : 理論上的分布
回傳的值則是在1與2分布一樣的假設之下, 
有多少機率出現這樣子的分布, 也就是所謂的p value.

把圖一、圖二的分布代進CHITEST後我們得到2%的數字,
也就是說在這樣的分布下, 其實有2%的機率性別不影響冰淇淋口味的選擇.

一般我們把5%當作一個顯著與否的分界點,
The House Advantage(莊家優勢)的作者Jeffrey
也是以5%的機率門檻檢驗旗下的撲克算牌手有沒有黑吃黑的嫌疑,
在這樣的水準下我們可以說性別確實顯著影響冰淇淋的口味選擇.


動腦時間:
某公司將網頁改版後得到了新顧客數據,
舊數據與新數據分別如下, 在5%的門檻下, 
新版網頁的顧客購買率(購買人數/進站人數)究竟有沒有上升呢?