你的直覺可能是錯的
「我覺得綠色的按鈕比較好」「客戶應該會喜歡這個版本」「這個文案寫得比較有感覺」。
做網站和 Landing Page 的時候,我們每天都在做這種決定。而這些決定大部分都是基於直覺、個人偏好、或者老闆的意見。
問題是,你不是你的客戶。你覺得好看的設計,客戶可能覺得難用。你覺得有力的文案,客戶可能看不懂。你覺得理所當然的操作流程,客戶可能被卡住。
A/B 測試就是用來解決這個問題的。它的核心精神很簡單:不要用猜的,用測的。
做兩個版本,讓真實的訪客來投票。不是用嘴巴投票(問卷調查往往不準),而是用行為投票——他們實際點了哪個按鈕、在哪個版本上花了更多錢、哪個版本讓更多人完成購買。
這比任何人的直覺都可靠。
A/B 測試的基本原理
A/B 測試的運作方式是這樣的:
- 你有一個原始版本(A 版,也叫「控制組」)
- 你做了一個修改版(B 版,也叫「實驗組」)
- 系統把訪客隨機分成兩組,一組看 A 版,一組看 B 版
- 跑一段時間之後,比較兩組的數據
- 統計分析告訴你差異是真實的還是偶然的
聽起來很簡單,但每一步都有細節要注意。
隨機分配
「隨機」是 A/B 測試最重要的條件。如果你手動決定誰看 A 版誰看 B 版(比如新用戶看 A、舊用戶看 B),那測試結果完全不可信。兩組人本來就不一樣,你不知道差異是因為版本不同還是人不同。
好的 A/B 測試工具(Google Optimize 的後繼者、VWO、Optimizely)會自動幫你做隨機分配,而且會確保同一個人每次來都看到同一個版本。
流量分配
最常見的做法是 50/50——一半的流量看 A 版,一半看 B 版。但如果你對修改版沒什麼信心,可以用 80/20——80% 的流量還是看原版,只有 20% 看新版。這樣即使新版很差,也只影響 20% 的訪客。
測試時間
太短不行(樣本不夠),太長也不行(市場環境可能已經變了)。一般來說 1-4 週 是合理的範圍,取決於你的流量大小。
先搞清楚要測什麼
A/B 測試不是亂測一通。你需要先搞清楚三件事:
1. 目標指標是什麼?
你要用什麼數字來判斷勝負?選一個「主要指標」,不要同時追蹤十幾個指標然後挑一個最好看的來報告(這叫 cherry-picking,統計上是作弊)。
常見的主要指標:
- 電商:轉換率(購買人數 ÷ 訪客數)
- SaaS:註冊率、免費試用轉付費率
- Lead Gen:表單完成率
- 內容網站:閱讀深度、頁面停留時間
2. 最小可檢測差異是多少?
你期望改變能帶來多大的提升?如果你只期望 1% 的提升,你需要的樣本量會非常大;如果你期望 20% 的提升,樣本量就小得多。
務實地想:一個按鈕顏色的改變不太可能帶來 50% 的轉換率提升。通常 5-20% 的差異是合理的預期範圍。
3. 需要多少樣本?
有很多線上計算器可以幫你算。輸入你目前的轉換率、期望的最小可檢測差異、信賴度(通常設 95%),它會告訴你每個版本需要多少樣本。
以一個轉換率 3% 的網站為例:
- 想檢測 20% 的相對提升(3% → 3.6%)→ 每組需要約 12,000 個訪客
- 想檢測 50% 的相對提升(3% → 4.5%)→ 每組需要約 2,000 個訪客
如果你的網站每天只有 100 個訪客,要檢測 20% 的差異就需要跑 240 天。這明顯不實際。這時候你應該測影響力更大的變數(能帶來更大差異的),或者接受較低的信賴度。
值得測試的東西(和不值得的)
不是所有東西都值得做 A/B 測試。時間和流量都是有限的,你應該把測試資源花在最可能帶來改變的地方。
值得測試的:
| 測試項目 | 為什麼值得測 | 預期影響 | |---------|------------|---------| | 標題文案 | 決定訪客是否繼續看 | 高 | | CTA 文字和位置 | 直接影響點擊行為 | 高 | | 頁面結構 | 影響訪客理解的順序 | 高 | | 表單欄位數量 | 直接影響完成率 | 高 | | 社會證明的有無 | 影響信任感 | 中高 | | 主視覺圖片/影片 | 影響第一印象 | 中 | | 定價展示方式 | 影響價值感知 | 中 |
不太值得測試的:
- 字體種類(影響太小,測不出來)
- 按鈕的圓角半徑(拜託不要)
- Logo 大小(客戶不在乎你的 Logo 大 2px 還是小 2px)
- 頁尾的內容(沒幾個人看到頁尾)
一個判斷原則:如果你自己都說不出來為什麼這個改變會影響使用者的行為,那它大概不值得測試。
怎麼設計一個好的測試
有了假設和目標之後,怎麼設計測試才不會白做?
規則一:一次只改一個東西
如果你同時改了標題、圖片和按鈕顏色,然後 B 版贏了,你不知道是哪個改變的功勞。也許新標題很好但新圖片很爛,兩者互相抵消之後還是 B 版小贏。但如果你只改標題,效果可能會更好。
「但每次只改一個東西太慢了!」這是對的。如果你有很大的流量,可以考慮「多變量測試」(Multivariate Testing),同時測試多個變數的所有組合。但這需要的流量是 A/B 測試的好幾倍,大部分中小型網站的流量不夠用。
規則二:改變要夠大
測試微小的改變(把字體從 14px 改成 15px)很難看到結果,因為差異太小,需要的樣本量大到不切實際。
你的改變應該大到「一眼就能看出不同」。把 CTA 文字從「提交」改成「立即開始免費試用」——這是有意義的改變。把按鈕從藍色改成深藍色——這不太有意義。
規則三:有明確的假設
不要為了測試而測試。每個測試都應該有一個假設:「我認為 [改變] 會帶來 [效果],因為 [原因]」。
沒有假設的測試即使有了結果也不知道為什麼,更無法把學到的東西應用到其他地方。
規則四:提前決定何時結束
在測試開始之前就決定好:跑多久、需要多少樣本、什麼信賴度算「有結論」。不要在測試進行中因為某個版本暫時領先就提前結束。
統計顯著性:聽起來很嚇人但其實不難
A/B 測試跑完之後,你需要知道結果是不是「統計顯著」的。
什麼是統計顯著性?
簡單地說:「這個結果是真的差異,還是只是運氣?」
假設你丟一個硬幣 10 次,出現 7 次正面。你會說這個硬幣有問題嗎?大概不會,因為 10 次裡出現 7 次正面雖然有點多,但還在正常範圍內。
但如果你丟了 1,000 次,出現了 700 次正面呢?這時候你就很有信心說這個硬幣有問題了。
樣本量越大,你越能確定觀察到的差異是真實的。統計顯著性就是幫你量化這個「確定程度」的工具。
怎麼判斷?
大部分 A/B 測試工具會自動幫你算。它會告訴你一個「信賴度」(Confidence Level)或「P 值」(P-value)。
- 信賴度 ≥ 95%(P-value ≤ 0.05):結果很可靠,可以放心採用勝出版本
- 信賴度 90-95%:結果大概是對的,但還有一點不確定
- 信賴度 < 90%:差異可能是偶然的,不要急著下結論
如果工具沒有這個功能,Google 搜尋「AB test significance calculator」,輸入兩組的訪客數和轉換數就能算出來。
一個常見的錯誤:過早偷看結果
你的測試才跑了一天,手癢去看了一下,發現 B 版領先 A 版 30%。你很興奮,心想「太好了,B 版大勝,不用再測了」。
千萬不要這樣做。早期的數據波動非常大,你今天看到 B 版領先 30%,明天可能就變成 A 版領先 10%。這叫做「過早停止」(Early Stopping),是 A/B 測試裡最常見也最致命的錯誤。
堅持跑到預定的樣本量或時間。忍住不偷看是很難,但這是唯一能得到可靠結果的方法。
測試結果出來了,然後呢
測試結束,結果明確,接下來要做什麼?
如果 B 版顯著勝出:
把 B 版上線取代 A 版。然後把這個測試的結果記錄下來:測了什麼、結果怎樣、可能的原因。這些記錄是你最寶貴的資產。
接著,想想這個學到的東西能不能應用到其他地方。如果「加上客戶見證」提升了 Landing Page 的轉換率,那你的定價頁、產品頁是不是也可以加?
如果 A 版和 B 版差不多:
沒有贏家也是一個有用的結果。這告訴你這個變數對你的受眾來說不重要,你應該把注意力放到其他變數上。
如果 B 版顯著輸了:
也很有價值。至少你沒有直接把一個更差的版本推上線。記錄下來,分析為什麼你的假設是錯的,這能讓你對受眾的理解更深。
測試完一個,繼續下一個
CRO 和 A/B 測試是一個永不停止的循環。每一個測試的結果都會產生新的問題和新的假設。
「B 版的 CTA 文字贏了→那如果再加上急迫感呢?→新的測試」 「社會證明有效→那如果改用影片見證而不是文字呢?→新的測試」
持續測試、持續學習、持續改善。半年之後你的轉換率跟剛開始比會差距很大,而且每一步都有數據支撐,不是碰運氣。
幾個進階技巧
基本功做熟了之後,可以試試這些進階技巧:
分群分析
測試結果是 B 版整體贏了,但進一步拆分之後你可能發現:B 版在手機上贏很多,在桌機上其實輸了。或者 B 版對新訪客效果好,對回訪者效果差。
分群分析可以讓你做更精準的優化——手機用 B 版、桌機用 A 版。
連續測試
把測試結果當作下一個測試的起點。A/B 測試找到了最好的標題,接下來用這個標題去測不同的圖片。一層一層往上疊,每一層都有數據支撐。
反向測試
如果一個元素(比如客戶見證區塊)已經在頁面上很久了,你可以試試把它拿掉,看看轉換率有沒有下降。如果沒有,那這個元素可能只是佔空間。
個人化
根據訪客的特徵(來源、裝置、地區、是否回訪)自動顯示不同的版本。這比 A/B 測試更進一步——不只是找到最好的版本,而是找到對每一種人最好的版本。
從感覺到數據
A/B 測試最大的價值不是某一次測試帶來的轉換率提升,而是它改變了你做決定的方式。
以前是「老闆覺得」「設計師覺得」「我覺得」。現在是「數據顯示」「上一次測試發現」「根據我們 20 次測試累積的結論」。
這種思維方式的轉變才是最有價值的。它讓你的每一個決定都有根據、可驗證、可複製。
如果你想了解更多關於轉換率優化 CRO 的系統性方法,或者先把 Landing Page 的基礎設計做好再來做測試,都是很好的下一步。
如果你需要專業的網站架設與技術支援來正確安裝 A/B 測試工具和追蹤碼,確保測試環境的技術基礎穩固,準確的數據是所有優化工作的前提。