到達頁優化 / / 10 min

A/B 測試完全攻略:別再靠感覺做決定

A/B 測試的完整指南,從觀念建立到實戰操作,教你用數據取代直覺,做出真正有效的網頁優化決策。

目錄

你的直覺可能是錯的

「我覺得綠色的按鈕比較好」「客戶應該會喜歡這個版本」「這個文案寫得比較有感覺」。

做網站和 Landing Page 的時候,我們每天都在做這種決定。而這些決定大部分都是基於直覺、個人偏好、或者老闆的意見。

問題是,你不是你的客戶。你覺得好看的設計,客戶可能覺得難用。你覺得有力的文案,客戶可能看不懂。你覺得理所當然的操作流程,客戶可能被卡住。

A/B 測試就是用來解決這個問題的。它的核心精神很簡單:不要用猜的,用測的。

做兩個版本,讓真實的訪客來投票。不是用嘴巴投票(問卷調查往往不準),而是用行為投票——他們實際點了哪個按鈕、在哪個版本上花了更多錢、哪個版本讓更多人完成購買。

這比任何人的直覺都可靠。

A/B 測試的基本原理

A/B 測試的運作方式是這樣的:

  1. 你有一個原始版本(A 版,也叫「控制組」)
  2. 你做了一個修改版(B 版,也叫「實驗組」)
  3. 系統把訪客隨機分成兩組,一組看 A 版,一組看 B 版
  4. 跑一段時間之後,比較兩組的數據
  5. 統計分析告訴你差異是真實的還是偶然的

聽起來很簡單,但每一步都有細節要注意。

隨機分配

「隨機」是 A/B 測試最重要的條件。如果你手動決定誰看 A 版誰看 B 版(比如新用戶看 A、舊用戶看 B),那測試結果完全不可信。兩組人本來就不一樣,你不知道差異是因為版本不同還是人不同。

好的 A/B 測試工具(Google Optimize 的後繼者、VWO、Optimizely)會自動幫你做隨機分配,而且會確保同一個人每次來都看到同一個版本。

流量分配

最常見的做法是 50/50——一半的流量看 A 版,一半看 B 版。但如果你對修改版沒什麼信心,可以用 80/20——80% 的流量還是看原版,只有 20% 看新版。這樣即使新版很差,也只影響 20% 的訪客。

測試時間

太短不行(樣本不夠),太長也不行(市場環境可能已經變了)。一般來說 1-4 週 是合理的範圍,取決於你的流量大小。

A/B 測試基本原理圖:流量隨機分配到 A/B 版本後比較轉換數據

先搞清楚要測什麼

A/B 測試不是亂測一通。你需要先搞清楚三件事:

1. 目標指標是什麼?

你要用什麼數字來判斷勝負?選一個「主要指標」,不要同時追蹤十幾個指標然後挑一個最好看的來報告(這叫 cherry-picking,統計上是作弊)。

常見的主要指標:

  • 電商:轉換率(購買人數 ÷ 訪客數)
  • SaaS:註冊率、免費試用轉付費率
  • Lead Gen:表單完成率
  • 內容網站:閱讀深度、頁面停留時間

2. 最小可檢測差異是多少?

你期望改變能帶來多大的提升?如果你只期望 1% 的提升,你需要的樣本量會非常大;如果你期望 20% 的提升,樣本量就小得多。

務實地想:一個按鈕顏色的改變不太可能帶來 50% 的轉換率提升。通常 5-20% 的差異是合理的預期範圍。

3. 需要多少樣本?

有很多線上計算器可以幫你算。輸入你目前的轉換率、期望的最小可檢測差異、信賴度(通常設 95%),它會告訴你每個版本需要多少樣本。

以一個轉換率 3% 的網站為例:

  • 想檢測 20% 的相對提升(3% → 3.6%)→ 每組需要約 12,000 個訪客
  • 想檢測 50% 的相對提升(3% → 4.5%)→ 每組需要約 2,000 個訪客

如果你的網站每天只有 100 個訪客,要檢測 20% 的差異就需要跑 240 天。這明顯不實際。這時候你應該測影響力更大的變數(能帶來更大差異的),或者接受較低的信賴度。

值得測試的東西(和不值得的)

不是所有東西都值得做 A/B 測試。時間和流量都是有限的,你應該把測試資源花在最可能帶來改變的地方。

值得測試的:

| 測試項目 | 為什麼值得測 | 預期影響 | |---------|------------|---------| | 標題文案 | 決定訪客是否繼續看 | 高 | | CTA 文字和位置 | 直接影響點擊行為 | 高 | | 頁面結構 | 影響訪客理解的順序 | 高 | | 表單欄位數量 | 直接影響完成率 | 高 | | 社會證明的有無 | 影響信任感 | 中高 | | 主視覺圖片/影片 | 影響第一印象 | 中 | | 定價展示方式 | 影響價值感知 | 中 |

不太值得測試的:

  • 字體種類(影響太小,測不出來)
  • 按鈕的圓角半徑(拜託不要)
  • Logo 大小(客戶不在乎你的 Logo 大 2px 還是小 2px)
  • 頁尾的內容(沒幾個人看到頁尾)

一個判斷原則:如果你自己都說不出來為什麼這個改變會影響使用者的行為,那它大概不值得測試。

怎麼設計一個好的測試

有了假設和目標之後,怎麼設計測試才不會白做?

規則一:一次只改一個東西

如果你同時改了標題、圖片和按鈕顏色,然後 B 版贏了,你不知道是哪個改變的功勞。也許新標題很好但新圖片很爛,兩者互相抵消之後還是 B 版小贏。但如果你只改標題,效果可能會更好。

「但每次只改一個東西太慢了!」這是對的。如果你有很大的流量,可以考慮「多變量測試」(Multivariate Testing),同時測試多個變數的所有組合。但這需要的流量是 A/B 測試的好幾倍,大部分中小型網站的流量不夠用。

規則二:改變要夠大

測試微小的改變(把字體從 14px 改成 15px)很難看到結果,因為差異太小,需要的樣本量大到不切實際。

你的改變應該大到「一眼就能看出不同」。把 CTA 文字從「提交」改成「立即開始免費試用」——這是有意義的改變。把按鈕從藍色改成深藍色——這不太有意義。

規則三:有明確的假設

不要為了測試而測試。每個測試都應該有一個假設:「我認為 [改變] 會帶來 [效果],因為 [原因]」。

沒有假設的測試即使有了結果也不知道為什麼,更無法把學到的東西應用到其他地方。

規則四:提前決定何時結束

在測試開始之前就決定好:跑多久、需要多少樣本、什麼信賴度算「有結論」。不要在測試進行中因為某個版本暫時領先就提前結束。

A/B 測試設計四大規則的視覺化對照圖

統計顯著性:聽起來很嚇人但其實不難

A/B 測試跑完之後,你需要知道結果是不是「統計顯著」的。

什麼是統計顯著性?

簡單地說:「這個結果是真的差異,還是只是運氣?」

假設你丟一個硬幣 10 次,出現 7 次正面。你會說這個硬幣有問題嗎?大概不會,因為 10 次裡出現 7 次正面雖然有點多,但還在正常範圍內。

但如果你丟了 1,000 次,出現了 700 次正面呢?這時候你就很有信心說這個硬幣有問題了。

樣本量越大,你越能確定觀察到的差異是真實的。統計顯著性就是幫你量化這個「確定程度」的工具。

怎麼判斷?

大部分 A/B 測試工具會自動幫你算。它會告訴你一個「信賴度」(Confidence Level)或「P 值」(P-value)。

  • 信賴度 ≥ 95%(P-value ≤ 0.05):結果很可靠,可以放心採用勝出版本
  • 信賴度 90-95%:結果大概是對的,但還有一點不確定
  • 信賴度 < 90%:差異可能是偶然的,不要急著下結論

如果工具沒有這個功能,Google 搜尋「AB test significance calculator」,輸入兩組的訪客數和轉換數就能算出來。

一個常見的錯誤:過早偷看結果

你的測試才跑了一天,手癢去看了一下,發現 B 版領先 A 版 30%。你很興奮,心想「太好了,B 版大勝,不用再測了」。

千萬不要這樣做。早期的數據波動非常大,你今天看到 B 版領先 30%,明天可能就變成 A 版領先 10%。這叫做「過早停止」(Early Stopping),是 A/B 測試裡最常見也最致命的錯誤。

堅持跑到預定的樣本量或時間。忍住不偷看是很難,但這是唯一能得到可靠結果的方法。

測試結果出來了,然後呢

測試結束,結果明確,接下來要做什麼?

如果 B 版顯著勝出:

把 B 版上線取代 A 版。然後把這個測試的結果記錄下來:測了什麼、結果怎樣、可能的原因。這些記錄是你最寶貴的資產。

接著,想想這個學到的東西能不能應用到其他地方。如果「加上客戶見證」提升了 Landing Page 的轉換率,那你的定價頁、產品頁是不是也可以加?

如果 A 版和 B 版差不多:

沒有贏家也是一個有用的結果。這告訴你這個變數對你的受眾來說不重要,你應該把注意力放到其他變數上。

如果 B 版顯著輸了:

也很有價值。至少你沒有直接把一個更差的版本推上線。記錄下來,分析為什麼你的假設是錯的,這能讓你對受眾的理解更深。

測試完一個,繼續下一個

CRO 和 A/B 測試是一個永不停止的循環。每一個測試的結果都會產生新的問題和新的假設。

「B 版的 CTA 文字贏了→那如果再加上急迫感呢?→新的測試」 「社會證明有效→那如果改用影片見證而不是文字呢?→新的測試」

持續測試、持續學習、持續改善。半年之後你的轉換率跟剛開始比會差距很大,而且每一步都有數據支撐,不是碰運氣。

幾個進階技巧

基本功做熟了之後,可以試試這些進階技巧:

分群分析

測試結果是 B 版整體贏了,但進一步拆分之後你可能發現:B 版在手機上贏很多,在桌機上其實輸了。或者 B 版對新訪客效果好,對回訪者效果差。

分群分析可以讓你做更精準的優化——手機用 B 版、桌機用 A 版。

連續測試

把測試結果當作下一個測試的起點。A/B 測試找到了最好的標題,接下來用這個標題去測不同的圖片。一層一層往上疊,每一層都有數據支撐。

反向測試

如果一個元素(比如客戶見證區塊)已經在頁面上很久了,你可以試試把它拿掉,看看轉換率有沒有下降。如果沒有,那這個元素可能只是佔空間。

個人化

根據訪客的特徵(來源、裝置、地區、是否回訪)自動顯示不同的版本。這比 A/B 測試更進一步——不只是找到最好的版本,而是找到對每一種人最好的版本。

從感覺到數據

A/B 測試最大的價值不是某一次測試帶來的轉換率提升,而是它改變了你做決定的方式。

以前是「老闆覺得」「設計師覺得」「我覺得」。現在是「數據顯示」「上一次測試發現」「根據我們 20 次測試累積的結論」。

這種思維方式的轉變才是最有價值的。它讓你的每一個決定都有根據、可驗證、可複製。

如果你想了解更多關於轉換率優化 CRO 的系統性方法,或者先把 Landing Page 的基礎設計做好再來做測試,都是很好的下一步。

如果你需要專業的網站架設與技術支援來正確安裝 A/B 測試工具和追蹤碼,確保測試環境的技術基礎穩固,準確的數據是所有優化工作的前提。

A/B 測試的思維轉變圖:從直覺決策到數據驅動的對比