A/B 測試完全攻略：2026 從入門到進階教學

Q: 幾個進階技巧

基本功做熟了之後，可以試試這些進階技巧：

你的直覺可能是錯的

「我覺得綠色的按鈕比較好」「客戶應該會喜歡這個版本」「這個文案寫得比較有感覺」。

做網站和 Landing Page 的時候，我們每天都在做這種決定。而這些決定大部分都是基於直覺、個人偏好、或者老闆的意見。

問題是，你不是你的客戶。你覺得好看的設計，客戶可能覺得難用。你覺得有力的文案，客戶可能看不懂。你覺得理所當然的操作流程，客戶可能被卡住。

A/B 測試就是用來解決這個問題的。它的核心精神很簡單：不要用猜的，用測的。

做兩個版本，讓真實的訪客來投票。不是用嘴巴投票（問卷調查往往不準），而是用行為投票——他們實際點了哪個按鈕、在哪個版本上花了更多錢、哪個版本讓更多人完成購買。

這比任何人的直覺都可靠。

A/B 測試的基本原理

A/B 測試的運作方式是這樣的：

你有一個原始版本（A 版，也叫「控制組」）
你做了一個修改版（B 版，也叫「實驗組」）
系統把訪客隨機分成兩組，一組看 A 版，一組看 B 版
跑一段時間之後，比較兩組的數據
統計分析告訴你差異是真實的還是偶然的

聽起來很簡單，但每一步都有細節要注意。

隨機分配

「隨機」是 A/B 測試最重要的條件。如果你手動決定誰看 A 版誰看 B 版（比如新用戶看 A、舊用戶看 B），那測試結果完全不可信。兩組人本來就不一樣，你不知道差異是因為版本不同還是人不同。

好的 A/B 測試工具（Google Optimize 的後繼者、VWO、Optimizely）會自動幫你做隨機分配，而且會確保同一個人每次來都看到同一個版本。

流量分配

最常見的做法是 50/50——一半的流量看 A 版，一半看 B 版。但如果你對修改版沒什麼信心，可以用 80/20——80% 的流量還是看原版，只有 20% 看新版。這樣即使新版很差，也只影響 20% 的訪客。

測試時間

太短不行（樣本不夠），太長也不行（市場環境可能已經變了）。一般來說 1-4 週 是合理的範圍，取決於你的流量大小。

A/B 測試基本原理圖：流量隨機分配到 A/B 版本後比較轉換數據

先搞清楚要測什麼

A/B 測試不是亂測一通。你需要先搞清楚三件事：

1. 目標指標是什麼？

你要用什麼數字來判斷勝負？選一個「主要指標」，不要同時追蹤十幾個指標然後挑一個最好看的來報告（這叫 cherry-picking，統計上是作弊）。

常見的主要指標：

電商：轉換率（購買人數 ÷ 訪客數）
SaaS：註冊率、免費試用轉付費率
Lead Gen：表單完成率
內容網站：閱讀深度、頁面停留時間

2. 最小可檢測差異是多少？

你期望改變能帶來多大的提升？如果你只期望 1% 的提升，你需要的樣本量會非常大；如果你期望 20% 的提升，樣本量就小得多。

務實地想：一個按鈕顏色的改變不太可能帶來 50% 的轉換率提升。通常 5-20% 的差異是合理的預期範圍。

3. 需要多少樣本？

有很多線上計算器可以幫你算。輸入你目前的轉換率、期望的最小可檢測差異、信賴度（通常設 95%），它會告訴你每個版本需要多少樣本。

以一個轉換率 3% 的網站為例：

想檢測 20% 的相對提升（3% → 3.6%）→ 每組需要約 12,000 個訪客
想檢測 50% 的相對提升（3% → 4.5%）→ 每組需要約 2,000 個訪客

如果你的網站每天只有 100 個訪客，要檢測 20% 的差異就需要跑 240 天。這明顯不實際。這時候你應該測影響力更大的變數（能帶來更大差異的），或者接受較低的信賴度。

值得測試的東西（和不值得的）

不是所有東西都值得做 A/B 測試。時間和流量都是有限的，你應該把測試資源花在最可能帶來改變的地方。

值得測試的：

測試項目	為什麼值得測	預期影響
標題文案	決定訪客是否繼續看	高
CTA 文字和位置	直接影響點擊行為	高
頁面結構	影響訪客理解的順序	高
表單欄位數量	直接影響完成率	高
社會證明的有無	影響信任感	中高
主視覺圖片/影片	影響第一印象	中
定價展示方式	影響價值感知	中

不太值得測試的：

字體種類（影響太小，測不出來）
按鈕的圓角半徑（拜託不要）
Logo 大小（客戶不在乎你的 Logo 大 2px 還是小 2px）
頁尾的內容（沒幾個人看到頁尾）

一個判斷原則：如果你自己都說不出來為什麼這個改變會影響使用者的行為，那它大概不值得測試。

怎麼設計一個好的測試

有了假設和目標之後，怎麼設計測試才不會白做？

規則一：一次只改一個東西

如果你同時改了標題、圖片和按鈕顏色，然後 B 版贏了，你不知道是哪個改變的功勞。也許新標題很好但新圖片很爛，兩者互相抵消之後還是 B 版小贏。但如果你只改標題，效果可能會更好。

「但每次只改一個東西太慢了！」這是對的。如果你有很大的流量，可以考慮「多變量測試」（Multivariate Testing），同時測試多個變數的所有組合。但這需要的流量是 A/B 測試的好幾倍，大部分中小型網站的流量不夠用。

規則二：改變要夠大

測試微小的改變（把字體從 14px 改成 15px）很難看到結果，因為差異太小，需要的樣本量大到不切實際。

你的改變應該大到「一眼就能看出不同」。把 CTA 文字從「提交」改成「立即開始免費試用」——這是有意義的改變。把按鈕從藍色改成深藍色——這不太有意義。

規則三：有明確的假設

不要為了測試而測試。每個測試都應該有一個假設：「我認為 [改變] 會帶來 [效果]，因為 [原因]」。

沒有假設的測試即使有了結果也不知道為什麼，更無法把學到的東西應用到其他地方。

規則四：提前決定何時結束

在測試開始之前就決定好：跑多久、需要多少樣本、什麼信賴度算「有結論」。不要在測試進行中因為某個版本暫時領先就提前結束。

A/B 測試設計四大規則的視覺化對照圖

統計顯著性：聽起來很嚇人但其實不難

A/B 測試跑完之後，你需要知道結果是不是「統計顯著」的。

什麼是統計顯著性？

簡單地說：「這個結果是真的差異，還是只是運氣？」

假設你丟一個硬幣 10 次，出現 7 次正面。你會說這個硬幣有問題嗎？大概不會，因為 10 次裡出現 7 次正面雖然有點多，但還在正常範圍內。

但如果你丟了 1,000 次，出現了 700 次正面呢？這時候你就很有信心說這個硬幣有問題了。

樣本量越大，你越能確定觀察到的差異是真實的。統計顯著性就是幫你量化這個「確定程度」的工具。

怎麼判斷？

大部分 A/B 測試工具會自動幫你算。它會告訴你一個「信賴度」（Confidence Level）或「P 值」（P-value）。

信賴度 ≥ 95%（P-value ≤ 0.05）：結果很可靠，可以放心採用勝出版本
信賴度 90-95%：結果大概是對的，但還有一點不確定
信賴度 < 90%：差異可能是偶然的，不要急著下結論

如果工具沒有這個功能，Google 搜尋「AB test significance calculator」，輸入兩組的訪客數和轉換數就能算出來。

一個常見的錯誤：過早偷看結果

你的測試才跑了一天，手癢去看了一下，發現 B 版領先 A 版 30%。你很興奮，心想「太好了，B 版大勝，不用再測了」。

千萬不要這樣做。早期的數據波動非常大，你今天看到 B 版領先 30%，明天可能就變成 A 版領先 10%。這叫做「過早停止」（Early Stopping），是 A/B 測試裡最常見也最致命的錯誤。

堅持跑到預定的樣本量或時間。忍住不偷看是很難，但這是唯一能得到可靠結果的方法。

測試結果出來了，然後呢

測試結束，結果明確，接下來要做什麼？

如果 B 版顯著勝出：

把 B 版上線取代 A 版。然後把這個測試的結果記錄下來：測了什麼、結果怎樣、可能的原因。這些記錄是你最寶貴的資產。

接著，想想這個學到的東西能不能應用到其他地方。如果「加上客戶見證」提升了 Landing Page 的轉換率，那你的定價頁、產品頁是不是也可以加？

如果 A 版和 B 版差不多：

沒有贏家也是一個有用的結果。這告訴你這個變數對你的受眾來說不重要，你應該把注意力放到其他變數上。

如果 B 版顯著輸了：

也很有價值。至少你沒有直接把一個更差的版本推上線。記錄下來，分析為什麼你的假設是錯的，這能讓你對受眾的理解更深。

測試完一個，繼續下一個

CRO 和 A/B 測試是一個永不停止的循環。每一個測試的結果都會產生新的問題和新的假設。

「B 版的 CTA 文字贏了→那如果再加上急迫感呢？→新的測試」「社會證明有效→那如果改用影片見證而不是文字呢？→新的測試」

持續測試、持續學習、持續改善。半年之後你的轉換率跟剛開始比會差距很大，而且每一步都有數據支撐，不是碰運氣。

幾個進階技巧

基本功做熟了之後，可以試試這些進階技巧：

分群分析

測試結果是 B 版整體贏了，但進一步拆分之後你可能發現：B 版在手機上贏很多，在桌機上其實輸了。或者 B 版對新訪客效果好，對回訪者效果差。

分群分析可以讓你做更精準的優化——手機用 B 版、桌機用 A 版。

連續測試

把測試結果當作下一個測試的起點。A/B 測試找到了最好的標題，接下來用這個標題去測不同的圖片。一層一層往上疊，每一層都有數據支撐。

反向測試

如果一個元素（比如客戶見證區塊）已經在頁面上很久了，你可以試試把它拿掉，看看轉換率有沒有下降。如果沒有，那這個元素可能只是佔空間。

個人化

根據訪客的特徵（來源、裝置、地區、是否回訪）自動顯示不同的版本。這比 A/B 測試更進一步——不只是找到最好的版本，而是找到對每一種人最好的版本。

從感覺到數據

A/B 測試最大的價值不是某一次測試帶來的轉換率提升，而是它改變了你做決定的方式。

以前是「老闆覺得」「設計師覺得」「我覺得」。現在是「數據顯示」「上一次測試發現」「根據我們 20 次測試累積的結論」。

這種思維方式的轉變才是最有價值的。它讓你的每一個決定都有根據、可驗證、可複製。

如果你想了解更多關於轉換率優化 CRO 的系統性方法，或者先把 Landing Page 的基礎設計做好再來做測試，都是很好的下一步。

如果你需要專業的網站架設與技術支援來正確安裝 A/B 測試工具和追蹤碼，確保測試環境的技術基礎穩固，準確的數據是所有優化工作的前提。

A/B 測試的思維轉變圖：從直覺決策到數據驅動的對比

#A/B 測試 #轉換率優化 #Landing Page #數據分析 #CRO

A/B 測試完全攻略：別再靠感覺做決定

你的直覺可能是錯的

A/B 測試的基本原理

先搞清楚要測什麼

值得測試的東西（和不值得的）

怎麼設計一個好的測試

統計顯著性：聽起來很嚇人但其實不難

測試結果出來了，然後呢

幾個進階技巧

從感覺到數據

相關文章

AI-Ready Landing Page 設計：讓廣告 AI 系統更快學會優化你的廣告

AI 工具優化 Landing Page 轉換率：熱圖分析、A/B 測試到文案生成全攻略

Landing Page vs 官網首頁：廣告該導到哪裡效果最好