你有沒有想過,當你問 ChatGPT「台灣哪家 SaaS 公司的 CRM 最好用」,它為什麼會提到某幾個品牌,而不是其他的?
這不是抽籤,也不是廣告。AI 背後有一套複雜的篩選邏輯,決定哪些來源值得被引用、哪些品牌值得被推薦。理解這套邏輯,才是 GEO(生成式引擎優化)的起點。
AI 不是隨便選的,它有一套篩選邏輯
很多人以為 AI 回答問題的方式跟 Google 搜尋類似——輸入關鍵字、抓取排名最高的頁面、整理輸出。但實際上差很多。
Google 的排名是即時的,每次搜尋都會去抓當下的網路資料。LLM(大型語言模型)的知識是「凍結」在訓練截止日期的,它不是每次查詢都去爬網站,而是從訓練時「學會」的知識裡提取答案。
這個根本差異,讓 GEO 的邏輯跟 SEO 完全不同。
現代主流 AI 對話引擎(ChatGPT、Perplexity、Google Gemini)處理引用來源的機制,可以分成三個層次:訓練資料裡的背景知識、即時檢索的 RAG 系統、以及品牌在外部世界被提及的整體聲量。這三層共同決定了一個品牌或一篇文章有多大機率被 AI 引用。
第一層:LLM 訓練資料(Common Crawl、Wikipedia、學術論文 — 但有時間延遲)
所有 LLM 的基礎知識都來自訓練資料。GPT-4、Claude、Gemini 這些模型,在訓練階段消化了網路上的大量文字——Common Crawl 爬取的數十億個網頁、Wikipedia 全語言版本、arXiv 的學術論文、GitHub 的程式碼、Reddit 和 HackerNews 的討論串。
根據 Common Crawl 官方統計,他們每月的爬取量超過 30 億個網頁,但並非全部都會進入 LLM 訓練集。模型訓練商通常會做品質過濾,優先選入高被引用、語言品質佳的內容。Wikipedia 的條目因為格式結構清晰、來源可信度高,幾乎是每個大型 LLM 的必備訓練資料。
時間延遲是最大的問題。 GPT-4o 的訓練截止日是 2024 年 4 月,Claude 3.5 Sonnet 到 2024 年 7 月。你的品牌如果在這之後才開始被媒體報導,基礎 LLM 模型根本不認識你。這也解釋了為什麼許多新創公司問 ChatGPT「有沒有聽說過 XX 品牌」,得到的是「我沒有相關資訊」的回答。
這層邏輯對品牌的啟示是:越早在網路上累積有品質的曝光,在未來 LLM 的訓練資料裡出現的機率就越高。長期的媒體建立和內容策略,不只是為了現在的 SEO,也在為未來的 GEO 播種。
第二層:RAG 即時檢索(Perplexity 和 ChatGPT Browse 的運作方式)
訓練資料有時間截止,所以主流 AI 引擎都加入了 RAG(Retrieval-Augmented Generation,檢索增強生成)機制,讓模型在回答時能引用即時的網路資料。
Perplexity 幾乎完全依賴 RAG——每次回答都會先做網路搜尋,抓取相關頁面,再讓 LLM 根據這些頁面生成答案,同時列出來源連結。ChatGPT 的 Browse 模式也類似,但預設不一定開啟。
RAG 的運作邏輯大致是這樣:
- 使用者輸入問題
- 系統把問題轉成搜尋查詢,去搜尋引擎(或自建索引)抓取相關頁面
- 把頁面內容切成片段(chunk),計算每個片段跟問題的語義相似度
- 選出最相關的幾個片段,塞進 prompt 裡
- LLM 根據這些片段生成回答,並標註來源
在這個流程裡,能被引用的關鍵是讓你的內容出現在步驟 2 的搜尋結果裡。這跟 SEO 密切相關——如果你的頁面在 Google 或 Bing 搜尋特定關鍵字的前幾名,被 RAG 系統抓取的機率就大很多。
不過 RAG 還有另一個篩選點:語義相似度。你的內容必須跟使用者的問題高度相關,才會進入最終的引用候選池。這就是為什麼清晰的問答結構、明確的主題聚焦,在 GEO 時代比以前更重要。
第三層:品牌知識圖譜(被多少來源提及、提及的上下文)
LLM 在訓練時不只在學「事實」,也在學「哪些實體(entity)是重要的、被信任的」。
Google 的知識圖譜(Knowledge Graph)是一個公開例子:它記錄了人、地方、組織、產品之間的關係。LLM 在訓練時也會形成類似的內部表徵——哪個品牌名稱出現的頻率高、周邊的上下文是正面還是負面、有多少可信來源在討論它。
一個品牌如果只有自家官網在說自己多好,跟一個有 50 家媒體、30 篇學術文章、Wikipedia 條目、PTT 討論串都在提到它的品牌,在 LLM 的「眼中」重要性天差地別。
這也是為什麼 PR 和媒體關係,在 GEO 策略裡的地位不輸內容行銷。被提及的次數、提及的來源品質、提及時的上下文(是作為範例、解決方案、還是負面警示),都在影響 AI 對品牌的「信任度」。
影響被引用的 5 個關鍵因素
| 因素 | 說明 | 對 SEO 的重疊度 |
|---|---|---|
| 訓練資料曝光 | 品牌在 LLM 訓練截止前的網路累積聲量 | 中等 |
| 即時搜尋排名 | RAG 系統能否在搜尋中找到你的頁面 | 高 |
| 內容語義相關性 | 你的內容是否精確回答使用者問題 | 高 |
| 外部引用品質 | 有多少高可信度來源提及你的品牌 | 高(等同反向連結) |
| 實體明確性 | AI 能否清晰辨識你是哪個品牌、做什麼的 | 低(GEO 獨特) |
「實體明確性」是 GEO 特有的概念,SEO 比較少提到。LLM 在處理模糊的品牌名稱時會有困難——如果你的品牌叫「雲端科技」,AI 不知道你到底是哪一家,自然不會主動推薦你。品牌名稱的獨特性、About 頁面的清晰描述、Wikipedia 條目的建立,都在幫 AI「認識」你這個實體。
根據 BrightEdge 2025 年的研究報告,在 Perplexity 被引用的來源中,有 76% 同時在 Google 搜尋前 10 名——這說明 SEO 基礎建設仍是 GEO 的重要前提,而不是可以分開操作的兩件事。
FAQ
Q:我的網站 Google 排名不好,還有機會被 AI 引用嗎?
有,但機率偏低。Perplexity 和 ChatGPT Browse 的 RAG 系統主要透過搜尋引擎抓取資料,排名越好、被抓到的機率越高。不過也有例外:如果你的品牌在特定社群(如 Reddit、PTT)有高度討論,也可能進入訓練資料。長期來看,把 SEO 和 GEO 一起做才是正解,可以參考 E-E-A-T 與內容品質的指南。
Q:AI 引用的內容,我能申請版權保護嗎?
這是目前法律尚未完全釐清的領域。現階段主流做法是把被 AI 引用當作曝光機會,而非版權侵害問題。Perplexity 已開始推出 Publisher Program,讓媒體合作夥伴分享流量回報。
Q:ChatGPT 和 Perplexity 的引用邏輯有什麼不同?
Perplexity 每次回答都強制使用 RAG,所有引用都有即時來源。ChatGPT 在沒有開啟 Browse 的情況下,完全依賴訓練資料,不會引用即時網頁。這代表對 Perplexity 的優化更偏即時 SEO,對 ChatGPT 的優化更偏長期品牌聲量建立。
想系統了解 GEO 的整體架構,可以回到完整 GEO 指南。如果你想知道如何具體改善內容讓 AI 更容易引用,下一步可以看什麼是 GEO的基礎篇,或直接跳到 E-E-A-T 與內容品質的實作建議。