SEM.tw
GEO · · 6 分鐘閱讀 · 1 次閱讀

生成式 AI 如何決定引用哪些來源?揭開 LLM 推薦邏輯

拆解 ChatGPT、Perplexity 等 AI 對話引擎如何選擇引用來源,從訓練資料、RAG 檢索到排名邏輯完整解析。

你有沒有想過,當你問 ChatGPT「台灣哪家 SaaS 公司的 CRM 最好用」,它為什麼會提到某幾個品牌,而不是其他的?

這不是抽籤,也不是廣告。AI 背後有一套複雜的篩選邏輯,決定哪些來源值得被引用、哪些品牌值得被推薦。理解這套邏輯,才是 GEO(生成式引擎優化)的起點。

AI 決策樹示意圖


AI 不是隨便選的,它有一套篩選邏輯

很多人以為 AI 回答問題的方式跟 Google 搜尋類似——輸入關鍵字、抓取排名最高的頁面、整理輸出。但實際上差很多。

Google 的排名是即時的,每次搜尋都會去抓當下的網路資料。LLM(大型語言模型)的知識是「凍結」在訓練截止日期的,它不是每次查詢都去爬網站,而是從訓練時「學會」的知識裡提取答案。

這個根本差異,讓 GEO 的邏輯跟 SEO 完全不同。

現代主流 AI 對話引擎(ChatGPT、Perplexity、Google Gemini)處理引用來源的機制,可以分成三個層次:訓練資料裡的背景知識、即時檢索的 RAG 系統、以及品牌在外部世界被提及的整體聲量。這三層共同決定了一個品牌或一篇文章有多大機率被 AI 引用。


第一層:LLM 訓練資料(Common Crawl、Wikipedia、學術論文 — 但有時間延遲)

所有 LLM 的基礎知識都來自訓練資料。GPT-4、Claude、Gemini 這些模型,在訓練階段消化了網路上的大量文字——Common Crawl 爬取的數十億個網頁、Wikipedia 全語言版本、arXiv 的學術論文、GitHub 的程式碼、Reddit 和 HackerNews 的討論串。

根據 Common Crawl 官方統計,他們每月的爬取量超過 30 億個網頁,但並非全部都會進入 LLM 訓練集。模型訓練商通常會做品質過濾,優先選入高被引用、語言品質佳的內容。Wikipedia 的條目因為格式結構清晰、來源可信度高,幾乎是每個大型 LLM 的必備訓練資料。

時間延遲是最大的問題。 GPT-4o 的訓練截止日是 2024 年 4 月,Claude 3.5 Sonnet 到 2024 年 7 月。你的品牌如果在這之後才開始被媒體報導,基礎 LLM 模型根本不認識你。這也解釋了為什麼許多新創公司問 ChatGPT「有沒有聽說過 XX 品牌」,得到的是「我沒有相關資訊」的回答。

這層邏輯對品牌的啟示是:越早在網路上累積有品質的曝光,在未來 LLM 的訓練資料裡出現的機率就越高。長期的媒體建立和內容策略,不只是為了現在的 SEO,也在為未來的 GEO 播種。


第二層:RAG 即時檢索(Perplexity 和 ChatGPT Browse 的運作方式)

訓練資料有時間截止,所以主流 AI 引擎都加入了 RAG(Retrieval-Augmented Generation,檢索增強生成)機制,讓模型在回答時能引用即時的網路資料。

Perplexity 幾乎完全依賴 RAG——每次回答都會先做網路搜尋,抓取相關頁面,再讓 LLM 根據這些頁面生成答案,同時列出來源連結。ChatGPT 的 Browse 模式也類似,但預設不一定開啟。

RAG 的運作邏輯大致是這樣:

  1. 使用者輸入問題
  2. 系統把問題轉成搜尋查詢,去搜尋引擎(或自建索引)抓取相關頁面
  3. 把頁面內容切成片段(chunk),計算每個片段跟問題的語義相似度
  4. 選出最相關的幾個片段,塞進 prompt 裡
  5. LLM 根據這些片段生成回答,並標註來源

在這個流程裡,能被引用的關鍵是讓你的內容出現在步驟 2 的搜尋結果裡。這跟 SEO 密切相關——如果你的頁面在 Google 或 Bing 搜尋特定關鍵字的前幾名,被 RAG 系統抓取的機率就大很多。

不過 RAG 還有另一個篩選點:語義相似度。你的內容必須跟使用者的問題高度相關,才會進入最終的引用候選池。這就是為什麼清晰的問答結構、明確的主題聚焦,在 GEO 時代比以前更重要。

RAG 檢索流程示意圖


第三層:品牌知識圖譜(被多少來源提及、提及的上下文)

LLM 在訓練時不只在學「事實」,也在學「哪些實體(entity)是重要的、被信任的」。

Google 的知識圖譜(Knowledge Graph)是一個公開例子:它記錄了人、地方、組織、產品之間的關係。LLM 在訓練時也會形成類似的內部表徵——哪個品牌名稱出現的頻率高、周邊的上下文是正面還是負面、有多少可信來源在討論它。

一個品牌如果只有自家官網在說自己多好,跟一個有 50 家媒體、30 篇學術文章、Wikipedia 條目、PTT 討論串都在提到它的品牌,在 LLM 的「眼中」重要性天差地別。

這也是為什麼 PR 和媒體關係,在 GEO 策略裡的地位不輸內容行銷。被提及的次數、提及的來源品質、提及時的上下文(是作為範例、解決方案、還是負面警示),都在影響 AI 對品牌的「信任度」。


影響被引用的 5 個關鍵因素

因素 說明 對 SEO 的重疊度
訓練資料曝光 品牌在 LLM 訓練截止前的網路累積聲量 中等
即時搜尋排名 RAG 系統能否在搜尋中找到你的頁面
內容語義相關性 你的內容是否精確回答使用者問題
外部引用品質 有多少高可信度來源提及你的品牌 高(等同反向連結)
實體明確性 AI 能否清晰辨識你是哪個品牌、做什麼的 低(GEO 獨特)

「實體明確性」是 GEO 特有的概念,SEO 比較少提到。LLM 在處理模糊的品牌名稱時會有困難——如果你的品牌叫「雲端科技」,AI 不知道你到底是哪一家,自然不會主動推薦你。品牌名稱的獨特性、About 頁面的清晰描述、Wikipedia 條目的建立,都在幫 AI「認識」你這個實體。

根據 BrightEdge 2025 年的研究報告,在 Perplexity 被引用的來源中,有 76% 同時在 Google 搜尋前 10 名——這說明 SEO 基礎建設仍是 GEO 的重要前提,而不是可以分開操作的兩件事。


FAQ

Q:我的網站 Google 排名不好,還有機會被 AI 引用嗎?

有,但機率偏低。Perplexity 和 ChatGPT Browse 的 RAG 系統主要透過搜尋引擎抓取資料,排名越好、被抓到的機率越高。不過也有例外:如果你的品牌在特定社群(如 Reddit、PTT)有高度討論,也可能進入訓練資料。長期來看,把 SEO 和 GEO 一起做才是正解,可以參考 E-E-A-T 與內容品質的指南。

Q:AI 引用的內容,我能申請版權保護嗎?

這是目前法律尚未完全釐清的領域。現階段主流做法是把被 AI 引用當作曝光機會,而非版權侵害問題。Perplexity 已開始推出 Publisher Program,讓媒體合作夥伴分享流量回報。

Q:ChatGPT 和 Perplexity 的引用邏輯有什麼不同?

Perplexity 每次回答都強制使用 RAG,所有引用都有即時來源。ChatGPT 在沒有開啟 Browse 的情況下,完全依賴訓練資料,不會引用即時網頁。這代表對 Perplexity 的優化更偏即時 SEO,對 ChatGPT 的優化更偏長期品牌聲量建立。


想系統了解 GEO 的整體架構,可以回到完整 GEO 指南。如果你想知道如何具體改善內容讓 AI 更容易引用,下一步可以看什麼是 GEO的基礎篇,或直接跳到 E-E-A-T 與內容品質的實作建議。