AI 如何決定引用來源？LLM 推薦邏輯解析

你有沒有想過，當你問 ChatGPT「台灣哪家 SaaS 公司的 CRM 最好用」，它為什麼會提到某幾個品牌，而不是其他的？

這不是抽籤，也不是廣告。AI 背後有一套複雜的篩選邏輯，決定哪些來源值得被引用、哪些品牌值得被推薦。理解這套邏輯，才是 GEO（生成式引擎優化）的起點。

AI 決策樹示意圖

AI 不是隨便選的，它有一套篩選邏輯

很多人以為 AI 回答問題的方式跟 Google 搜尋類似——輸入關鍵字、抓取排名最高的頁面、整理輸出。但實際上差很多。

Google 的排名是即時的，每次搜尋都會去抓當下的網路資料。LLM（大型語言模型）的知識是「凍結」在訓練截止日期的，它不是每次查詢都去爬網站，而是從訓練時「學會」的知識裡提取答案。

這個根本差異，讓 GEO 的邏輯跟 SEO 完全不同。

現代主流 AI 對話引擎（ChatGPT、Perplexity、Google Gemini）處理引用來源的機制，可以分成三個層次：訓練資料裡的背景知識、即時檢索的 RAG 系統、以及品牌在外部世界被提及的整體聲量。這三層共同決定了一個品牌或一篇文章有多大機率被 AI 引用。

第一層：LLM 訓練資料（Common Crawl、Wikipedia、學術論文 — 但有時間延遲）

所有 LLM 的基礎知識都來自訓練資料。GPT-4、Claude、Gemini 這些模型，在訓練階段消化了網路上的大量文字——Common Crawl 爬取的數十億個網頁、Wikipedia 全語言版本、arXiv 的學術論文、GitHub 的程式碼、Reddit 和 HackerNews 的討論串。

根據 Common Crawl 官方統計，他們每月的爬取量超過 30 億個網頁，但並非全部都會進入 LLM 訓練集。模型訓練商通常會做品質過濾，優先選入高被引用、語言品質佳的內容。Wikipedia 的條目因為格式結構清晰、來源可信度高，幾乎是每個大型 LLM 的必備訓練資料。

時間延遲是最大的問題。 GPT-4o 的訓練截止日是 2024 年 4 月，Claude 3.5 Sonnet 到 2024 年 7 月。你的品牌如果在這之後才開始被媒體報導，基礎 LLM 模型根本不認識你。這也解釋了為什麼許多新創公司問 ChatGPT「有沒有聽說過 XX 品牌」，得到的是「我沒有相關資訊」的回答。

這層邏輯對品牌的啟示是：越早在網路上累積有品質的曝光，在未來 LLM 的訓練資料裡出現的機率就越高。長期的媒體建立和內容策略，不只是為了現在的 SEO，也在為未來的 GEO 播種。

第二層：RAG 即時檢索（Perplexity 和 ChatGPT Browse 的運作方式）

訓練資料有時間截止，所以主流 AI 引擎都加入了 RAG（Retrieval-Augmented Generation，檢索增強生成）機制，讓模型在回答時能引用即時的網路資料。

Perplexity 幾乎完全依賴 RAG——每次回答都會先做網路搜尋，抓取相關頁面，再讓 LLM 根據這些頁面生成答案，同時列出來源連結。ChatGPT 的 Browse 模式也類似，但預設不一定開啟。

RAG 的運作邏輯大致是這樣：

使用者輸入問題
系統把問題轉成搜尋查詢，去搜尋引擎（或自建索引）抓取相關頁面
把頁面內容切成片段（chunk），計算每個片段跟問題的語義相似度
選出最相關的幾個片段，塞進 prompt 裡
LLM 根據這些片段生成回答，並標註來源

在這個流程裡，能被引用的關鍵是讓你的內容出現在步驟 2 的搜尋結果裡。這跟 SEO 密切相關——如果你的頁面在 Google 或 Bing 搜尋特定關鍵字的前幾名，被 RAG 系統抓取的機率就大很多。

不過 RAG 還有另一個篩選點：語義相似度。你的內容必須跟使用者的問題高度相關，才會進入最終的引用候選池。這就是為什麼清晰的問答結構、明確的主題聚焦，在 GEO 時代比以前更重要。

RAG 檢索流程示意圖

第三層：品牌知識圖譜（被多少來源提及、提及的上下文）

LLM 在訓練時不只在學「事實」，也在學「哪些實體（entity）是重要的、被信任的」。

Google 的知識圖譜（Knowledge Graph）是一個公開例子：它記錄了人、地方、組織、產品之間的關係。LLM 在訓練時也會形成類似的內部表徵——哪個品牌名稱出現的頻率高、周邊的上下文是正面還是負面、有多少可信來源在討論它。

一個品牌如果只有自家官網在說自己多好，跟一個有 50 家媒體、30 篇學術文章、Wikipedia 條目、PTT 討論串都在提到它的品牌，在 LLM 的「眼中」重要性天差地別。

這也是為什麼 PR 和媒體關係，在 GEO 策略裡的地位不輸內容行銷。被提及的次數、提及的來源品質、提及時的上下文（是作為範例、解決方案、還是負面警示），都在影響 AI 對品牌的「信任度」。

影響被引用的 5 個關鍵因素

因素	說明	對 SEO 的重疊度
訓練資料曝光	品牌在 LLM 訓練截止前的網路累積聲量	中等
即時搜尋排名	RAG 系統能否在搜尋中找到你的頁面	高
內容語義相關性	你的內容是否精確回答使用者問題	高
外部引用品質	有多少高可信度來源提及你的品牌	高（等同反向連結）
實體明確性	AI 能否清晰辨識你是哪個品牌、做什麼的	低（GEO 獨特）

「實體明確性」是 GEO 特有的概念，SEO 比較少提到。LLM 在處理模糊的品牌名稱時會有困難——如果你的品牌叫「雲端科技」，AI 不知道你到底是哪一家，自然不會主動推薦你。品牌名稱的獨特性、About 頁面的清晰描述、Wikipedia 條目的建立，都在幫 AI「認識」你這個實體。

根據 BrightEdge 2025 年的研究報告，在 Perplexity 被引用的來源中，有 76% 同時在 Google 搜尋前 10 名——這說明 SEO 基礎建設仍是 GEO 的重要前提，而不是可以分開操作的兩件事。

FAQ

Q：我的網站 Google 排名不好，還有機會被 AI 引用嗎？

有，但機率偏低。Perplexity 和 ChatGPT Browse 的 RAG 系統主要透過搜尋引擎抓取資料，排名越好、被抓到的機率越高。不過也有例外：如果你的品牌在特定社群（如 Reddit、PTT）有高度討論，也可能進入訓練資料。長期來看，把 SEO 和 GEO 一起做才是正解，可以參考 E-E-A-T 與內容品質的指南。

Q：AI 引用的內容，我能申請版權保護嗎？

這是目前法律尚未完全釐清的領域。現階段主流做法是把被 AI 引用當作曝光機會，而非版權侵害問題。Perplexity 已開始推出 Publisher Program，讓媒體合作夥伴分享流量回報。

Q：ChatGPT 和 Perplexity 的引用邏輯有什麼不同？

Perplexity 每次回答都強制使用 RAG，所有引用都有即時來源。ChatGPT 在沒有開啟 Browse 的情況下，完全依賴訓練資料，不會引用即時網頁。這代表對 Perplexity 的優化更偏即時 SEO，對 ChatGPT 的優化更偏長期品牌聲量建立。

想系統了解 GEO 的整體架構，可以回到完整 GEO 指南。如果你想知道如何具體改善內容讓 AI 更容易引用，下一步可以看什麼是 GEO的基礎篇，或直接跳到 E-E-A-T 與內容品質的實作建議。

#GEO #LLM #AI 引用 #RAG #AI 推薦邏輯

生成式 AI 如何決定引用哪些來源？揭開 LLM 推薦邏輯

AI 不是隨便選的，它有一套篩選邏輯

第一層：LLM 訓練資料（Common Crawl、Wikipedia、學術論文 — 但有時間延遲）

第二層：RAG 即時檢索（Perplexity 和 ChatGPT Browse 的運作方式）

第三層：品牌知識圖譜（被多少來源提及、提及的上下文）

影響被引用的 5 個關鍵因素

FAQ

相關文章

數位行銷教學網站的 GEO 佈局策略：sem.tw 實務經驗分享

台灣品牌 GEO 實戰操作案例：從零建立 AI 引擎中的品牌存在感

如何追蹤品牌在 AI 引擎中的曝光頻率：GEO 監測方法教學