Google 檢索、索引、搜尋引擎排名與原理!2024 教學 by 貓熊先生 2021 年 11 月 30 日 2021 年 11 月 30 日 3.4K Google 檢索、索引、搜尋引擎排名與原理 Google SEO 中的爬取、索引跟搜尋引擎排名,分別是什麼意思呢?在學習 SEO 之前,必定要先了解一下 Google 搜尋引擎的運作方式。從你的網站文章發布的那一瞬間,你的文章網址會經歷:被找到、被爬取(檢索)、被索引,然後才能出現在 Google 搜尋引擎裡面並且加入 Google 搜尋結果的排名。上面的這個過程,從網址被找到,一直到被爬取跟索引,然後再到開始在 Google 搜尋引擎排名,這就是 Google 搜尋引擎的運作方式。 了解 Google 搜尋引擎的運作方式非常重要,因為 Google 在檢索、索引到搜尋引擎排名的過程當中,有非常多的 SEO 知識在裡面。例如 Google 檢索時是檢索哪些東西?Google 索引時是索引哪些東西?當你的文章開始加入 Google 搜尋引擎排名,文章的初始排名是怎麼決定的?這中間隱含大量的 SEO 知識跟排名要素(Ranking factors)在裡面。 推薦閱讀:SEO 搜尋引擎優化學習指南!SEO 是什麼?SEO 怎麼做? 如果你還不知道 SEO 中的爬取、索引跟排名的整個過程以及運作方式,本篇文章會做一個完整的介紹,讓你了解 Google 搜尋引擎的基本運作原理。 內容目錄 ToggleGoogle 搜尋引擎的爬取、索引跟排名,是什麼?Google 找到網址Google 爬取(檢索)Google 索引Google 排名Google 搜尋引擎的運作原理Google 正向索引與倒序索引正向索引倒序索引什麼是爬取預算?Google 搜尋引擎排名如何決定?Google 爬取、索引、排名 常見問題哪些因素會影響到 Google 爬取?那些因素會影響到 Google 索引?Google 搜尋引擎檢索、索引、排名 觀念總整理 Google 搜尋引擎的爬取、索引跟排名,是什麼? 當一個新的網址出現的時候,它一定會經歷「被找到」的過程,所以雖然我們可以將 Google 搜尋引擎的運作方式分成:檢索(爬取)、索引跟排名,但其實前面還有一個「找到」網址的過程。 這裡將網址被找到、爬取(檢索)、索引跟排名,簡單說明如下。 Google 找到網址 當一個新頁面出現時,Google 的爬蟲必然會先找到該網址,並且將該網址加入網址庫,然後比對一下網址庫裡面是不是有這條網址,如果確認是新的網址,就會安爬時間去檢索(爬取)。 在 Google Search Console 裡面的「涵蓋範圍」功能當中,你也可以清楚看到一條網址它的「發現方式」,可能是從你提交的 Sitemap 當中發現的,也有可能是從別的網址找到你這條連結的。 Google 找到網址 Google 爬取(檢索) 當有新的網址出現在 Google 資料庫中的網址庫之後,就會安排時間去檢索,其實「檢索」是官方的名稱,貓熊先生也比較喜歡用「檢索」這個詞,不過在 SEO 界裡,檢索很常被稱作「爬取」,你只要知道它們指的都是 Crawl 就可以了。無論是爬取還是檢索,都是指 Crawl 。 在 Google search Console 裡面的「涵蓋範圍」功能,你也可以很清楚的看到關於「檢索」的訊息。下面有兩個重要的觀念: 是否允許檢索:如果顯示「否」,那麼該網址可能是出現在 robots.txt,也就是網站主在 robots.txt 這個檔案當中不允許檢索這條網址。 是否允許編入索引:如果顯示「否」,代表該網址很可能有 noindex 中繼標記,所以才會出現不允許給頁面被索引的訊息。 這裡特別說明:robots.txt 是用來告訴搜尋引擎不要爬取特定頁面,而 noindex 則是用來告訴搜尋引擎不要索引特定頁面。 Google 爬取(檢索) 當爬蟲程式爬取了你的頁面之後,會將整個網頁的資訊壓縮並存入資料庫裡面,在「檢索」階段,Google 存入資料庫的訊息就像是使用者打開瀏覽器時得到的 HTML 網頁,一直要到「索引」階段,才會將檢索的資料去蕪存菁,只索引重要的資訊。 Google 索引 Google 在索引階段要處理的東西很多,因為 Google 不可能將你網頁上全部的 HTML 原始碼,或是各種文字都存入資料庫,這樣資料庫會變得過於龐大而沒有效益,所以 Google 「索引」階段肯定只會索引重要的東西,而這些東西會影響你這個網址之後在某個「關鍵字」的排名。 那麼,Google 到底索引了哪些東西?常見的會被索引的資訊包含如下: 1.重要的關鍵字 Google 是如何提取頁面中的關鍵字,這個只有 Google 內部人員才知道,通常提取的關鍵字可能也有10個以上,而且每個被提取出來的關鍵字,其權重加總之後通常不一樣。 唯一可以肯定的是,頁面中的 Meta title、H1、H2 肯定是重點。這也是為什麼很多 SEO 人都強調關鍵字要出現在標題或是H2 裡面的重要性。 2.連結與錨文字 頁面中的連結與錨點文字也是會被索引的東西。 3.圖片 Alt text 圖片當中的 alt text ,也是會被提取的文字。 4.關鍵字的文字大小(font-size) 根據 Google 的 Pagerank 原始文件,有特別提到,Google 會提取關鍵字大約的文字大小,文字越大通常重要性也越高。 5.文章中的粗體字 粗體字通常是<strong>或是<b>這樣的標籤,粗體字也會是被記錄的資訊。 6.關鍵字在頁面中的位置 關鍵字出現在頁面中的位置,也是會被記錄在索引資料庫裡面。 除了上面提到的這幾點資訊以外,Google 肯定還索引了其它東西,但很多東西是我們不知道的,這些被用來索引的東西,通常也可以視為 SEO 排名要素(Ranking factors)。 Google 排名 當你的某個頁面網址被索引之後,基本上就已經可以出現在 Google 搜尋引擎裡面並加入排名了。Google 號稱有兩百多條 SEO 排名要素,這200 多條排名要素都會在整個 SEO 關鍵字排名中起到一定程度的作用,有些影響作用很大(例如反向連結),有些影響作用比較小(例如關鍵字出現在 URL 網址裡)。 Google 搜尋引擎的運作原理 從上面你應該已經了解到,Google 搜尋引擎的運作原理,基本上就是四個階段:網址被找到、網址被爬取、網址被索引跟網址被排名。簡單的講,Google 搜尋引擎的運作原理有這四個階段。 網址被找到 爬取(又稱檢索) 索引(又稱收錄) 排名 從事 SEO 工作的人必須非常了解這四個階段的各種 SEO 細節,你才能從中找到一些問題,例如以下幾個重點: 一個網址如果遲遲沒有被檢索,那會是什麼原因? 一個網址如果遲遲沒有被索引,那會是什麼原因? 關於 Google 搜尋引擎的運作原理,其實 Matt Cutts 在 Youtube 網站上有一段影片,講解的非常清楚,這段影片建議一定要看。Matt Cutts 的這段影片清楚的解釋了:Google 爬取、索引跟排名的過程。 在 Google 搜尋引擎的關鍵字排名的過程中,除了參考 Google 索引中的資料,另外還有 Pagerank 跟 200 多條 SEO 排名要素(注意:Google 索引中的資料,有些本身就是排名要素)。 Google 爬取、索引、排名 除了上面這隻影片之外, Matt Cutts 在另外一隻影片,也提到了 Google 搜尋引擎的運作方式,下面這隻影片也建議一定要看,你會對 Google 搜尋引擎的運作原理與搜尋引擎排名有更深的理解。 Google 搜尋引擎的運作方式 Google 正向索引與倒序索引 在 Google 的「索引」過程當中,有件事特別重要,那就是「正向索引」跟「倒序索引」,如果不是具有理工背景的人,可能很難理解這兩個概念。 下面分別解釋 Google 索引中的正向索引與倒序索引。 正向索引 每個網址都被指派一個獨一無二的 DocID,這個資料表中儲存著該網頁的重要關鍵字。 倒序索引 Google 透過正向索引的資料,改變其索引方式,換成以關鍵字為鍵值的資料表,每個資料列都有一個 KeywordID,每個 KeywordID 裡面包含著重要的網址(DocID)。 當使用者在 Google 搜尋關鍵字的時候,Google 會去調用倒序索引裡面的資料,這樣查詢速度才會快,因為如果使用正向索引資料表,這樣查詢會變得超級慢,因為網路上有上百億個網頁,這計算時間實在太過龐大,這也是為什麼原本的正向索引必須改成倒序索引的原因。 正向索引與倒序索引 什麼是爬取預算? 爬取預算是 Googlebot 在離開你的網站之前,會在你的網站上抓取的平均網址數。如果你的網站上的網址很多,那麼你可以優化你的爬取預算。 你可以將不重要的頁面,以及不想要被 Google 索引的頁面加入到 robots.txt 裡面,這樣就可以節省一點爬取預算。除此之外,你還可以優化網頁結構、提升網站速度…等等。 Google 搜尋引擎排名如何決定? 當使用者在 Google 搜尋引擎裡面輸入關鍵字之後,Google 就會去調用倒序索引裡面的資料,找到符合關鍵字的資料列,然後進行比對,只要同時出現在「搜尋字串」裡面的 DocID,就可能是最相關頁面。 除了調用倒序索引資料表之外,另外還要加上 Pagerank 跟 200 多條 SEO 排名要素,最後就會得出最相關頁面的 SEO 分數,最高分的就會排名第一。 關於 Google 如何決定搜尋引擎排名,其實在上面 Matt Cutts 講解 Google 檢索、索引跟排名的那隻影片裡,已經有非常清楚的講解。 Google 爬取、索引、排名 常見問題 哪些因素會影響到 Google 爬取? 每個網站有它自己的爬取預算,網站權重越大,會有更多的爬取預算。另外 robots.txt 裡面如果有禁制爬取的網址也會影響到。 那些因素會影響到 Google 索引? 如果一個網址無法被索引,通常可能是該網頁有 noindex 的 Meta 中繼標記,這一點要先確認。另外網址不宜埋得太深,網頁結構盡量要做優化。除此之外, Sitemap 裡也要將你想索引的頁面通通加入,讓 Google 能更快找到新網址。 Google 搜尋引擎檢索、索引、排名 觀念總整理 1.Google 搜尋引擎的運作原理包含四個階段:找到網址、檢索網址、索引網址,最後才是進行關鍵字排名。 2.SEO 人應該要清楚了解 Google 搜尋引擎的運作原理,如果發生網址無法檢索或是無法索引,必須知道原因可能出在哪。 3.Google 對關鍵字進行排名時,會調用的資料是倒序索引,而非正向索引,此外再加上 Pagerank 跟 兩百多條 SEO 排名要素,最後每個網頁就會得出一個分數,分數最高者排第一。 其他人正在看 SEO 搜尋引擎優化 2024 教學指南!SEO 是什麼?怎麼做?搞懂 SEO 意思 熊貓演算法是什麼?Google Panda 11條內容品質原則!2024 SEO 教學 Google 收錄怎麼看?3個快速查看網頁索引是否正常的方法! SEO 中的四處一詞是什麼?對搜尋結果排名真的有用嗎?教學 10個可以立即用上的 SEO 優化實務技巧 Google Search Console 教學:驗證安裝與 2024 完整教學指南 SEO 職位有哪些?全職 SEO 工作項目與職位要求!完整詳解 Google 抓取Google 排名google 搜尋引擎原理Google 搜尋引擎工作原理Google 檢索Google 爬取Google 索引SEOSEO 排名SEO 檢索SEO 爬取SEO 索引seo 關鍵字排名搜尋 引擎 原理搜尋引擎工作原理搜尋引擎排名檢索爬取索引網站搜尋排名 相關文章 10個可以立即用上的 SEO 優化實務技巧 SEO 職位有哪些?全職 SEO 工作項目與職位要求!完整詳解 Google 收錄怎麼看?3個快速查看網頁索引是否正常的方法! SEO 中的四處一詞是什麼?對搜尋結果排名真的有用嗎?教學 SEO 搜尋引擎優化 2024 教學指南!SEO 是什麼?怎麼做?搞懂 SEO 意思 Google Search Console 教學:驗證安裝與 2024 完整教學指南 熊貓演算法是什麼?Google Panda 11條內容品質原則!2024 SEO 教學