Google 檢索、索引、搜尋引擎排名與原理!2022 教學

by 貓熊先生
Google 檢索、索引、搜尋引擎排名與原理
Google 檢索、索引、搜尋引擎排名與原理

Google SEO 中的爬取、索引跟搜尋引擎排名,分別是什麼意思呢?在學習 SEO 之前,必定要先了解一下 Google 搜尋引擎的運作方式。從你的網站文章發布的那一瞬間,你的文章網址會經歷:被找到、被爬取(檢索)、被索引,然後才能出現在 Google 搜尋引擎裡面並且加入 Google 搜尋結果的排名。上面的這個過程,從網址被找到,一直到被爬取跟索引,然後再到開始在 Google 搜尋引擎排名,這就是 Google 搜尋引擎的運作方式

了解 Google 搜尋引擎的運作方式非常重要,因為 Google 在檢索、索引到搜尋引擎排名的過程當中,有非常多的 SEO 知識在裡面。例如 Google 檢索時是檢索哪些東西?Google 索引時是索引哪些東西?當你的文章開始加入 Google 搜尋引擎排名,文章的初始排名是怎麼決定的?這中間隱含大量的 SEO 知識跟排名要素(Ranking factors)在裡面。

推薦閱讀:SEO 搜尋引擎優化學習指南!SEO 是什麼?SEO 怎麼做?

如果你還不知道 SEO 中的爬取、索引跟排名的整個過程以及運作方式,本篇文章會做一個完整的介紹,讓你了解 Google 搜尋引擎的基本運作原理

Google 搜尋引擎的爬取、索引跟排名,是什麼?

當一個新的網址出現的時候,它一定會經歷「被找到」的過程,所以雖然我們可以將 Google 搜尋引擎的運作方式分成:檢索(爬取)、索引跟排名,但其實前面還有一個「找到」網址的過程。

這裡將網址被找到、爬取(檢索)、索引跟排名,簡單說明如下。

Google 找到網址

當一個新頁面出現時,Google 的爬蟲必然會先找到該網址,並且將該網址加入網址庫,然後比對一下網址庫裡面是不是有這條網址,如果確認是新的網址,就會安爬時間去檢索(爬取)。

Google Search Console 裡面的「涵蓋範圍」功能當中,你也可以清楚看到一條網址它的「發現方式」,可能是從你提交的 Sitemap 當中發現的,也有可能是從別的網址找到你這條連結的。

Google 找到網址
Google 找到網址

Google 爬取(檢索)

當有新的網址出現在 Google 資料庫中的網址庫之後,就會安排時間去檢索,其實「檢索」是官方的名稱,貓熊先生也比較喜歡用「檢索」這個詞,不過在 SEO 界裡,檢索很常被稱作「爬取」,你只要知道它們指的都是 Crawl 就可以了。無論是爬取還是檢索,都是指 Crawl 。

在 Google search Console 裡面的「涵蓋範圍」功能,你也可以很清楚的看到關於「檢索」的訊息。下面有兩個重要的觀念:

是否允許檢索:如果顯示「否」,那麼該網址可能是出現在 robots.txt,也就是網站主在 robots.txt 這個檔案當中不允許檢索這條網址。

是否允許編入索引:如果顯示「否」,代表該網址很可能有 noindex 中繼標記,所以才會出現不允許給頁面被索引的訊息。

這裡特別說明:robots.txt 是用來告訴搜尋引擎不要爬取特定頁面,而 noindex 則是用來告訴搜尋引擎不要索引特定頁面。

Google 爬取(檢索)
Google 爬取(檢索)

當爬蟲程式爬取了你的頁面之後,會將整個網頁的資訊壓縮並存入資料庫裡面,在「檢索」階段,Google 存入資料庫的訊息就像是使用者打開瀏覽器時得到的 HTML 網頁,一直要到「索引」階段,才會將檢索的資料去蕪存菁,只索引重要的資訊。

Google 索引

Google 在索引階段要處理的東西很多,因為 Google 不可能將你網頁上全部的 HTML 原始碼,或是各種文字都存入資料庫,這樣資料庫會變得過於龐大而沒有效益,所以 Google 「索引」階段肯定只會索引重要的東西,而這些東西會影響你這個網址之後在某個「關鍵字」的排名。

那麼,Google 到底索引了哪些東西?常見的會被索引的資訊包含如下:

1.重要的關鍵字

Google 是如何提取頁面中的關鍵字,這個只有 Google 內部人員才知道,通常提取的關鍵字可能也有10個以上,而且每個被提取出來的關鍵字,其權重加總之後通常不一樣。

唯一可以肯定的是,頁面中的 Meta title、H1、H2 肯定是重點。這也是為什麼很多 SEO 人都強調關鍵字要出現在標題或是H2 裡面的重要性。

2.連結與錨文字

頁面中的連結與錨點文字也是會被索引的東西。

3.圖片 Alt text

圖片當中的 alt text ,也是會被提取的文字。

4.關鍵字的文字大小(font-size)

根據 Google 的 Pagerank 原始文件,有特別提到,Google 會提取關鍵字大約的文字大小,文字越大通常重要性也越高。

5.文章中的粗體字

粗體字通常是<strong>或是<b>這樣的標籤,粗體字也會是被記錄的資訊。

6.關鍵字在頁面中的位置

關鍵字出現在頁面中的位置,也是會被記錄在索引資料庫裡面。

除了上面提到的這幾點資訊以外,Google 肯定還索引了其它東西,但很多東西是我們不知道的,這些被用來索引的東西,通常也可以視為 SEO 排名要素(Ranking factors)。

Google 排名

當你的某個頁面網址被索引之後,基本上就已經可以出現在 Google 搜尋引擎裡面並加入排名了。Google 號稱有兩百多條 SEO 排名要素,這200 多條排名要素都會在整個 SEO 關鍵字排名中起到一定程度的作用,有些影響作用很大(例如反向連結),有些影響作用比較小(例如關鍵字出現在 URL 網址裡)。

Google 搜尋引擎的運作原理

從上面你應該已經了解到,Google 搜尋引擎的運作原理,基本上就是四個階段:網址被找到、網址被爬取、網址被索引跟網址被排名。簡單的講,Google 搜尋引擎的運作原理有這四個階段。

  • 網址被找到
  • 爬取(又稱檢索)
  • 索引(又稱收錄)
  • 排名

從事 SEO 工作的人必須非常了解這四個階段的各種 SEO 細節,你才能從中找到一些問題,例如以下幾個重點:

  • 一個網址如果遲遲沒有被檢索,那會是什麼原因?
  • 一個網址如果遲遲沒有被索引,那會是什麼原因?

關於 Google 搜尋引擎的運作原理,其實 Matt Cutts 在 Youtube 網站上有一段影片,講解的非常清楚,這段影片建議一定要看。Matt Cutts 的這段影片清楚的解釋了:Google 爬取、索引跟排名的過程。

在 Google 搜尋引擎的關鍵字排名的過程中,除了參考 Google 索引中的資料,另外還有 Pagerank 跟 200 多條 SEO 排名要素(注意:Google 索引中的資料,有些本身就是排名要素)。

Google 爬取、索引、排名

除了上面這隻影片之外, Matt Cutts 在另外一隻影片,也提到了 Google 搜尋引擎的運作方式,下面這隻影片也建議一定要看,你會對 Google 搜尋引擎的運作原理與搜尋引擎排名有更深的理解。

Google 搜尋引擎的運作方式

Google 正向索引與倒序索引

Google 的「索引」過程當中,有件事特別重要,那就是「正向索引」跟「倒序索引」,如果不是具有理工背景的人,可能很難理解這兩個概念。

下面分別解釋 Google 索引中的正向索引與倒序索引。

正向索引

每個網址都被指派一個獨一無二的 DocID,這個資料表中儲存著該網頁的重要關鍵字。

倒序索引

Google 透過正向索引的資料,改變其索引方式,換成以關鍵字為鍵值的資料表,每個資料列都有一個 KeywordID,每個 KeywordID 裡面包含著重要的網址(DocID)。

當使用者在 Google 搜尋關鍵字的時候,Google 會去調用倒序索引裡面的資料,這樣查詢速度才會快,因為如果使用正向索引資料表,這樣查詢會變得超級慢,因為網路上有上百億個網頁,這計算時間實在太過龐大,這也是為什麼原本的正向索引必須改成倒序索引的原因。

Google 正向索引與倒序索引
正向索引與倒序索引

什麼是爬取預算?

爬取預算是 Googlebot 在離開你的網站之前,會在你的網站上抓取的平均網址數。如果你的網站上的網址很多,那麼你可以優化你的爬取預算。

你可以將不重要的頁面,以及不想要被 Google 索引的頁面加入到 robots.txt 裡面,這樣就可以節省一點爬取預算。除此之外,你還可以優化網頁結構、提升網站速度…等等。

Google 搜尋引擎排名如何決定?

當使用者在 Google 搜尋引擎裡面輸入關鍵字之後,Google 就會去調用倒序索引裡面的資料,找到符合關鍵字的資料列,然後進行比對,只要同時出現在「搜尋字串」裡面的 DocID,就可能是最相關頁面。

除了調用倒序索引資料表之外,另外還要加上 Pagerank 跟 200 多條 SEO 排名要素,最後就會得出最相關頁面的 SEO 分數,最高分的就會排名第一。

關於 Google 如何決定搜尋引擎排名,其實在上面 Matt Cutts 講解 Google 檢索、索引跟排名的那隻影片裡,已經有非常清楚的講解。

Google 爬取、索引、排名 常見問題

哪些因素會影響到 Google 爬取?

每個網站有它自己的爬取預算,網站權重越大,會有更多的爬取預算。另外 robots.txt 裡面如果有禁制爬取的網址也會影響到。

那些因素會影響到 Google 索引?

如果一個網址無法被索引,通常可能是該網頁有 noindex 的 Meta 中繼標記,這一點要先確認。另外網址不宜埋得太深,網頁結構盡量要做優化。除此之外, Sitemap 裡也要將你想索引的頁面通通加入,讓 Google 能更快找到新網址。

Google 搜尋引擎檢索、索引、排名 觀念總整理

1.Google 搜尋引擎的運作原理包含四個階段:找到網址、檢索網址、索引網址,最後才是進行關鍵字排名。

2.SEO 人應該要清楚了解 Google 搜尋引擎的運作原理,如果發生網址無法檢索或是無法索引,必須知道原因可能出在哪。

3.Google 對關鍵字進行排名時,會調用的資料是倒序索引,而非正向索引,此外再加上 Pagerank 跟 兩百多條 SEO 排名要素,最後每個網頁就會得出一個分數,分數最高者排第一。

相關文章