在正式學習SEO之前,你還需要學習一下搜索引擎的工作原理,畢竟SEO是針對搜索引擎進行操作的,那么弄明白搜索引擎的工作原理,那么遇到一些問題的時候,你就可以知道問題產生的原因了。一個搜索引擎,一般由下面幾個模塊組成:
1、抓取模塊
2、過濾模塊
3、收錄模塊
4、排序模塊
抓取模塊
搜索引擎在運作的時候,第一個工作就是要去互聯網上面抓取頁面,而實現這個工作的模塊,我們稱為抓取模塊。學習抓取模塊,我們需要先了解下面幾個知識點:
1、搜索引擎抓取程序:蜘蛛
搜索引擎為了可以自動抓取互聯網上面數以萬計的網頁,必須有一個全自動的頁面抓取程序。而這個程序我們一般稱之為“蜘蛛”(也可以叫做“機器人”)。那么不同的搜索引擎的蜘蛛,叫法也就不同了。百度的抓取程序,一般稱為百度蜘蛛。
谷歌的抓取程序,一般稱為谷歌機器人。
360的抓取程序,一般稱為360蜘蛛。
其實,不管叫做蜘蛛,還是機器人,你只要知道這個指的是搜索引擎的抓取程序,就可以了。蜘蛛的任務很簡單,就是順著鏈接不斷的抓取互聯網上,自己還沒有收錄過的網頁和鏈接,然后將抓取到的網頁信息和鏈接信息存儲到自己的網頁數據庫中。而這些抓取到的網頁,將有機會出現在最終的搜索結果中。
2、怎么讓蜘蛛來抓取我們的網站
通過上面對蜘蛛的解釋,我們能夠知道:要想自己的頁面最終出現在搜索結果中,首先得讓蜘蛛抓取到我們的網站。通過下面三種方法可以讓蜘蛛來抓取我們的網站
外部鏈接:我們可以在一些已經被搜索引擎收錄的網站上面發布自己網站的鏈接,以此吸引蜘蛛,或者交換友情鏈接也是一個常用的方法。
提交鏈接:百度為站長們提供了鏈接提交的工具,通過這個工具,我們只需要通過這個工具提交給百度,那么百度就會派出蜘蛛來抓取我們網頁了。
百度網址提交工具網址(如圖所示):
http://zhanzhang.baidu.com/linksubmit/URL
蜘蛛自己來抓取:如果你希望蜘蛛能夠定期主動來自己的網站抓取網頁,那么你就必須提供優質的網站內容。只有蜘蛛發現你的網站的內容質量很好,那么蜘蛛就會特別關照你的網站,定時會來你的網站看看是不是新的內容產生。如何才能夠確保自己的網站能夠提供優勢的內容,這個話題我們在之后的章節再做闡述。
3、怎么知道蜘蛛來過我們網站
通過下面2個方式可以知道蜘蛛是否來過我們的網站。
(1)百度抓取頻次工具
該工具網址為:http://zhanzhang.baidu.com/pressure/index
(2)服務器IIS日志
如果你的服務器開啟了IIS日志功能,那么也可以通過IIS日志文件看到蜘蛛來過的痕跡。通過IIS日志我們可以發現百度蜘蛛抓取我們那些頁面。
4、影響蜘蛛抓取的因素
好了,我們知道了網站想要有排名,第一步就是必須能夠被蜘蛛抓取到。那么那些因素有可能造成蜘蛛無法正常抓取我們網頁呢,我們應該注意下面幾個要點:
(1)網址不能過長:百度建議網址的長度不要超過256個字節(一個英文字母(不分大小寫))占一個字節的空間,一個中文漢字占兩個字節的空間)。
(2)網址中不要包含中文:百度對于中文網址的抓取效果都是比較差的,所以在網址內千萬不要帶有中文。
(3)服務器問題:如果你的服務器質量太差,總是打不開,那么也會影響蜘蛛的抓取效果。
(4)Robots.txt屏蔽:有的SEO人員由于疏忽。在Robots.txt文件里面屏蔽了想要被百度抓取的路徑或者頁面。這也會影響到百度對于我們網站的抓取效果。
(5)避免出現蜘蛛難以解析的字符,比如/abc/123456;;;;;;;%B9&CE%EDDS$GHWF%.html這種URL蜘蛛無法理解會放棄抓取。
(6)注意動態參數不要太多太復雜,目前百度對動態URL已經有了很好的處理,但是參數過多且復雜的url有可能被蜘蛛認為不重要而拋棄。這點尤為重要,一定注意。
過濾模塊
由于互聯網上充斥著大量的垃圾頁面和無內容頁面,而這些頁面不管對于搜索引擎,還是搜索用戶來說,都是不需要的。所以搜索搜索引擎為了避免這些垃圾頁面占用自己寶貴的存儲資源,所以會對蜘蛛抓取回來的內容進行過濾。完成這個功能的模塊,我們就稱為過濾模塊。那么那些因素會影響到過濾模塊呢,有下面2點:
(1)識別
由于搜索引擎的蜘蛛目前最擅長的還是分析文字和鏈接,對于圖片和視頻的識別還是比較困難的。所以假如一個頁面主要都是圖片和視頻話,那么搜索引擎很難識別出該頁面的內容。而對于這種頁面,搜索引擎有可能當作垃圾網站進行過濾掉。所以,我們在編輯網站內容的時候,應該多添加一些文字描述,這樣才不容易被過濾模塊過濾掉。
(2)內容質量
在可以識別內容的基礎之上,搜索引擎還會將抓取到的網頁內容,與已經存到數據庫中的內容進行對比。如果搜索引擎發現你的頁面內容質量與數據庫中的內容大部分都是重復的,或者相比之下質量更差的話,那么這個頁面也會被過濾掉。
收錄模塊
將通過了過濾模塊“考核”的網頁,進行分詞、數據格式標準化,然后將其存儲到索引數據庫中程序模塊,我們稱之為收錄模塊。如果你的網站有幸通過收錄模塊,那么就有機會獲得排名了。
1、如何查看某個網頁是否被收錄
最簡單的辦法,就是把該網頁的網址復制到百度搜索框中進行搜索,如果能夠出現該頁面的搜索結果,那么就說明該網址已經被收錄了。
圖片
2、如何查看一個網站的收錄量
有2個方法:
(1)site命令
通過“site:域名”的命令,我們可以看到搜索引擎抓取了某個域名下的頁面收錄量:
圖片
(2)百度“索引量”查詢工具
通過百度官方提供的“索引量”查詢工具,也可以查詢到我們網站的收錄量。
收錄量少怎么辦?
這個分兩種情況:
(1)新站
一般來說,新站剛上線,起碼要1~2個月才會開始收錄。前期一般只是收錄一個首頁而已。對于這個情況,沒有別的辦法,因為百度為了防止**的泛濫,特地把新站的審核時間拉長。所以,如果你操作的是新站,那么收錄量少不用緊張,只要你老老實實的提供優質內容,那么2個月之后百度就會開始收錄你的內頁了。
(2)老站
有的老站會出現收錄量少,甚至是收錄量開始減少的時候。一般都是因為該網站的內頁內容質量太差導致的。
這個時候站長應該趕緊調整整站的內容質量,提供優質的內容才有可能確保自己的網站排名不會變動。
排序模塊
對存入索引數據庫中的頁面,通過一系列算法后得到每個頁面的權重,并且將其進行排序處理的程序,稱之為排序模塊。
如果你的頁面通過排序模塊的計算,排在了某個關鍵詞的前幾位的話,那么當搜索用戶搜索該關鍵詞的時候,你的頁面就可以展現在用戶的面前了。想要讓自己的網站能夠獲得良好的排名,需要做到下面2點:
1、完善基礎優化
想要獲得良好的排名,那么你的網頁首先要做好基礎優化,這包括網站定位、網站結構、網站布局、網站內容等幾個部分。這些基礎優化的內容,我們將在后面詳細闡述。只有把這些基礎部分完善優化好了,才算是及格了。
2、綜合數據良好
在基礎優化做好的基礎上,假如你的百度統計后臺數據表現良好,用戶的忠誠度以及站外推廣的效果顯著的話,就會在及格線上加分。只要你的加分超過了所有的競爭對手,那么你的網站就可以排在所有對手的前面了。
總結
本文為你講解了搜索引擎的工作原理,那么掌握這一原理對于你學習SEO有什么幫助呢?
幫助就在于當你遇到一些SEO技術問題的時候,可以通過搜索引擎的工作原理找到原因。
比如你是一個新站,做了1個月發現只收錄了首頁。這個時候你可以知道那是因為收錄模塊對于新站有一個考核期,所以這屬于正常現象。
有或者你發現自己網站的文章收錄正常,但是沒有排名,這個時候你就知道你的文章雖然被收錄模塊收錄了,但是由于基礎優化和綜合數據不夠良好,所以排序模塊沒有給出良好的排名。因此你可以知道接下來的工作應該是提升網站的內容質量。
所以,掌握搜索引擎的工作原理,對于我們學習SEO是至關重要的。
轉載請保留原文地址: http://wjs-design.cn/show-762.html