1、幾乎很多站都避免不了存在死鏈接,但死鏈率過高,會影響搜索引擎對網站的評分。
2、搜索引擎對每個網站每天抓取的頻次是限額的,若網站存在大量死鏈,會浪費掉抓取配額并影響正常頁面的抓取。
3、過多死鏈對網站用戶來講也是體驗不好的表現。
百度站長工具中有一個抓取異常,那么這個工具里面的異常數據是如何產生的呢?
1、網站內部添加了錯誤的內部鏈接
2、原來正常頁面因為程序或頁面調整或改版無法打開
因為程序的一個改動,導致了某些正常頁面無法打開。
3、網站短暫無法訪問
因為服務器、空間或程序問題導致網站無法訪問,抓取異常中會出現大量的500錯誤頁面。
4、外部鏈接錯誤
用戶或者站長在站外發布了錯誤URL,蜘蛛爬取后產生錯誤頁面;別的網站復制或采集了你們含有錯誤鏈接的頁面;有些垃圾網站自動生成的靜態搜索結果頁,如 www.100181.com/desc/3715714444.html 這個頁面中出現的很多鏈接在html前面有“...”。
5、爬蟲提取了不完整的URL
個別爬蟲在提取頁面URL的時候,只提取部分URL或者把正常的URL后面的文字或字符也提取進去了。
6、網站改版或管理員刪除頁面
網站改版過程中處理不當導致部分老頁面無法訪問,或者網站管理員刪除被黑、廣告、過時、被灌水頁面。
出現了上述情況,我們該如何去解決
1、修復錯誤頁面 抓取異常中的很多錯誤頁面是因為程序員大意或者我們程序問題導致的,本應該是正常頁面,因為失誤導致無法訪問,對于此類頁面,第一時間進行修復。
2、提交死鏈接 但必定很多錯誤頁面是本不應該存在的,那么我們要想辦法獲取此類頁面URL,獲取方式主要有三種:
(1) 百度站長工具--抓取異常--找不到的頁面--復制數據 [修正:此處死鏈不需我們提交了,百度站長工具自動提交死鏈];
(2) 管理員在刪除頁面的時候手動或者程序自動保存被刪頁面URL;
(3) 使用相關爬蟲軟件,爬取整站獲取死鏈,如Xenu 。
然后將上述數據合并并刪除重復項(excel表格中能實現刪重,wps表格更容易操作),然后再復制所有URL通過HTTP狀態批量查詢工具查詢下[這個不錯pl.soshoulu.com/webspeed.aspx],剔除掉非404返回碼頁面。
然后整理上面處理好的數據粘貼到網站根目錄中的一個文檔中,再把文檔地址提交到 百度站長工具--網頁抓取--死鏈提交--添加新數據--填寫死鏈文件地址。
3、在robots中屏蔽抓取
若大量的錯誤URL存在一定的規律,可以在robots文件中寫一個規則禁止蜘蛛程序抓取此類鏈接,但前提一定要照顧好正常頁面,避免屏蔽規則誤傷正常頁面,比如你的網站全部是靜態URL,那么如果錯誤鏈接中含有?的話,規則寫成Disallow:/*?*,如果錯誤鏈接中有/id...html 的話,規則寫成Disallow:/*...* 。
robots文件添加完規則后,一定要去百度站長的 robots工具 進行校驗,將指定的錯誤頁面放進去,看看是否封禁成功,再把正常的頁面放進去看看是否被誤封。
相關注意事項:
1、在百度站長工具中提交死鏈前,一定要確保提交的死鏈數據不存在活鏈接,或者存在HTTP狀態碼非404頁面。一旦存在活鏈,會顯示提交失敗導致無法刪除。
2、由于很多網站程序問題,很多打不開的頁面返回碼并非404,這是一個大問題,比如明明是打不開的頁面返回碼是301、200、500,如果是200的話,會導致網站中出現不同URL獲取相同內容。比如我的一個站,社區的帖子刪除后,返回碼卻是500,后期發現了,立馬進行了處理。大家盡量找出所有錯誤URL格式,.并設置打開后HTTP狀態碼為404。
3、把所有的錯誤頁面找到后,一定要尋找此類頁面URL相同特征,并且和正常頁面的特征有區分,寫對應規則到robots文件中,禁止蜘蛛抓取,就算你已經在站長工具中提交了死鏈,也建議robots封禁抓取。
4、robots只能解決蜘蛛不再抓取此類頁面,但解決不了已經抓取頁面的快照的刪除問題,若你的網站被黑,刪除了被黑頁面,除了robots封禁被黑頁面外,還應該將這些頁面提交死鏈。提交死鏈是刪除被黑頁面快照的最快辦法。
站長社區 版主ccutu
轉載請保留原文地址: http://wjs-design.cn/show-481.html