我們專注于SEO網(wǎng)站搜索引擎優(yōu)化
很多SEO人員并沒有真正理解爬行、抓取、索引、收錄這些概念到底指的是什么、區(qū)別在哪,以及noindex、nofollow、robots文件的實質(zhì)功能又是什么。對這些概念沒有精準(zhǔn)理解,處理大型網(wǎng)站結(jié)構(gòu),決定什么頁面需要被抓取,什么頁面需要被索引,哪些頁面需要禁止抓取、素引等情況時,就很難明白SEO該怎么做。所以,這里先來弄清楚這些概念的意義。
1.爬行
爬行指的是搜索引擎蜘蛛從己知頁面上解析出鏈接指向的URL,也就是沿著鏈接發(fā)現(xiàn)新頁面(鏈按指向的URL)的過程。當(dāng)然,蜘蛛并不是發(fā)現(xiàn)新URI就馬上爬過去抓取新頁面,而是把發(fā)現(xiàn)的URL存放到待抓地址庫中,按照一定順序從地址庫中提取要抓取的URL。
2.抓取
抓取是指搜索引擎蜘蛛從待抓地址庫中提取要抓的URL,訪問這個URL,把讀取的HTML代碼存入數(shù)據(jù)庫的過程。蜘蛛抓取就是像瀏覽器一樣打開這個頁面,過程和用戶瀏覽器訪問一樣,也會在服務(wù)器原始日志中留下記錄。
3.索引
索引的英文是index,指的是將一個URL的信息進行整理,并存入數(shù)據(jù)庫,也就是素引庫。用戶搜索時,搜索引擎從素引庫中提取URL信息并排序展現(xiàn)出來。索引庫是用于搜索的,被索引的URL是可以被用戶搜索到的,沒有被索引的URI,用戶在搜索結(jié)果中是看不到的。
要注意的是,所謂“一個URL的信息”,并不限于蜘蛛從URL上抓取來的內(nèi)容,還有來自其他來源的信息,如外部鏈接、鏈接的描文字等。有的時候,索引庫中關(guān)于這個URL的信息,根本沒有從這個URL抓取來的內(nèi)容,但搜索引擎知道這個URL的存在,并且存在一些其他信息。
4.收錄
我個人覺得收錄和索引沒有區(qū)別,在這里是混用的。只不過收錄是從站長角度看的,搜索時能找到這個URI,就是這個URL被收錄了。從搜索引擎角度看,URL被收錄了,也就是這個URL的信息在索引庫中存在了。英文中并沒有收錄這個詞,它和索引使用的是同一個詞index。
有的時候,站長并不希望某些頁面被收錄(或者說被素引),如復(fù)制內(nèi)容頁面。網(wǎng)站上不出現(xiàn)鏈接,或者使用JavaSoript鏈按,使用nofollow等方法都不能保證頁面一定不被收錄。站長自己雖然沒有鏈按到不想被收錄的頁面,其他網(wǎng)站可能由于某種原因鏈接到這個頁面,導(dǎo)致頁面被抓取和收錄。
有的時候,站長也不希望某些頁面被抓取,如付費內(nèi)容、還在測試階段的網(wǎng)站等。還有一種很常見的情況,搜索引擎抓取了大量漢有意義的頁面,如電子商務(wù)網(wǎng)站按各種條件過調(diào)、飾選的頁面,各種排序、排版格式的頁面,這些貝面數(shù)量龐大,抓取過去會消耗掉搜索引擎分配給這不網(wǎng)站的抓取份額,造成真正有意義的頁面反倒不能被抓取和收錄的情況。如果通過檢在日志文什發(fā)現(xiàn)這些無意義頁面被反復(fù)大量抓取,想要收錄的頁面根本沒有抓取,那就應(yīng)該直接禁止抓取無意義的頁面。
要確保頁面不被抓取,需要使用robots文件,要確保頁面不被收錄,需要使用noindex meta robots標(biāo)簽。
北京愛品特SEO網(wǎng)站優(yōu)化提供專業(yè)的網(wǎng)站SEO診斷服務(wù)、SEO顧問服務(wù)、SEO外包服務(wù),咨詢電話或微信:13811777897 袁先生 可免費獲取SEO網(wǎng)站診斷報告。
北京網(wǎng)站優(yōu)化公司 >> SEO資訊 >> SEO技術(shù)技巧 >> 爬行、抓取、索引、收錄到底是什么意思有什么區(qū)別 本站部分內(nèi)容來源于互聯(lián)網(wǎng),如有版權(quán)糾紛或者違規(guī)問題,請聯(lián)系我們刪除,謝謝!
售后響應(yīng)及時
全國7×24小時客服熱線數(shù)據(jù)備份
更安全、更高效、更穩(wěn)定價格公道精準(zhǔn)
項目經(jīng)理精準(zhǔn)報價不弄虛作假合作無風(fēng)險
重合同講信譽,無效全額退款加微信1v1咨詢
13811777897