你是如何去學(xué)習(xí)做SEO優(yōu)化的呢?入門第一步是什么還記得嗎?是不是去買一本關(guān)于“seo優(yōu)化”的書籍去看,發(fā)現(xiàn)一開始就會講到的基礎(chǔ)概念,讓你云里霧里,想要強記下來發(fā)現(xiàn)完全不能理解?
大多數(shù)沒人帶想自學(xué)的朋友都會有這樣一個痛苦的開始。而來智優(yōu)營家的新人,我們一般都是安排這些新人從寫文章開始,先寫再講概念,培訓(xùn)的時候也會多次提到這些概念結(jié)合優(yōu)化技巧來講。再翻基礎(chǔ)書籍的時候,才會清楚里面講的究竟是些什么,而且你會發(fā)現(xiàn),不同的階段看同一本書,感受會完全不一樣,這就是“溫故而知新”了。
但在這期間也會有新人不按常理出牌,覺得我會這些技巧就行了,為什么還要去理解概念呢?
原因很簡單,概念是技巧描述的總結(jié)和濃縮,它的一個字或兩個字就會代表一個操作。現(xiàn)在您問身邊的優(yōu)化人員,爬行是什么?抓取是什么?索引是什么?收錄是什么?他能描述的清楚嗎?
當(dāng)然,并不是說說不清楚就代表他優(yōu)化能力不行,而是他的“輸出”能力不行,也就是不會總結(jié)。總結(jié)的越精辟也代表他對這塊業(yè)務(wù)的理解更深刻。那么今天,智優(yōu)營家就帶你來重溫這些基礎(chǔ)概念,希望能給初學(xué)者和沒有“輸出”想法的朋友提個醒。
爬行是什么?
爬行指的是搜索引擎蜘蛛從已知頁面上解析出鏈接指向的URL,然后沿著鏈接發(fā)現(xiàn)新頁面(也就是鏈接指向的URL)的過程。當(dāng)然,蜘蛛并不是發(fā)現(xiàn)新URL馬上就爬過去抓取新頁面,而是把發(fā)現(xiàn)的URL存放到待抓地址庫中,蜘蛛按照一定順序從地址庫中提取要抓取的URL。
抓取是什么?
抓取是搜索引擎蜘蛛從待抓地址庫中提取要抓的URL,訪問這個URL,把讀取的HTML代碼存入數(shù)據(jù)庫。蜘蛛的抓取就是像瀏覽器一樣打開這個頁面,和用戶瀏覽器訪問一樣,也會在服務(wù)器原始日志中留下記錄。
索引是什么?
索引指的是將一個URL的信息進行整理,存入數(shù)據(jù)庫,也就是索引庫,用戶搜索時,搜索引擎從索引庫中提取URL信息并排序展現(xiàn)出來。
收錄是什么?
從搜索引擎角度看,URL被收錄了,也就是這個URL的信息在索引庫中存在。
沒有被抓取的頁面是可以被索引的
也就是說,蜘蛛沒有訪問和抓取這個頁面(比如被robots文件禁止抓取),這個頁面卻有信息存在索引庫中,用戶搜索時還能看到。
比如,淘寶整個網(wǎng)站用robots文件禁止百度蜘蛛抓取,但沒有用noindex禁止索引,所以即使百度沒有訪問和抓取淘寶頁面,但淘寶很多頁面是被百度索引的,用戶可以搜到的:
百度從網(wǎng)上那么多鏈接知道淘寶首頁的存在,通過鏈接的錨文字也知道這個頁面標題大概是淘寶之類的,當(dāng)然更知道百度口碑里的評價數(shù)。所以即使百度蜘蛛沒有抓取淘寶首頁,用戶還是能搜到,并且顯示一些百度知道的信息。
要想百度不能返回淘寶首頁該怎么辦呢?取消robots文件的禁止抓取,頁面上用noindex禁止索引。
被抓取的頁面是可以不被索引的
最常見的就是上面說過的,頁面頭信息使用noindex禁止索引,頁面被抓取,讀到noindex后,不被索引,不會在搜索結(jié)果中返回。老頁面新加noindex也不是馬上刪除索引,還會保留索引一段時間,但不會返回在搜索結(jié)果中。
加了noindex的頁面上的鏈接是可以被跟蹤一段時間的,但時間長了,有noindex的頁面搜索引擎可能就不再抓取和索引了,上面的鏈接也就無效了。
還有可能是因為頁面內(nèi)容是抄襲、轉(zhuǎn)載、低質(zhì)量的,搜索引擎雖然抓取了頁面,索引過程中檢測出這些內(nèi)容問題,被丟棄,沒有被索引。所以頁面沒有被收錄,通常要先檢查原始日志,看看是否被抓取過,如果被抓取過,可能是內(nèi)容質(zhì)量問題,如果根本沒被抓取,建議先看看網(wǎng)站結(jié)構(gòu)是否有問題。
說了這么多,是不是暈了?別暈別暈,這些對于你做seo優(yōu)化的時候會有很多幫助的,不要以為一個概念是句廢話,實際上是經(jīng)過前人不停試驗出的總結(jié),最難的是那些沒有定義的地方,你無法判定是對是錯。
好了,今天的小結(jié)就在這了,明天我們詳解一下收錄和索引對優(yōu)化的影響,敬請期待吧~