掃一掃關注
智優(yōu)營家微信公眾號!
您貼身的
網絡運營管家
來源:智優(yōu)營家 發(fā)布日期:2018-10-30 關注:807
SEO的你,首先該學什么呢?智優(yōu)營家seo團隊小霞在做SEO首先就了解搜索引擎工作流程:
(1)爬行抓取
①批量收集:對互聯(lián)網上存在鏈接的網頁收集一遍,一般需要耗時幾周左右;
②增量收集:在原有基礎上搜集新增加的網頁,更新上次收集完后有改變的頁面,刪除收集重復和不存在的網頁;
③自己提交:自己主動向搜索引擎提交網站,不建議這種方法,因為比較慢。
PS:搜索引擎蜘蛛是搜索引擎的一個自動程序,它的作用就是用來訪問互聯(lián)網上的網頁、圖片、視頻內容。
URL是搜索引擎的痕跡,看搜索引擎是否爬取過你的網站,就看服務器日志是否有該URL。
④搜索引擎蜘蛛爬行策略
搜索引擎蜘蛛主要是通過爬行頁面上的鏈接來收集新的頁面,不停的十字交叉爬行下去便形成一張蜘蛛網。
Ⅰ深度優(yōu)先爬行(A-B-E-A-C-F-H-A-D-G-H)
Ⅱ廣度優(yōu)先爬行(A-B-C-D-E-F-G-H)(最常用的方式,所以很多SEO優(yōu)化人員會通過網站地圖放上網站的所有鏈接)
PS:搜索引擎蜘蛛訪問層數設置成3的話,H網頁將不會被收集到,所以網站結構的扁平化很重要。
⑤搜索引擎蜘蛛如何避免重復收集
Ⅰ造成重復收集的原因:
蜘蛛沒有記錄訪問過的URL;一個頁面由多個域名指向導致。
Ⅱ解決辦法:搜索引擎建立了兩個表:已訪問表、未訪問表。
⑥搜索引擎蜘蛛是如何判斷網頁重不重要
Ⅰ網頁目錄越小越好用戶看著體驗好;
Ⅱ原創(chuàng)性內容多,好的,重要性越高;
Ⅲ更新度一個有價值的網站每天都會有更新,用戶天天來看,來玩兒;
Ⅳ高質量相關鏈接導入:一個權重高的,高質量的網頁愿意外鏈接到你的網站,那證明你的網站質量也很好。
(2)預處理
①關鍵詞提取
搜索引擎蜘蛛抓取到的像大量的HTML代碼,Javascript,css,div標簽等,要去除,搜索引擎完全能識別的還是文字內容,所以關鍵詞提取是把不懂的標簽去掉,把文字留下來;
②去除停用詞
反復出現的像“得”、“的”、“地”、“啊”、“呀”、“再”等這些無用詞稱為停用詞,去除停用詞;
③分詞
Ⅰ基于統(tǒng)計的分詞方法
分詞詞典和收錄的網絡流行詞語是搜索引擎的依據,如:我要睡覺了,其他神馬都是浮云;
Ⅱ基于字符串匹配的分詞方法
例如設置分詞詞典最大數字是3,那下面這段話的分法:先提取前三個詞,我要睡,我要睡詞典了沒這個詞,把睡去掉,留下我要,我要詞典里也沒這個詞,把要去掉,留下我,再提取三個詞要睡覺,要睡覺詞典里沒這個詞,把覺去掉,留下要睡,要睡也沒這個詞,把睡去掉,留下要,再提取三個詞睡覺了,睡覺了詞典里也沒這個詞,把了去掉,睡覺詞典里有這個詞,留下睡覺,接下來的詞以此類推。
我要睡覺了,其他神馬都是浮云;
我、要、睡覺、了、其他、神馬、都是、浮云;
④消除噪聲
把網頁上各種廣告文字、廣告圖片、版權信息、登錄框等等這些信息去除掉;
⑤建立關鍵詞庫
提取完關鍵詞后,把頁面轉換為一個關鍵詞的組合,記錄每一個關鍵詞在頁面上出現頻率,出現次數,格式,位置;
⑥連接關系計算
搜索引擎事先要計算出頁面上有那些鏈接指向那些其他頁面,每個頁面由哪些導入鏈接,鏈接使用了什么錨文本等等;
⑦特殊文件處理
Flash,視頻,圖片等無法直接讀懂。
(3)服務輸出
搜索引擎有自己相關的排名機制,主要根據網頁的相關度、關鍵字的密度、網站的權重等,來決定輸出的內容排名先后(付費推廣的永遠排在前面幾條)。
智優(yōu)營家seo團隊小霞推薦閱讀《企業(yè)對于SEO優(yōu)化的需要》