国产欧美日韩第一页|日本一二三不卡视频|在线精品小视频,亚洲第一免费播放区,metcn人体亚洲一区,亚洲精品午夜视频

幫助中心 >  技術(shù)知識庫 >  網(wǎng)站相關(guān) >  網(wǎng)站運營(yíng) >  如何讓搜索引擎(百度)更好地收錄網(wǎng)站內容

如何讓搜索引擎(百度)更好地收錄網(wǎng)站內容

2016-05-23 09:42:48 8165

機器可讀

百度通過(guò)一個(gè)叫做Baiduspider的程序抓取互聯(lián)網(wǎng)上的網(wǎng)頁(yè),經(jīng)過(guò)處理后建入索引中。目前Baiduspider只能讀懂文本內容,flash、圖片等非文本內容暫時(shí)不能處理,放置在flash、圖片中的文字,百度無(wú)法識別。

建議使用文字而不是flash、圖片、Javascript等來(lái)顯示重要的內容或鏈接,搜索引擎暫時(shí)無(wú)法識別Flash、圖片、Javascript中的內容,這部分內容無(wú)法搜索到;僅在flash、Javascript中包含鏈接指向的網(wǎng)頁(yè),百度可能無(wú)法收錄。

建議:

  • 使用文字而不是flash、圖? 片、Javascript等來(lái)顯示重要的內容或鏈接。

  • 如果必須使用Flash制作網(wǎng)頁(yè),建議同時(shí)制作一個(gè)供搜索引擎收錄的文字版,并在首頁(yè)使用文本鏈接指向文字版。

  • Ajax等搜索引擎不能識別的技術(shù),只用在需要用戶(hù)交互的地方,不把希望搜索引擎“看”到的導航及正文內容放到Ajax中。

  • 不使用frame和iframe框架結構,通過(guò)iframe顯示的內容可能會(huì )被百度丟棄。

網(wǎng)站結構

網(wǎng)站應該有清晰的結構和明晰的導航,這能幫助用戶(hù)快速從你的網(wǎng)站中找到自己需要的內容,也可以幫助搜索引擎快速理解網(wǎng)站中每一個(gè)網(wǎng)頁(yè)所處的結構層次。

網(wǎng)站結構建議采用樹(shù)型結構,樹(shù)型結構通常分為以下三個(gè)層次:首頁(yè)——頻道——文章頁(yè)。象一棵大樹(shù)一樣,首先有一個(gè)樹(shù)干(首頁(yè)),然后再是樹(shù)枝(頻道),最后是樹(shù)葉(普通內容頁(yè))。樹(shù)型結構的擴展性更強,網(wǎng)站內容變多時(shí),可以通過(guò)細分樹(shù)枝(頻道)來(lái)輕松應對。

理想的網(wǎng)站結構應該是更扁平一些,從首頁(yè)到內容頁(yè)的層次盡量少,這樣搜索引擎處理起來(lái),會(huì )更簡(jiǎn)單。

同時(shí),網(wǎng)站也應該是一個(gè)網(wǎng)狀結構,網(wǎng)站上每個(gè)網(wǎng)頁(yè)都應該有指向上、下級網(wǎng)頁(yè)以及相關(guān)內容的鏈接:首頁(yè)有到頻道頁(yè)的鏈接,頻道頁(yè)有到首頁(yè)和普通內容?的鏈接、普通內容頁(yè)有到上級頻道以及首頁(yè)的鏈接、內容相關(guān)的網(wǎng)頁(yè)間互相有鏈接。

網(wǎng)站中每一個(gè)網(wǎng)頁(yè),都應該是網(wǎng)站結構的一部分,都應該能通過(guò)其他網(wǎng)頁(yè)鏈接到。

總結一下,合理的網(wǎng)站結構應該是一個(gè)扁平的樹(shù)型網(wǎng)狀結構。

建議:

  • 確保每個(gè)頁(yè)面都可以通過(guò)至少一個(gè)文本鏈接到達。

  • 重要的內容,應該能從首頁(yè)或者網(wǎng)站結構中比較淺的層次訪(fǎng)問(wèn)到。

  • 合理分類(lèi)網(wǎng)站上的內容,不要過(guò)度細分。

網(wǎng)站應該有簡(jiǎn)明、清晰的導航,可以讓用戶(hù)快速找到自己需要的內容,同時(shí)也可以幫助搜索引擎更好的了解網(wǎng)站的結構。

建議:

  • 為每個(gè)頁(yè)面都加上導航欄,讓用戶(hù)可以方便的返回頻道、網(wǎng)站首頁(yè),也可以讓搜索引擎方便的定位網(wǎng)頁(yè)在網(wǎng)結構中的層次。

  • 內容較多的網(wǎng)站,建議使用面包屑式的導航,這更容易讓用戶(hù)理解當前所處的位置:網(wǎng)站首頁(yè) > 頻道 > 當前瀏覽頁(yè)面。通過(guò)面包屑導航,用戶(hù)可以很清楚的知道自己所在頁(yè)面在整個(gè)網(wǎng)站中的位置,可以方便的返回上一級頻道或者首頁(yè)也很方便。

  • 導航中使用文字鏈接,不使用復雜的js或者flash。

  • 使用圖片做導航時(shí),可以使用Alt注釋?zhuān)肁lt告訴搜索引擎所指向的網(wǎng)頁(yè)內容是什么。

子域名與目錄的選擇

選擇使用子域名還是目錄來(lái)合理的分配網(wǎng)站內容,對網(wǎng)站在搜索引擎中的表現會(huì )有較大的影響。

1. 在某個(gè)頻道的內容沒(méi)有豐富到可以當做一個(gè)獨立站點(diǎn)存在之前,使用目錄形式;等頻道下積累了足夠的內容,再轉換成子域名的形式。

一個(gè)網(wǎng)頁(yè)能否排到搜索結果的前面,“出身”很重要,如果出自一個(gè)站點(diǎn)權重較高的網(wǎng)站,那排到前面的可能性就越大,反之則越小。通常情況下主站點(diǎn)的權重是最高的,子站點(diǎn)會(huì )從主站點(diǎn)繼承一部分權重,繼承的多少,視子站點(diǎn)質(zhì)量而定。

在內容沒(méi)有豐富到可以做為一個(gè)獨立站點(diǎn)之前,內容放到主站點(diǎn)下一個(gè)目錄中能在搜索引擎中獲得更好的表現。

2. 內容差異度較大、關(guān)聯(lián)度不高的內容,使用子站點(diǎn)形式。

搜索引擎會(huì )識別站點(diǎn)的主題,如果站點(diǎn)中內容關(guān)聯(lián)度不高,可能導致搜索引擎錯誤的識別。關(guān)聯(lián)度不高的內容,放在不同的子域名下,可以幫助搜索引擎更好的理解站點(diǎn)的主題。

3. 域名間內容做好權限,互相分開(kāi),a. example.com下的內容,不能通過(guò)b. example.com訪(fǎng)問(wèn)。

子域名間的內容可以互相訪(fǎng)問(wèn),可能會(huì )被搜索引擎當做重復內容而進(jìn)行除重處理,保留的url不一定是正常域名下的。

4. 不要濫用子域名。

無(wú)豐富內容而濫用大量子域名,會(huì )被搜索引擎當做作弊行為而受到懲罰。

規范、簡(jiǎn)單的url

創(chuàng )建具有良好描述性、規范、簡(jiǎn)單的url,有利于用戶(hù)更方便的記憶和判斷網(wǎng)頁(yè)的內容,也有利于搜索引擎更有效的抓取您的網(wǎng)站。網(wǎng)站設計之初,就應該有合理的url規劃。

1. 網(wǎng)站中同一網(wǎng)頁(yè),只對應一個(gè)url。如果網(wǎng)站上多種url都能訪(fǎng)問(wèn)同樣的內容,會(huì )有如下危險:

  • 搜索引擎會(huì )選一種url為標準,可能會(huì )和正版不同。

  • 用戶(hù)可能為同一網(wǎng)頁(yè)的不同url做推薦,多種url形式分散了該網(wǎng)頁(yè)的權重。

如果你的網(wǎng)站上已經(jīng)存在多種url形式,建議按以下方式處理:

  • 在系統中只使用正常形式url,不讓用戶(hù)接觸到非正常形式的url。

  • 不把Session id、統計代碼等不必要的內容放在url中。

  • 不同形式的url,301永久跳轉?正常形式。

  • 防止用戶(hù)輸錯而啟用的備用域名,301永久跳轉到主域名。

  • 使用robots.txt禁止 Baiduspider 抓取您不想向用戶(hù)展現的形式。

2. 讓用戶(hù)能從url判斷出網(wǎng)頁(yè)內容以及網(wǎng)站結構信息,并可以預測將要看到的內容。

3. URL盡量短。

長(cháng)長(cháng)的URL不僅不美觀(guān),用戶(hù)還很難從中獲取額外有用的信息。另一方面,短url還有助于減小頁(yè)面體積,加快網(wǎng)頁(yè)打開(kāi)速度,提升用戶(hù)體驗。

4. 正常的動(dòng)態(tài)url對搜索引擎沒(méi)有影響。

url是動(dòng)態(tài)還是靜態(tài)對搜索引擎沒(méi)有影響,但建議盡量?少動(dòng)態(tài)url中包含的變量參數,這樣即有助于減少u(mài)rl長(cháng)度,也可以減少讓搜索引擎掉入黑洞的風(fēng)險。

5. 不添加不能被系統自動(dòng)識別為url組成部分的字符。

改版/換域名

網(wǎng)站改版、換域名在互聯(lián)網(wǎng)飛速發(fā)展的情況下是不可避免的,但處理不當,會(huì )造成重大的流量損失。

改版、換域名需要考慮的第一要點(diǎn)就是如何保證老用戶(hù)不流失,當用戶(hù)訪(fǎng)問(wèn)舊內容時(shí),能引導用戶(hù)到新網(wǎng)站上對應的內容,避免出現用戶(hù)訪(fǎng)問(wèn)不到以前收藏的網(wǎng)頁(yè)的情況。

我們建議在改版或者換域名時(shí),將舊網(wǎng)頁(yè)301永久重定向到內容對應的新網(wǎng)頁(yè),這樣百?更容易發(fā)現這個(gè)轉變,并迅速的將舊網(wǎng)頁(yè)積累的權值傳遞給對應的新網(wǎng)頁(yè)。

  • 如非必要,不要做整站內容的完全更換。網(wǎng)站改版或者網(wǎng)站內重要頁(yè)面鏈接發(fā)生變動(dòng)時(shí),應該將改版前的頁(yè)面301永久重定向到改版后的對應的頁(yè)面

  • 網(wǎng)站更換域名,應該將舊域名的所有頁(yè)面301永久重定向到新域名上對應的頁(yè)面。網(wǎng)站更換域名后,維持舊域名能穩定訪(fǎng)問(wèn)盡可能長(cháng)的時(shí)間,給用戶(hù)多一些時(shí)間記憶新域名。

  • 網(wǎng)站改版/更換域名后,請把新的URL/新域名下的URL,通過(guò)sitemap提交給百度,幫助百度更?發(fā)現和作出調整。

合理的返回碼

百度爬蟲(chóng)在進(jìn)行抓取和處理時(shí),是根據http 協(xié)議規范來(lái)設置相應的邏輯的,所以請站長(cháng)們也盡量參考http 協(xié)議中關(guān)于返回碼的含義的定義來(lái)進(jìn)行設置。

百度spider 對常用的http 返回碼的處理邏輯是這樣的:

1. 404

404返回碼的含義是“NOT FOUND”,百度會(huì )認為網(wǎng)頁(yè)已經(jīng)失效,那么通常會(huì )從搜索結果中刪除,并且短期內spider再次發(fā)現這條url也不會(huì )抓取。

2. 503

503返回碼的含義是“Service Unavailable”,百度會(huì )認為該網(wǎng)頁(yè)臨時(shí)不可訪(fǎng)問(wèn),通常網(wǎng)站?時(shí)關(guān)閉,帶寬有限等會(huì )產(chǎn)生這種情況。對于網(wǎng)頁(yè)返回503,百度spider不會(huì )把這條url直接刪除,短期內會(huì )再訪(fǎng)問(wèn)。屆時(shí)如果網(wǎng)頁(yè)已恢復,則正常抓??;如果繼續返回503,短期內還會(huì )反復訪(fǎng)問(wèn)幾次。但是如果網(wǎng)頁(yè)長(cháng)期返回503,那么這個(gè)url仍會(huì )被百度認為是失效鏈接,從搜索結果中刪除。

3. 403 

403返回碼的含義是“Forbidden”,百度會(huì )認為網(wǎng)頁(yè)當前禁止訪(fǎng)問(wèn)。對于這種情況,如果是新發(fā)現的url,百度spider暫不會(huì )抓取,短期內會(huì )再次檢查;如果是百度已收錄url,當前也不會(huì )直接刪除,短期內同樣會(huì )再訪(fǎng)問(wèn)。屆時(shí)如果網(wǎng)頁(yè)允許訪(fǎng)問(wèn),則?常抓??;如果仍不允許訪(fǎng)問(wèn),短期內還會(huì )反復訪(fǎng)問(wèn)幾次。但是如果網(wǎng)頁(yè)長(cháng)期返回403,百度也會(huì )認為是失效鏈接,從搜索結果中刪除。

4. 301

301返回碼的含義是“Moved Permanently”,百度會(huì )認為網(wǎng)頁(yè)當前跳轉至新url。當遇到站點(diǎn)遷移,域名更換、站點(diǎn)改版的情況時(shí),推薦使用301返回碼,盡量減少改版帶來(lái)的流量損失。雖然百度spider現在對301跳轉的響應周期較長(cháng),但我們還是推薦大家這么做。

建議:

  • 如果站點(diǎn)臨時(shí)關(guān)閉,當網(wǎng)頁(yè)不能打開(kāi)時(shí),不要立即返回404,建議使用503狀態(tài)。503?以告知百度spider該頁(yè)面臨時(shí)不可訪(fǎng)問(wèn),請過(guò)段時(shí)間再重試。

  • 如果百度spider對您的站點(diǎn)抓取壓力過(guò)大,請盡量不要使用404,同樣建議返回503。這樣百度spider會(huì )過(guò)段時(shí)間再來(lái)嘗試抓取這個(gè)鏈接,如果那個(gè)時(shí)間站點(diǎn)空閑,那它就會(huì )被成功抓取了。

  • 有一些網(wǎng)站希望百度只收錄部分內容,例如審核后的內容,累積一段時(shí)間的新用戶(hù)頁(yè)等等。在這種情況,建議新發(fā)內容暫時(shí)返回403,等審核或做好處理之后,再返回正常狀態(tài)的返回碼。

  • 站點(diǎn)遷移,或域名更換時(shí),請使用301返回碼。


提交成功!非常感謝您的反饋,我們會(huì )繼續努力做到更好!

這條文檔是否有幫助解決問(wèn)題?

非常抱歉未能幫助到您。為了給您提供更好的服務(wù),我們很需要您進(jìn)一步的反饋信息:

在文檔使用中是否遇到以下問(wèn)題:
-->