国产欧美日韩第一页|日本一二三不卡视频|在线精品小视频,亚洲第一免费播放区,metcn人体亚洲一区,亚洲精品午夜视频

<strike id="b859d"><acronym id="b859d"></acronym></strike>

<noframes id="b859d"><form id="b859d"></form>

<noframes id="b859d">

相關(guān)文章

云南公布第二批免費向社會提供信息技術(shù)服務(wù)企業(yè)名單中國互聯(lián)網(wǎng)企業(yè)赴美上市規(guī)模預(yù)計今年或減半【滇企復(fù)工進行時】藍隊云：未雨綢繆，危機之下必有機遇搜狐、騰訊、迅雷等一批互聯(lián)網(wǎng)公司涉黃被罰5萬他們失敗的辛酸血淚史：億唐網(wǎng)、博客中國、酷6網(wǎng)、飯否

幫助中心 > 技術(shù)知識庫 > 網(wǎng)站相關(guān) > 程序開發(fā) > 百度、谷歌搜索引擎原理及新網(wǎng)站應(yīng)對

百度、谷歌搜索引擎原理及新網(wǎng)站應(yīng)對

2009-12-01 14:19:49 6676

百度、谷歌搜索引擎原理及新網(wǎng)站應(yīng)對

第一節(jié) 搜索引擎原理

1、基本概念

來源于中文wiki百科的解釋：（網(wǎng)絡(luò)）搜索引擎指自動從互聯(lián)網(wǎng)搜集信息，經(jīng)過一定整理以后，提供給用戶進行查詢的系統(tǒng)。
來源于英文wiki百科的解釋：Web search engines provide an interface to search for information on the World Wide Web.Information may consist of web pages, images and other types of files.（網(wǎng)絡(luò)搜索引擎為用戶提供接口查找互聯(lián)網(wǎng)上的信息內(nèi)容，這些信息內(nèi)容包括網(wǎng)頁、圖片以及其他類型的文檔）成功的人生，需要自己去經(jīng)營，別再說了，莫再等了，現(xiàn)在就為自己的人生做好規(guī)劃，為人生點亮一盞明燈，贏在人生起跑點上。

2、分類本站所提供的攝影照片，插畫，設(shè)計作品，如需使用，請與原作者聯(lián)系。

按照工作原理的不同，可以把它們分為兩個基本類別：全文搜索引擎（FullText Search Engine）和分類目錄Directory）。 ..

分類目錄則是通過人工的方式收集整理網(wǎng)站資料形成數(shù)據(jù)庫的，比如雅虎中國以及國內(nèi)的搜狐、新浪、網(wǎng)易分類目錄。另外，在網(wǎng)上的一些導(dǎo)航站點，也可以歸屬為原始的分類目錄，比如“網(wǎng)址之家”（http://www.tjdsmy.cn/）。 .

全文搜索引擎通過自動的方式分析網(wǎng)頁的超鏈接，依靠超鏈接和HTML代碼分析獲取網(wǎng)頁信息內(nèi)容，并按事先設(shè)計好的規(guī)則分析整理形成索引，供用戶查詢。 !

兩者的區(qū)分可用一句話概括：分類目錄是人工方式建立網(wǎng)站的索引，全文搜索是自動方式建立網(wǎng)頁的索引。（有些人經(jīng)常把搜索引擎和數(shù)據(jù)庫檢索相比較，其實是錯誤的）。 ..

3、全文搜索的工作原理

全文搜索引擎一般信息采集、索引、搜索三個部分組成，詳細的可由搜索器、分析器、索引器、檢索器和用戶接口等5個部分組成。

（1）信息采集（Web crawling）：信息采集的工作由搜索器和分析器共同完成，搜索引擎利用稱為網(wǎng)絡(luò)爬蟲（crawlers）、網(wǎng)絡(luò)蜘蛛（spider）或者叫做網(wǎng)絡(luò)機器人（robots）的自動搜索機器人程序來查詢網(wǎng)頁上的超鏈接。。

進一步解釋一下："機器人"實際上是一些基于Web的程序，通過請求Web站點上的HTML網(wǎng)頁來對采集該HTML網(wǎng)頁，它遍歷指定范圍內(nèi)的整個Web空間，不斷從一個網(wǎng)頁轉(zhuǎn)到另一個網(wǎng)頁，從一個站點移動到另一個站點，將采集到的網(wǎng)頁添加到網(wǎng)頁數(shù)據(jù)庫中。"機器人"每遇到一個新的網(wǎng)頁，都要搜索它內(nèi)部的所有鏈接，所以從理論上講，如果為"機器人"建立一個適當?shù)某跏季W(wǎng)頁集，從這個初始網(wǎng)頁集出發(fā)，遍歷所有的鏈接，"機器人"將能夠采集到整個Web空間的網(wǎng)頁。特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點，本站所提供的攝影照片，插畫，設(shè)計作品，如需使用，請與原作者聯(lián)系

網(wǎng)上后很多開源的爬蟲程序，可以到一些開源社區(qū)中查找。 ..

關(guān)鍵點1：核心在于html分析，因此嚴謹?shù)?、結(jié)構(gòu)化的、可讀性強、錯誤少的html代碼，更容易被采集機器人所分析和采集。例如，某個頁面存在<body這樣的標簽或者沒有</body></html>這樣的結(jié)尾，在網(wǎng)頁顯示是沒有問題的，但是很有可能會被采集拒絕收錄，在例如類似../../***.htm這樣的超鏈接，也有可能造成蜘蛛無法識別。這也是需要推廣web標準的原因之一，按照web標準制作的網(wǎng)頁更容易被搜索引擎檢索和收錄。

關(guān)鍵點2：搜索機器人有專門的搜索鏈接庫，在搜索相同超鏈接時，會自動比對新舊網(wǎng)頁的內(nèi)容和大小，如果一致，則不采集。因此有人擔心修改后的網(wǎng)頁是否能被收錄，這是多余的。。

（2）索引（Indexing）：搜索引擎整理信息的過程稱為“建立索引”。搜索引擎不僅要保存搜集起來的信息，還要將它們按照一定的規(guī)則進行編排。索引可以采用通用的大型數(shù)據(jù)庫，如ORACLE、Sybase等，也可以自己定義文件格式進行存放。索引是搜索中較為復(fù)雜的部分，涉及到網(wǎng)頁結(jié)構(gòu)分析、分詞、排序等技術(shù)，好的索引能極大的提高檢索速度。 .　

關(guān)鍵點1：雖然現(xiàn)在的搜索引擎都支持增量的索引，但是索引創(chuàng)建依然需要較長的時間，搜索引擎都會定期更新索引，因此即便爬蟲來過，到我們能在頁面上搜索到，會有一定的時間間隔。本站所提供的攝影照片，插畫，設(shè)計作品，如需使用，請與原作者聯(lián)系。

關(guān)鍵點2：索引是區(qū)別好壞搜索的重要標志。 .　

（3）檢索（Searching）：用戶向搜索引擎發(fā)出查詢，搜索引擎接受查詢并向用戶返回資料。有的系統(tǒng)在返回結(jié)果之前對網(wǎng)頁的相關(guān)度進行了計算和評估，并根據(jù)相關(guān)度進行排序，將相關(guān)度大的放在前面，相關(guān)度小的放在后面；也有的系統(tǒng)在用戶查詢之前已經(jīng)計算了各個網(wǎng)頁的網(wǎng)頁等級（Page Rank 后文會介紹），返回查詢結(jié)果時將網(wǎng)頁等級大的放在前面，網(wǎng)頁等級小的放在后面。。

關(guān)鍵點1：不同搜索引擎有不同的排序規(guī)則，因此在不同的搜索引擎中搜索相同關(guān)鍵詞，排序是不同的。

第二節(jié) 百度搜索引擎工作方式根據(jù)專家觀察，這樣的理論和現(xiàn)象都是值得各位站長深思的，所以希望大家多做研究學(xué)習(xí)，爭取總結(jié)出更多更好的經(jīng)驗!

我所知道的百度搜索：由于工作的關(guān)系，小生有幸一直在使用百度的百事通企業(yè)搜索引擎（該部門現(xiàn)已被裁員，主要是百度的戰(zhàn)略開始向谷歌靠攏，不再單獨銷售搜索引擎，轉(zhuǎn)向搜索服務(wù)），據(jù)百度的銷售人員稱，百事通的搜索核心和大搜索的相同，只有可能版本稍低，因此我有理由相信搜索的工作方式大同小異。下面是一些簡單介紹和注意點：成功的人生，需要自己去經(jīng)營，別再說了，莫再等了，現(xiàn)在就為自己的人生做好規(guī)劃，為人生點亮一盞明燈，贏在人生起跑點上。

1、關(guān)于網(wǎng)站搜索的更新頻率 .

百度搜索可以設(shè)定網(wǎng)站的更新頻率和時間，一般對于大網(wǎng)站更新頻度很快，而且會專門開設(shè)獨立的爬蟲進行跟蹤，不過百度是比較勤奮的，中小網(wǎng)站一般也會每天更新。因此，如果你希望自己的網(wǎng)站更新得更快，最好是在大型的分類目錄（例如yahoo sina 網(wǎng)易）中有你的鏈接，或者在百度自己的相關(guān)網(wǎng)站中，有你網(wǎng)站的超鏈接，在或者你的網(wǎng)站就在一些大型網(wǎng)站里面，例如大型網(wǎng)站的blog。

、關(guān)于采集的深度 ..

百度搜索可以定義采集的深度，就是說不見得百度會檢索你網(wǎng)站的全部內(nèi)容，有可能只索引你的網(wǎng)站的首頁的內(nèi)容，尤其對小型網(wǎng)站來說。。

3、關(guān)于對時常不通網(wǎng)站的采集 ..

百度對于網(wǎng)站的通斷是有專門的判斷的，如果一旦發(fā)現(xiàn)某個網(wǎng)站不通，尤其是一些中小網(wǎng)站，百度的自動停止往這些網(wǎng)站派出爬蟲，所以選擇好的服務(wù)器，保持網(wǎng)站24小時暢通非常重要。 .

4、關(guān)于更換IP的網(wǎng)站 .

百度搜索能夠基于域名或者ip地址，如果是域名，會自動解析為對應(yīng)的ip地址，因此就會出現(xiàn)2個問題，第一就是如果你的網(wǎng)站和別人使用相同的IP地址，如果別人的網(wǎng)站被百度懲罰了，你的網(wǎng)站會受到牽連，第二就是如果你更換了ip地址，百度會發(fā)現(xiàn)你的域名和先前的ip地址沒有對應(yīng)，也會拒絕往你的網(wǎng)站派出爬蟲。因此建議，不要隨意更換ip地址，如果有可能盡量獨享ip，保持網(wǎng)站的穩(wěn)定很重要。

5、關(guān)于靜態(tài)和動態(tài)網(wǎng)站的采集

很多人擔心是不是類似asp?id=之類的頁面很難被收集，html這樣的頁面容易被收集，事實上情況并沒有想的這么糟，現(xiàn)在的搜索引擎大部分都支持動態(tài)網(wǎng)站的采集和檢索，包括需要登陸的網(wǎng)站都可以檢索到，因此大可不必擔心自己的動態(tài)網(wǎng)站搜索引擎無法識別，百度搜索中對于動態(tài)的支持可以自定義。但是，如果有可能，還是盡量生成靜態(tài)頁面。同時，對于大部分搜索引擎，依然對腳本跳轉(zhuǎn)（JS）、框架（frame）、特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點，本站所提供的攝影照片，插畫，設(shè)計作品，如需使用，請與原作者聯(lián)系.

Flash超鏈接，動態(tài)頁面中含有非法字符的頁面無可奈何。對真正的成功者來說，不論他的生存條件如何，都不會自我磨滅

6、關(guān)于索引的消失 .

前面講過，搜索的索引需要創(chuàng)建，一般好的搜索，索引都是文本文件，而不是數(shù)據(jù)庫，因此索引中需要刪除一條記錄，并不是一件方便的事情。例如百度，需要使用專門的工具，人工刪除某條索引記錄。據(jù)百度員工稱，百度專門有一群人負責(zé)這件事情——接到投訴，刪除記錄，手工。當然還能直接刪除某個規(guī)則下的所有索引，也就是可以刪除某個網(wǎng)站下的所有索引。還有一個機制（未經(jīng)驗證），就是對于過期的網(wǎng)頁和作弊的網(wǎng)頁（主要是網(wǎng)頁標題、關(guān)鍵詞和內(nèi)容不匹配），在重建索引的過程中也會被刪除。 !

7、關(guān)于去重特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點，本站所提供的攝影照片，插畫，設(shè)計作品，如需使用，請與原作者聯(lián)系.

百度搜索的去重不如谷歌的理想，主要還是判別文章的標題和來源地址，只要不相同，就不會自動去重，因此不必擔心采集的內(nèi)容雷同而很快被搜索懲罰，谷歌的有所不同，標題相同的被同時收錄的不多。版權(quán)申明：本站文章均來自網(wǎng)絡(luò).

補充一句，不要把搜索引擎想得這么智能，基本上都是按照一定的規(guī)則和公式，想不被搜索引擎懲罰，避開這些規(guī)則即可。。

第三節(jié) 谷歌搜索排名技術(shù) ..

對于搜索來說，谷歌強于百度，主要的原因就是谷歌更加公正，而百度有很多人為的因素（這也符合我國的國情），google之所以公正，源于他的排名技術(shù)Page Rank。多人知道Page Rank，是網(wǎng)站的質(zhì)量等級，越小表示網(wǎng)站越優(yōu)秀。其實Page Rank是依靠一個專門的公式計算出來的，當我們在google搜索關(guān)鍵詞的時候，頁面等級小的網(wǎng)頁排序會越靠前，這個公式并沒有人工干預(yù)，因此公正。特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點，本站所提供的攝影照片，插畫，設(shè)計作品，如需使用，請與原作者聯(lián)系

Page Rank的最初想法來自于論文檔案的管理，我們知道每篇論文結(jié)尾都有參考文獻，假如某篇文章被不同論文引用了多次，就可以認為這篇文章是篇優(yōu)秀的文章。版權(quán)申明：本站文章均來自網(wǎng)絡(luò),本站所有轉(zhuǎn)載文章言論不代表本站觀點

同理，簡單的說，PageRank 能夠?qū)W(wǎng)頁的重要性做出客觀的評價。PageRank 并不計算直接鏈接的數(shù)量，而是將從網(wǎng)頁 A 指向網(wǎng)頁 B 的鏈接解釋為由網(wǎng)頁 A 對網(wǎng)頁 B 所投的一票。這樣，PageRank 會根據(jù)網(wǎng)頁 B 所收到的投票數(shù)量來評估該頁的重要性。此外，PageRank 還會評估每個投票網(wǎng)頁的重要性，因為某些網(wǎng)頁的投票被認為具有較高的價值，這樣，它所鏈接的網(wǎng)頁就能獲得較高的價值。 .

Page Rank的公式這里省略，說說影響Page Rank的主要因素。

1、指向你的網(wǎng)站的超鏈接數(shù)量（你的網(wǎng)站被別人引用），這個數(shù)值越大，表示你的網(wǎng)站越重要，通俗的說，就是其它網(wǎng)站是否友情鏈接，或者推薦鏈接到你的網(wǎng)站； !

2、超鏈接你的網(wǎng)站的重要程度，意思就是一個質(zhì)量好的網(wǎng)站有你的網(wǎng)站的超鏈接，說明你的網(wǎng)站也很優(yōu)秀。。

3、網(wǎng)頁特定性因素：包括網(wǎng)頁的內(nèi)容、標題及URL等，也就是網(wǎng)頁的關(guān)鍵詞及位置。。

第四節(jié) 新網(wǎng)站如何應(yīng)對搜索特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點，本站所提供的攝影照片，插畫，設(shè)計作品，如需使用，請與原作者聯(lián)系.

以下內(nèi)容是對上面分析的總結(jié)： .

1、搜索引擎為什么不收錄你的網(wǎng)站，存在以下可能（不絕對，根據(jù)各自情況不同） .

（1）沒有任何指向鏈接的孤島網(wǎng)頁，沒有被收錄的網(wǎng)站指向你的超鏈接，搜索引擎就無法發(fā)現(xiàn)你；
（2）網(wǎng)站中的網(wǎng)頁性質(zhì)及文件類型（如flash、JS跳轉(zhuǎn)、某些動態(tài)網(wǎng)頁、frame等）搜索引擎無法識別；
（3）你的網(wǎng)站所在服務(wù)器曾被搜索引擎懲罰，而不收錄相同IP的內(nèi)容；
（4）近期更換過服務(wù)器的IP地址，搜索引擎需要一定時間重新采集；
（5）服務(wù)器不穩(wěn)定、頻繁宕機，或者經(jīng)不起爬蟲采集的壓力；
（6）網(wǎng)頁代碼劣質(zhì)，搜索無法正確分析頁面內(nèi)容，請至少學(xué)習(xí)一下HTML的基本語法，建議使用XHTML；
（7）網(wǎng)站用robots（robots.txt）協(xié)議拒絕搜索引擎抓取的網(wǎng)頁；
（8）使用關(guān)鍵詞作弊的網(wǎng)頁，網(wǎng)頁的關(guān)鍵詞和內(nèi)容嚴重不匹配，或者某些關(guān)鍵詞密度太大；
（9）非法內(nèi)容的網(wǎng)頁；
（10）相同網(wǎng)站內(nèi)存在大量相同標題的網(wǎng)頁，或者網(wǎng)頁的標題沒有實際含義；成功的人生，需要自己去經(jīng)營，別再說了，莫再等了，現(xiàn)在就為自己的人生做好規(guī)劃，為人生點亮一盞明燈，贏在人生起跑點上。

2、新站如何做才正確（僅供參考）特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點，本站所提供的攝影照片，插畫，設(shè)計作品，如需使用，請與原作者聯(lián)系.

（1）和優(yōu)秀的網(wǎng)站交換鏈接；
（2）廣泛登錄各種大網(wǎng)站的網(wǎng)站目錄列表；
（3）多去質(zhì)量好的論壇發(fā)言，發(fā)言要有質(zhì)量，最好不要回復(fù)，發(fā)言中留下自己網(wǎng)站地址；
（4）申請大網(wǎng)站的博客（新浪、網(wǎng)易、CSDN），并在博客中推廣自己的網(wǎng)站；
（5）使用好的建站程序，最好能生成靜態(tài)頁面和自動生成關(guān)鍵詞；
（6）重視每個網(wǎng)頁的標題，以及<head>區(qū)域，盡量把符合的關(guān)鍵詞放在這些容易被搜索索引的位置，重視文章的開頭部分，盡可能在文章的開始部分使用類似摘要的功能（可以學(xué)學(xué)網(wǎng)易的文章樣式）。 .

例如“基于開源jabber(XMPP)架設(shè)內(nèi)部即時通訊服務(wù)的解決方案”； ..

標題部分：<title>基于開源jabber(XMPP)架設(shè)內(nèi)部即時通訊服務(wù)的解決方案 - 肥龍龍（expendable）的專欄 - CSDNBlog</title>
關(guān)鍵詞部分：<meta name="keywords" cCOLOR: #c00000">安裝,">
文章描述部分：<meta name="description" cCOLOR: #c00000">是著名的即時通訊服務(wù)服務(wù)器，它是一個自由開源軟件，能讓用戶自己架即時通訊服務(wù)器，可以在Internet上應(yīng)用，也可以在局域網(wǎng)中應(yīng)用。 .

XMPP（可擴展消息處理現(xiàn)場協(xié)議）是基于可擴展標記語言（XML）的協(xié)議，它用于即時消息（IM）以及在線現(xiàn)場探測。它在促進服務(wù)器之。

間的準即時操作。這個協(xié)議可能最終允許因特網(wǎng)用戶向因特網(wǎng)上的其他任何人發(fā)送即時消息，即使其操作系統(tǒng)和瀏覽器不同。XMPP的技術(shù)來自 .

于Jabber，其實它是 Jabber的核心協(xié)定，所以XMPP有時被誤稱為Jabber協(xié)議。Jabber是一個基于XMPP協(xié)議的IM應(yīng)用，除Jabber之外，XMPP還支

持很多應(yīng)用。

下面就是如何架設(shè)內(nèi)部即時通訊服務(wù)的步驟： .　

（7）按照web標準的要求，規(guī)范自己網(wǎng)頁的html代碼，讓自己的網(wǎng)頁通過w3c代碼和css標準檢測；
（8）不要想著作弊，做好網(wǎng)站內(nèi)容最關(guān)鍵。

上一篇：百度今天給我上了一課
下一篇：內(nèi)容更新頻率與搜索引擎關(guān)系讓它熟悉你

售前咨詢

售前咨詢服務(wù)時間：09:00-23:30

售前值班
4006-75-4006

咨詢熱線：

4006-75-4006（09:00-23:30）
0871-6388 6388 （總機）（工作日 09:00-18:00）

您可能遇到了下面的問題：
云服務(wù)器問題對象存儲計費域名注冊指南
售后咨詢

售后咨詢服務(wù)時間：00:00-24:00

24H值班技術(shù)
4006-75-4006

投訴與建議 最快響應(yīng)10分鐘

您可能遇到了下面的問題：
云服務(wù)器教程遠程登陸問題 FTP上傳問題其他問題查詢
備案咨詢

備案咨詢服務(wù)時間：09:00-18:00（工作日）

備案專業(yè)客服
0871-6388 6388

您可能遇到了下面的問題：
備案所需材料提交備案流程關(guān)于幕布申請備案服務(wù)指引
電話

0871-6388 6388 （總機）
工單
二維碼
TOP