国产欧美日韩第一页|日本一二三不卡视频|在线精品小视频,亚洲第一免费播放区,metcn人体亚洲一区,亚洲精品午夜视频

幫助中心 >  技術(shù)知識庫 >  網(wǎng)站相關(guān) >  程序開發(fā) >  百度、谷歌搜索引擎原理及新網(wǎng)站應(yīng)對

百度、谷歌搜索引擎原理及新網(wǎng)站應(yīng)對

2009-12-01 14:19:49 6676

百度、谷歌搜索引擎原理及新網(wǎng)站應(yīng)對


第一節(jié) 搜索引擎原理

1、基本概念

來源于中文wiki百科的解釋:(網(wǎng)絡(luò))搜索引擎指自動從互聯(lián)網(wǎng)搜集信息,經(jīng)過一定整理以后,提供給用戶進行查詢的系統(tǒng)。
來源于英文wiki百科的解釋:Web search engines provide an interface to search for information on the World Wide Web.Information may consist of web pages, images and other types of files.(網(wǎng)絡(luò)搜索引擎為用戶提供接口查找互聯(lián)網(wǎng)上的信息內(nèi)容,這些信息內(nèi)容包括網(wǎng)頁、圖片以及其他類型的文檔) 成功的人生,需要自己去經(jīng)營,別再說了,莫再等了,現(xiàn)在就為自己的人生做好規(guī)劃,為人生點亮一盞明燈,贏在人生起跑點上。

2、分類 本站所提供的攝影照片,插畫,設(shè)計作品,如需使用,請與原作者聯(lián)系。

按照工作原理的不同,可以把它們分為兩個基本類別:全文搜索引擎(FullText Search Engine)和分類目錄Directory)。 ..

分類目錄則是通過人工的方式收集整理網(wǎng)站資料形成數(shù)據(jù)庫的,比如雅虎中國以及國內(nèi)的搜狐、新浪、網(wǎng)易分類目錄。另外,在網(wǎng)上的一些導(dǎo)航站點,也可以歸屬為原始的分類目錄,比如“網(wǎng)址之家”(http://www.tjdsmy.cn/)。 .

全文搜索引擎通過自動的方式分析網(wǎng)頁的超鏈接,依靠超鏈接和HTML代碼分析獲取網(wǎng)頁信息內(nèi)容,并按事先設(shè)計好的規(guī)則分析整理形成索引,供用戶查詢。 !

兩者的區(qū)分可用一句話概括:分類目錄是人工方式建立網(wǎng)站的索引,全文搜索是自動方式建立網(wǎng)頁的索引。(有些人經(jīng)常把搜索引擎和數(shù)據(jù)庫檢索相比較,其實是錯誤的)。 ..

3、全文搜索的工作原理

全文搜索引擎一般信息采集、索引、搜索三個部分組成,詳細的可由搜索器、分析器、索引器、檢索器和用戶接口等5個部分組成 。

(1)信息采集(Web crawling):信息采集的工作由搜索器和分析器共同完成,搜索引擎利用稱為網(wǎng)絡(luò)爬蟲(crawlers)、網(wǎng)絡(luò)蜘蛛(spider)或者叫做網(wǎng)絡(luò)機器人(robots)的自動搜索機器人程序來查詢網(wǎng)頁上的超鏈接。 。

進一步解釋一下:"機器人"實際上是一些基于Web的程序,通過請求Web站點上的HTML網(wǎng)頁來對采集該HTML網(wǎng)頁,它遍歷指定范圍內(nèi)的整個Web空間,不斷從一個網(wǎng)頁轉(zhuǎn)到另一個網(wǎng)頁,從一個站點移動到另一個站點,將采集到的網(wǎng)頁添加到網(wǎng)頁數(shù)據(jù)庫中。"機器人"每遇到一個新的網(wǎng)頁,都要搜索它內(nèi)部的所有鏈接,所以從理論上講,如果為"機器人"建立一個適當?shù)某跏季W(wǎng)頁集,從這個初始網(wǎng)頁集出發(fā),遍歷所有的鏈接,"機器人"將能夠采集到整個Web空間的網(wǎng)頁。 特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點,本站所提供的攝影照片,插畫,設(shè)計作品,如需使用,請與原作者聯(lián)系

網(wǎng)上后很多開源的爬蟲程序,可以到一些開源社區(qū)中查找。 ..

關(guān)鍵點1:核心在于html分析,因此嚴謹?shù)?、結(jié)構(gòu)化的、可讀性強、錯誤少的html代碼,更容易被采集機器人所分析和采集。例如,某個頁面存在<body這樣的標簽或者沒有</body></html>這樣的結(jié)尾,在網(wǎng)頁顯示是沒有問題的,但是很有可能會被采集拒絕收錄,在例如類似../../***.htm這樣的超鏈接,也有可能造成蜘蛛無法識別。這也是需要推廣web標準的原因之一,按照web標準制作的網(wǎng)頁更容易被搜索引擎檢索和收錄。

關(guān)鍵點2:搜索機器人有專門的搜索鏈接庫,在搜索相同超鏈接時,會自動比對新舊網(wǎng)頁的內(nèi)容和大小,如果一致,則不采集。因此有人擔心修改后的網(wǎng)頁是否能被收錄,這是多余的。

(2)索引(Indexing):搜索引擎整理信息的過程稱為“建立索引”。搜索引擎不僅要保存搜集起來的信息,還要將它們按照一定的規(guī)則進行編排。索引可以采用通用的大型數(shù)據(jù)庫,如ORACLE、Sybase等,也可以自己定義文件格式進行存放。索引是搜索中較為復(fù)雜的部分,涉及到網(wǎng)頁結(jié)構(gòu)分析、分詞、排序等技術(shù),好的索引能極大的提高檢索速度。 . 

關(guān)鍵點1:雖然現(xiàn)在的搜索引擎都支持增量的索引,但是索引創(chuàng)建依然需要較長的時間,搜索引擎都會定期更新索引,因此即便爬蟲來過,到我們能在頁面上搜索到,會有一定的時間間隔。 本站所提供的攝影照片,插畫,設(shè)計作品,如需使用,請與原作者聯(lián)系。

關(guān)鍵點2:索引是區(qū)別好壞搜索的重要標志。 . 

(3)檢索(Searching):用戶向搜索引擎發(fā)出查詢,搜索引擎接受查詢并向用戶返回資料。有的系統(tǒng)在返回結(jié)果之前對網(wǎng)頁的相關(guān)度進行了計算和評估,并根據(jù)相關(guān)度進行排序,將相關(guān)度大的放在前面,相關(guān)度小的放在后面;也有的系統(tǒng)在用戶查詢之前已經(jīng)計算了各個網(wǎng)頁的網(wǎng)頁等級(Page Rank 后文會介紹),返回查詢結(jié)果時將網(wǎng)頁等級大的放在前面,網(wǎng)頁等級小的放在后面。 。

關(guān)鍵點1:不同搜索引擎有不同的排序規(guī)則,因此在不同的搜索引擎中搜索相同關(guān)鍵詞,排序是不同的。

第二節(jié) 百度搜索引擎工作方式 根據(jù)專家觀察,這樣的理論和現(xiàn)象都是值得各位站長深思的,所以希望大家多做研究學(xué)習(xí),爭取總結(jié)出更多更好的經(jīng)驗!

我所知道的百度搜索:由于工作的關(guān)系,小生有幸一直在使用百度的百事通企業(yè)搜索引擎(該部門現(xiàn)已被裁員,主要是百度的戰(zhàn)略開始向谷歌靠攏,不再單獨銷售搜索引擎,轉(zhuǎn)向搜索服務(wù)),據(jù)百度的銷售人員稱,百事通的搜索核心和大搜索的相同,只有可能版本稍低,因此我有理由相信搜索的工作方式大同小異。下面是一些簡單介紹和注意點: 成功的人生,需要自己去經(jīng)營,別再說了,莫再等了,現(xiàn)在就為自己的人生做好規(guī)劃,為人生點亮一盞明燈,贏在人生起跑點上。

1、關(guān)于網(wǎng)站搜索的更新頻率 .

百度搜索可以設(shè)定網(wǎng)站的更新頻率和時間,一般對于大網(wǎng)站更新頻度很快,而且會專門開設(shè)獨立的爬蟲進行跟蹤,不過百度是比較勤奮的,中小網(wǎng)站一般也會每天更新。因此,如果你希望自己的網(wǎng)站更新得更快,最好是在大型的分類目錄(例如yahoo sina 網(wǎng)易)中有你的鏈接,或者在百度自己的相關(guān)網(wǎng)站中,有你網(wǎng)站的超鏈接,在或者你的網(wǎng)站就在一些大型網(wǎng)站里面,例如大型網(wǎng)站的blog。

、關(guān)于采集的深度 ..

百度搜索可以定義采集的深度,就是說不見得百度會檢索你網(wǎng)站的全部內(nèi)容,有可能只索引你的網(wǎng)站的首頁的內(nèi)容,尤其對小型網(wǎng)站來說。 。

3、關(guān)于對時常不通網(wǎng)站的采集 ..

百度對于網(wǎng)站的通斷是有專門的判斷的,如果一旦發(fā)現(xiàn)某個網(wǎng)站不通,尤其是一些中小網(wǎng)站,百度的自動停止往這些網(wǎng)站派出爬蟲,所以選擇好的服務(wù)器,保持網(wǎng)站24小時暢通非常重要。 .

4、關(guān)于更換IP的網(wǎng)站 .

百度搜索能夠基于域名或者ip地址,如果是域名,會自動解析為對應(yīng)的ip地址,因此就會出現(xiàn)2個問題,第一就是如果你的網(wǎng)站和別人使用相同的IP地址,如果別人的網(wǎng)站被百度懲罰了,你的網(wǎng)站會受到牽連,第二就是如果你更換了ip地址,百度會發(fā)現(xiàn)你的域名和先前的ip地址沒有對應(yīng),也會拒絕往你的網(wǎng)站派出爬蟲。因此建議,不要隨意更換ip地址,如果有可能盡量獨享ip,保持網(wǎng)站的穩(wěn)定很重要。

5、關(guān)于靜態(tài)和動態(tài)網(wǎng)站的采集

很多人擔心是不是類似asp?id=之類的頁面很難被收集,html這樣的頁面容易被收集,事實上情況并沒有想的這么糟,現(xiàn)在的搜索引擎大部分都支持動態(tài)網(wǎng)站的采集和檢索,包括需要登陸的網(wǎng)站都可以檢索到,因此大可不必擔心自己的動態(tài)網(wǎng)站搜索引擎無法識別,百度搜索中對于動態(tài)的支持可以自定義。但是,如果有可能,還是盡量生成靜態(tài)頁面。同時,對于大部分搜索引擎,依然對腳本跳轉(zhuǎn)(JS)、框架(frame)、 特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點,本站所提供的攝影照片,插畫,設(shè)計作品,如需使用,請與原作者聯(lián)系.

Flash超鏈接,動態(tài)頁面中含有非法字符的頁面無可奈何。 對真正的成功者來說,不論他的生存條件如何,都不會自我磨滅

6、關(guān)于索引的消失 .

前面講過,搜索的索引需要創(chuàng)建,一般好的搜索,索引都是文本文件,而不是數(shù)據(jù)庫,因此索引中需要刪除一條記錄,并不是一件方便的事情。例如百度,需要使用專門的工具,人工刪除某條索引記錄。據(jù)百度員工稱,百度專門有一群人負責(zé)這件事情——接到投訴,刪除記錄,手工。當然還能直接刪除某個規(guī)則下的所有索引,也就是可以刪除某個網(wǎng)站下的所有索引。還有一個機制(未經(jīng)驗證),就是對于過期的網(wǎng)頁和作弊的網(wǎng)頁(主要是網(wǎng)頁標題、關(guān)鍵詞和內(nèi)容不匹配),在重建索引的過程中也會被刪除。 !

7、關(guān)于去重 特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點,本站所提供的攝影照片,插畫,設(shè)計作品,如需使用,請與原作者聯(lián)系.

百度搜索的去重不如谷歌的理想,主要還是判別文章的標題和來源地址,只要不相同,就不會自動去重,因此不必擔心采集的內(nèi)容雷同而很快被搜索懲罰,谷歌的有所不同,標題相同的被同時收錄的不多。 版權(quán)申明:本站文章均來自網(wǎng)絡(luò).

補充一句,不要把搜索引擎想得這么智能,基本上都是按照一定的規(guī)則和公式,想不被搜索引擎懲罰,避開這些規(guī)則即可。


第三節(jié) 谷歌搜索排名技術(shù) ..

對于搜索來說,谷歌強于百度,主要的原因就是谷歌更加公正,而百度有很多人為的因素(這也符合我國的國情),google之所以公正,源于他的排名技術(shù)Page Rank。多人知道Page Rank,是網(wǎng)站的質(zhì)量等級,越小表示網(wǎng)站越優(yōu)秀。其實Page Rank是依靠一個專門的公式計算出來的,當我們在google搜索關(guān)鍵詞的時候,頁面等級小的網(wǎng)頁排序會越靠前,這個公式并沒有人工干預(yù),因此公正。 特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點,本站所提供的攝影照片,插畫,設(shè)計作品,如需使用,請與原作者聯(lián)系

Page Rank的最初想法來自于論文檔案的管理,我們知道每篇論文結(jié)尾都有參考文獻,假如某篇文章被不同論文引用了多次,就可以認為這篇文章是篇優(yōu)秀的文章。 版權(quán)申明:本站文章均來自網(wǎng)絡(luò),本站所有轉(zhuǎn)載文章言論不代表本站觀點

同理,簡單的說,PageRank 能夠?qū)W(wǎng)頁的重要性做出客觀的評價。PageRank 并不計算直接鏈接的數(shù)量,而是將從網(wǎng)頁 A 指向網(wǎng)頁 B 的鏈接解釋為由網(wǎng)頁 A 對網(wǎng)頁 B 所投的一票。這樣,PageRank 會根據(jù)網(wǎng)頁 B 所收到的投票數(shù)量來評估該頁的重要性。此外,PageRank 還會評估每個投票網(wǎng)頁的重要性,因為某些網(wǎng)頁的投票被認為具有較高的價值,這樣,它所鏈接的網(wǎng)頁就能獲得較高的價值。 .

Page Rank的公式這里省略,說說影響Page Rank的主要因素 。

1、指向你的網(wǎng)站的超鏈接數(shù)量(你的網(wǎng)站被別人引用),這個數(shù)值越大,表示你的網(wǎng)站越重要,通俗的說,就是其它網(wǎng)站是否友情鏈接,或者推薦鏈接到你的網(wǎng)站; !

2、超鏈接你的網(wǎng)站的重要程度,意思就是一個質(zhì)量好的網(wǎng)站有你的網(wǎng)站的超鏈接,說明你的網(wǎng)站也很優(yōu)秀。

3、網(wǎng)頁特定性因素:包括網(wǎng)頁的內(nèi)容、標題及URL等,也就是網(wǎng)頁的關(guān)鍵詞及位置。


第四節(jié) 新網(wǎng)站如何應(yīng)對搜索 特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點,本站所提供的攝影照片,插畫,設(shè)計作品,如需使用,請與原作者聯(lián)系.

以下內(nèi)容是對上面分析的總結(jié): .

1、搜索引擎為什么不收錄你的網(wǎng)站,存在以下可能(不絕對,根據(jù)各自情況不同) .

(1)沒有任何指向鏈接的孤島網(wǎng)頁,沒有被收錄的網(wǎng)站指向你的超鏈接,搜索引擎就無法發(fā)現(xiàn)你;
(2)網(wǎng)站中的網(wǎng)頁性質(zhì)及文件類型(如flash、JS跳轉(zhuǎn)、某些動態(tài)網(wǎng)頁、frame等)搜索引擎無法識別;
(3)你的網(wǎng)站所在服務(wù)器曾被搜索引擎懲罰,而不收錄相同IP的內(nèi)容;
(4)近期更換過服務(wù)器的IP地址,搜索引擎需要一定時間重新采集;
(5)服務(wù)器不穩(wěn)定、頻繁宕機,或者經(jīng)不起爬蟲采集的壓力;
(6)網(wǎng)頁代碼劣質(zhì),搜索無法正確分析頁面內(nèi)容,請至少學(xué)習(xí)一下HTML的基本語法,建議使用XHTML;
(7)網(wǎng)站用robots(robots.txt)協(xié)議拒絕搜索引擎抓取的網(wǎng)頁;
(8)使用關(guān)鍵詞作弊的網(wǎng)頁,網(wǎng)頁的關(guān)鍵詞和內(nèi)容嚴重不匹配,或者某些關(guān)鍵詞密度太大;
(9)非法內(nèi)容的網(wǎng)頁;
(10)相同網(wǎng)站內(nèi)存在大量相同標題的網(wǎng)頁,或者網(wǎng)頁的標題沒有實際含義; 成功的人生,需要自己去經(jīng)營,別再說了,莫再等了,現(xiàn)在就為自己的人生做好規(guī)劃,為人生點亮一盞明燈,贏在人生起跑點上。

2、新站如何做才正確(僅供參考) 特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點,本站所提供的攝影照片,插畫,設(shè)計作品,如需使用,請與原作者聯(lián)系.

(1)和優(yōu)秀的網(wǎng)站交換鏈接;
(2)廣泛登錄各種大網(wǎng)站的網(wǎng)站目錄列表;
(3)多去質(zhì)量好的論壇發(fā)言,發(fā)言要有質(zhì)量,最好不要回復(fù),發(fā)言中留下自己網(wǎng)站地址;
(4)申請大網(wǎng)站的博客(新浪、網(wǎng)易、CSDN),并在博客中推廣自己的網(wǎng)站;
(5)使用好的建站程序,最好能生成靜態(tài)頁面和自動生成關(guān)鍵詞;
(6)重視每個網(wǎng)頁的標題,以及<head>區(qū)域,盡量把符合的關(guān)鍵詞放在這些容易被搜索索引的位置,重視文章的開頭部分,盡可能在文章的開始部分使用類似摘要的功能(可以學(xué)學(xué)網(wǎng)易的文章樣式)。 .

例如“基于開源jabber(XMPP)架設(shè)內(nèi)部即時通訊服務(wù)的解決方案”; ..

標題部分:<title>基于開源jabber(XMPP)架設(shè)內(nèi)部即時通訊服務(wù)的解決方案 - 肥龍龍(expendable)的專欄 - CSDNBlog</title>
關(guān)鍵詞部分:<meta name="keywords" cCOLOR: #c00000">安裝,">
文章描述部分:<meta name="description" cCOLOR: #c00000">是著名的即時通訊服務(wù)服務(wù)器,它是一個自由開源軟件,能讓用戶自己架即時通訊服務(wù)器,可以在Internet上應(yīng)用,也可以在局域網(wǎng)中應(yīng)用。 .

XMPP(可擴展消息處理現(xiàn)場協(xié)議)是基于可擴展標記語言(XML)的協(xié)議,它用于即時消息(IM)以及在線現(xiàn)場探測。它在促進服務(wù)器之 。

間的準即時操作。這個協(xié)議可能最終允許因特網(wǎng)用戶向因特網(wǎng)上的其他任何人發(fā)送即時消息,即使其操作系統(tǒng)和瀏覽器不同。XMPP的技術(shù)來自 .

于Jabber,其實它是 Jabber的核心協(xié)定,所以XMPP有時被誤稱為Jabber協(xié)議。Jabber是一個基于XMPP協(xié)議的IM應(yīng)用,除Jabber之外,XMPP還支

持很多應(yīng)用。

下面就是如何架設(shè)內(nèi)部即時通訊服務(wù)的步驟: . 

(7)按照web標準的要求,規(guī)范自己網(wǎng)頁的html代碼,讓自己的網(wǎng)頁通過w3c代碼和css標準檢測;
(8)不要想著作弊,做好網(wǎng)站內(nèi)容最關(guān)鍵。

提交成功!非常感謝您的反饋,我們會繼續(xù)努力做到更好!

這條文檔是否有幫助解決問題?

非常抱歉未能幫助到您。為了給您提供更好的服務(wù),我們很需要您進一步的反饋信息:

在文檔使用中是否遇到以下問題: