国产欧美日韩第一页|日本一二三不卡视频|在线精品小视频,亚洲第一免费播放区,metcn人体亚洲一区,亚洲精品午夜视频

幫助中心 >  技術(shù)知識(shí)庫 >  網(wǎng)站相關(guān) >  程序開發(fā) >  百度、谷歌搜索引擎原理及新網(wǎng)站應(yīng)對(duì)

百度、谷歌搜索引擎原理及新網(wǎng)站應(yīng)對(duì)

2009-12-01 14:19:49 3488

百度、谷歌搜索引擎原理及新網(wǎng)站應(yīng)對(duì)


第一節(jié) 搜索引擎原理

1、基本概念

來源于中文wiki百科的解釋:(網(wǎng)絡(luò))搜索引擎指自動(dòng)從互聯(lián)網(wǎng)搜集信息,經(jīng)過一定整理以后,提供給用戶進(jìn)行查詢的系統(tǒng)。
來源于英文wiki百科的解釋:Web search engines provide an interface to search for information on the World Wide Web.Information may consist of web pages, images and other types of files.(網(wǎng)絡(luò)搜索引擎為用戶提供接口查找互聯(lián)網(wǎng)上的信息內(nèi)容,這些信息內(nèi)容包括網(wǎng)頁、圖片以及其他類型的文檔) 成功的人生,需要自己去經(jīng)營,別再說了,莫再等了,現(xiàn)在就為自己的人生做好規(guī)劃,為人生點(diǎn)亮一盞明燈,贏在人生起跑點(diǎn)上。

2、分類 本站所提供的攝影照片,插畫,設(shè)計(jì)作品,如需使用,請(qǐng)與原作者聯(lián)系。

按照工作原理的不同,可以把它們分為兩個(gè)基本類別:全文搜索引擎(FullText Search Engine)和分類目錄Directory)。 ..

分類目錄則是通過人工的方式收集整理網(wǎng)站資料形成數(shù)據(jù)庫的,比如雅虎中國以及國內(nèi)的搜狐、新浪、網(wǎng)易分類目錄。另外,在網(wǎng)上的一些導(dǎo)航站點(diǎn),也可以歸屬為原始的分類目錄,比如“網(wǎng)址之家”(http://www.tjdsmy.cn/)。 .

全文搜索引擎通過自動(dòng)的方式分析網(wǎng)頁的超鏈接,依靠超鏈接和HTML代碼分析獲取網(wǎng)頁信息內(nèi)容,并按事先設(shè)計(jì)好的規(guī)則分析整理形成索引,供用戶查詢。 !

兩者的區(qū)分可用一句話概括:分類目錄是人工方式建立網(wǎng)站的索引,全文搜索是自動(dòng)方式建立網(wǎng)頁的索引。(有些人經(jīng)常把搜索引擎和數(shù)據(jù)庫檢索相比較,其實(shí)是錯(cuò)誤的)。 ..

3、全文搜索的工作原理

全文搜索引擎一般信息采集、索引、搜索三個(gè)部分組成,詳細(xì)的可由搜索器、分析器、索引器、檢索器和用戶接口等5個(gè)部分組成

(1)信息采集(Web crawling):信息采集的工作由搜索器和分析器共同完成,搜索引擎利用稱為網(wǎng)絡(luò)爬蟲(crawlers)、網(wǎng)絡(luò)蜘蛛(spider)或者叫做網(wǎng)絡(luò)機(jī)器人(robots)的自動(dòng)搜索機(jī)器人程序來查詢網(wǎng)頁上的超鏈接。 。

進(jìn)一步解釋一下:"機(jī)器人"實(shí)際上是一些基于Web的程序,通過請(qǐng)求Web站點(diǎn)上的HTML網(wǎng)頁來對(duì)采集該HTML網(wǎng)頁,它遍歷指定范圍內(nèi)的整個(gè)Web空間,不斷從一個(gè)網(wǎng)頁轉(zhuǎn)到另一個(gè)網(wǎng)頁,從一個(gè)站點(diǎn)移動(dòng)到另一個(gè)站點(diǎn),將采集到的網(wǎng)頁添加到網(wǎng)頁數(shù)據(jù)庫中。"機(jī)器人"每遇到一個(gè)新的網(wǎng)頁,都要搜索它內(nèi)部的所有鏈接,所以從理論上講,如果為"機(jī)器人"建立一個(gè)適當(dāng)?shù)某跏季W(wǎng)頁集,從這個(gè)初始網(wǎng)頁集出發(fā),遍歷所有的鏈接,"機(jī)器人"將能夠采集到整個(gè)Web空間的網(wǎng)頁。 特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn),本站所提供的攝影照片,插畫,設(shè)計(jì)作品,如需使用,請(qǐng)與原作者聯(lián)系

網(wǎng)上后很多開源的爬蟲程序,可以到一些開源社區(qū)中查找。 ..

關(guān)鍵點(diǎn)1:核心在于html分析,因此嚴(yán)謹(jǐn)?shù)摹⒔Y(jié)構(gòu)化的、可讀性強(qiáng)、錯(cuò)誤少的html代碼,更容易被采集機(jī)器人所分析和采集。例如,某個(gè)頁面存在<body這樣的標(biāo)簽或者沒有</body></html>這樣的結(jié)尾,在網(wǎng)頁顯示是沒有問題的,但是很有可能會(huì)被采集拒絕收錄,在例如類似../../***.htm這樣的超鏈接,也有可能造成蜘蛛無法識(shí)別。這也是需要推廣web標(biāo)準(zhǔn)的原因之一,按照web標(biāo)準(zhǔn)制作的網(wǎng)頁更容易被搜索引擎檢索和收錄。

關(guān)鍵點(diǎn)2:搜索機(jī)器人有專門的搜索鏈接庫,在搜索相同超鏈接時(shí),會(huì)自動(dòng)比對(duì)新舊網(wǎng)頁的內(nèi)容和大小,如果一致,則不采集。因此有人擔(dān)心修改后的網(wǎng)頁是否能被收錄,這是多余的。

(2)索引(Indexing):搜索引擎整理信息的過程稱為“建立索引”。搜索引擎不僅要保存搜集起來的信息,還要將它們按照一定的規(guī)則進(jìn)行編排。索引可以采用通用的大型數(shù)據(jù)庫,如ORACLE、Sybase等,也可以自己定義文件格式進(jìn)行存放。索引是搜索中較為復(fù)雜的部分,涉及到網(wǎng)頁結(jié)構(gòu)分析、分詞、排序等技術(shù),好的索引能極大的提高檢索速度。 . 

關(guān)鍵點(diǎn)1:雖然現(xiàn)在的搜索引擎都支持增量的索引,但是索引創(chuàng)建依然需要較長的時(shí)間,搜索引擎都會(huì)定期更新索引,因此即便爬蟲來過,到我們能在頁面上搜索到,會(huì)有一定的時(shí)間間隔。 本站所提供的攝影照片,插畫,設(shè)計(jì)作品,如需使用,請(qǐng)與原作者聯(lián)系。

關(guān)鍵點(diǎn)2:索引是區(qū)別好壞搜索的重要標(biāo)志。 . 

(3)檢索(Searching):用戶向搜索引擎發(fā)出查詢,搜索引擎接受查詢并向用戶返回資料。有的系統(tǒng)在返回結(jié)果之前對(duì)網(wǎng)頁的相關(guān)度進(jìn)行了計(jì)算和評(píng)估,并根據(jù)相關(guān)度進(jìn)行排序,將相關(guān)度大的放在前面,相關(guān)度小的放在后面;也有的系統(tǒng)在用戶查詢之前已經(jīng)計(jì)算了各個(gè)網(wǎng)頁的網(wǎng)頁等級(jí)(Page Rank 后文會(huì)介紹),返回查詢結(jié)果時(shí)將網(wǎng)頁等級(jí)大的放在前面,網(wǎng)頁等級(jí)小的放在后面。 。

關(guān)鍵點(diǎn)1:不同搜索引擎有不同的排序規(guī)則,因此在不同的搜索引擎中搜索相同關(guān)鍵詞,排序是不同的。

第二節(jié) 百度搜索引擎工作方式 根據(jù)專家觀察,這樣的理論和現(xiàn)象都是值得各位站長深思的,所以希望大家多做研究學(xué)習(xí),爭取總結(jié)出更多更好的經(jīng)驗(yàn)!

我所知道的百度搜索:由于工作的關(guān)系,小生有幸一直在使用百度的百事通企業(yè)搜索引擎(該部門現(xiàn)已被裁員,主要是百度的戰(zhàn)略開始向谷歌靠攏,不再單獨(dú)銷售搜索引擎,轉(zhuǎn)向搜索服務(wù)),據(jù)百度的銷售人員稱,百事通的搜索核心和大搜索的相同,只有可能版本稍低,因此我有理由相信搜索的工作方式大同小異。下面是一些簡單介紹和注意點(diǎn): 成功的人生,需要自己去經(jīng)營,別再說了,莫再等了,現(xiàn)在就為自己的人生做好規(guī)劃,為人生點(diǎn)亮一盞明燈,贏在人生起跑點(diǎn)上。

1、關(guān)于網(wǎng)站搜索的更新頻率 .

百度搜索可以設(shè)定網(wǎng)站的更新頻率和時(shí)間,一般對(duì)于大網(wǎng)站更新頻度很快,而且會(huì)專門開設(shè)獨(dú)立的爬蟲進(jìn)行跟蹤,不過百度是比較勤奮的,中小網(wǎng)站一般也會(huì)每天更新。因此,如果你希望自己的網(wǎng)站更新得更快,最好是在大型的分類目錄(例如yahoo sina 網(wǎng)易)中有你的鏈接,或者在百度自己的相關(guān)網(wǎng)站中,有你網(wǎng)站的超鏈接,在或者你的網(wǎng)站就在一些大型網(wǎng)站里面,例如大型網(wǎng)站的blog。

、關(guān)于采集的深度 ..

百度搜索可以定義采集的深度,就是說不見得百度會(huì)檢索你網(wǎng)站的全部內(nèi)容,有可能只索引你的網(wǎng)站的首頁的內(nèi)容,尤其對(duì)小型網(wǎng)站來說。 。

3、關(guān)于對(duì)時(shí)常不通網(wǎng)站的采集 ..

百度對(duì)于網(wǎng)站的通斷是有專門的判斷的,如果一旦發(fā)現(xiàn)某個(gè)網(wǎng)站不通,尤其是一些中小網(wǎng)站,百度的自動(dòng)停止往這些網(wǎng)站派出爬蟲,所以選擇好的服務(wù)器,保持網(wǎng)站24小時(shí)暢通非常重要。 .

4、關(guān)于更換IP的網(wǎng)站 .

百度搜索能夠基于域名或者ip地址,如果是域名,會(huì)自動(dòng)解析為對(duì)應(yīng)的ip地址,因此就會(huì)出現(xiàn)2個(gè)問題,第一就是如果你的網(wǎng)站和別人使用相同的IP地址,如果別人的網(wǎng)站被百度懲罰了,你的網(wǎng)站會(huì)受到牽連,第二就是如果你更換了ip地址,百度會(huì)發(fā)現(xiàn)你的域名和先前的ip地址沒有對(duì)應(yīng),也會(huì)拒絕往你的網(wǎng)站派出爬蟲。因此建議,不要隨意更換ip地址,如果有可能盡量獨(dú)享ip,保持網(wǎng)站的穩(wěn)定很重要。

5、關(guān)于靜態(tài)和動(dòng)態(tài)網(wǎng)站的采集

很多人擔(dān)心是不是類似asp?id=之類的頁面很難被收集,html這樣的頁面容易被收集,事實(shí)上情況并沒有想的這么糟,現(xiàn)在的搜索引擎大部分都支持動(dòng)態(tài)網(wǎng)站的采集和檢索,包括需要登陸的網(wǎng)站都可以檢索到,因此大可不必?fù)?dān)心自己的動(dòng)態(tài)網(wǎng)站搜索引擎無法識(shí)別,百度搜索中對(duì)于動(dòng)態(tài)的支持可以自定義。但是,如果有可能,還是盡量生成靜態(tài)頁面。同時(shí),對(duì)于大部分搜索引擎,依然對(duì)腳本跳轉(zhuǎn)(JS)、框架(frame)、 特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn),本站所提供的攝影照片,插畫,設(shè)計(jì)作品,如需使用,請(qǐng)與原作者聯(lián)系.

Flash超鏈接,動(dòng)態(tài)頁面中含有非法字符的頁面無可奈何。 對(duì)真正的成功者來說,不論他的生存條件如何,都不會(huì)自我磨滅

6、關(guān)于索引的消失 .

前面講過,搜索的索引需要?jiǎng)?chuàng)建,一般好的搜索,索引都是文本文件,而不是數(shù)據(jù)庫,因此索引中需要?jiǎng)h除一條記錄,并不是一件方便的事情。例如百度,需要使用專門的工具,人工刪除某條索引記錄。據(jù)百度員工稱,百度專門有一群人負(fù)責(zé)這件事情——接到投訴,刪除記錄,手工。當(dāng)然還能直接刪除某個(gè)規(guī)則下的所有索引,也就是可以刪除某個(gè)網(wǎng)站下的所有索引。還有一個(gè)機(jī)制(未經(jīng)驗(yàn)證),就是對(duì)于過期的網(wǎng)頁和作弊的網(wǎng)頁(主要是網(wǎng)頁標(biāo)題、關(guān)鍵詞和內(nèi)容不匹配),在重建索引的過程中也會(huì)被刪除。 !

7、關(guān)于去重 特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn),本站所提供的攝影照片,插畫,設(shè)計(jì)作品,如需使用,請(qǐng)與原作者聯(lián)系.

百度搜索的去重不如谷歌的理想,主要還是判別文章的標(biāo)題和來源地址,只要不相同,就不會(huì)自動(dòng)去重,因此不必?fù)?dān)心采集的內(nèi)容雷同而很快被搜索懲罰,谷歌的有所不同,標(biāo)題相同的被同時(shí)收錄的不多。 版權(quán)申明:本站文章均來自網(wǎng)絡(luò).

補(bǔ)充一句,不要把搜索引擎想得這么智能,基本上都是按照一定的規(guī)則和公式,想不被搜索引擎懲罰,避開這些規(guī)則即可。 。


第三節(jié) 谷歌搜索排名技術(shù) ..

對(duì)于搜索來說,谷歌強(qiáng)于百度,主要的原因就是谷歌更加公正,而百度有很多人為的因素(這也符合我國的國情),google之所以公正,源于他的排名技術(shù)Page Rank。多人知道Page Rank,是網(wǎng)站的質(zhì)量等級(jí),越小表示網(wǎng)站越優(yōu)秀。其實(shí)Page Rank是依靠一個(gè)專門的公式計(jì)算出來的,當(dāng)我們?cè)趃oogle搜索關(guān)鍵詞的時(shí)候,頁面等級(jí)小的網(wǎng)頁排序會(huì)越靠前,這個(gè)公式并沒有人工干預(yù),因此公正。 特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn),本站所提供的攝影照片,插畫,設(shè)計(jì)作品,如需使用,請(qǐng)與原作者聯(lián)系

Page Rank的最初想法來自于論文檔案的管理,我們知道每篇論文結(jié)尾都有參考文獻(xiàn),假如某篇文章被不同論文引用了多次,就可以認(rèn)為這篇文章是篇優(yōu)秀的文章。 版權(quán)申明:本站文章均來自網(wǎng)絡(luò),本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)

同理,簡單的說,PageRank 能夠?qū)W(wǎng)頁的重要性做出客觀的評(píng)價(jià)。PageRank 并不計(jì)算直接鏈接的數(shù)量,而是將從網(wǎng)頁 A 指向網(wǎng)頁 B 的鏈接解釋為由網(wǎng)頁 A 對(duì)網(wǎng)頁 B 所投的一票。這樣,PageRank 會(huì)根據(jù)網(wǎng)頁 B 所收到的投票數(shù)量來評(píng)估該頁的重要性。此外,PageRank 還會(huì)評(píng)估每個(gè)投票網(wǎng)頁的重要性,因?yàn)槟承┚W(wǎng)頁的投票被認(rèn)為具有較高的價(jià)值,這樣,它所鏈接的網(wǎng)頁就能獲得較高的價(jià)值。 .

Page Rank的公式這里省略,說說影響Page Rank的主要因素 。

1、指向你的網(wǎng)站的超鏈接數(shù)量(你的網(wǎng)站被別人引用),這個(gè)數(shù)值越大,表示你的網(wǎng)站越重要,通俗的說,就是其它網(wǎng)站是否友情鏈接,或者推薦鏈接到你的網(wǎng)站; !

2、超鏈接你的網(wǎng)站的重要程度,意思就是一個(gè)質(zhì)量好的網(wǎng)站有你的網(wǎng)站的超鏈接,說明你的網(wǎng)站也很優(yōu)秀。

3、網(wǎng)頁特定性因素:包括網(wǎng)頁的內(nèi)容、標(biāo)題及URL等,也就是網(wǎng)頁的關(guān)鍵詞及位置。


第四節(jié) 新網(wǎng)站如何應(yīng)對(duì)搜索 特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn),本站所提供的攝影照片,插畫,設(shè)計(jì)作品,如需使用,請(qǐng)與原作者聯(lián)系.

以下內(nèi)容是對(duì)上面分析的總結(jié): .

1、搜索引擎為什么不收錄你的網(wǎng)站,存在以下可能(不絕對(duì),根據(jù)各自情況不同) .

(1)沒有任何指向鏈接的孤島網(wǎng)頁,沒有被收錄的網(wǎng)站指向你的超鏈接,搜索引擎就無法發(fā)現(xiàn)你;
(2)網(wǎng)站中的網(wǎng)頁性質(zhì)及文件類型(如flash、JS跳轉(zhuǎn)、某些動(dòng)態(tài)網(wǎng)頁、frame等)搜索引擎無法識(shí)別;
(3)你的網(wǎng)站所在服務(wù)器曾被搜索引擎懲罰,而不收錄相同IP的內(nèi)容;
(4)近期更換過服務(wù)器的IP地址,搜索引擎需要一定時(shí)間重新采集;
(5)服務(wù)器不穩(wěn)定、頻繁宕機(jī),或者經(jīng)不起爬蟲采集的壓力;
(6)網(wǎng)頁代碼劣質(zhì),搜索無法正確分析頁面內(nèi)容,請(qǐng)至少學(xué)習(xí)一下HTML的基本語法,建議使用XHTML;
(7)網(wǎng)站用robots(robots.txt)協(xié)議拒絕搜索引擎抓取的網(wǎng)頁;
(8)使用關(guān)鍵詞作弊的網(wǎng)頁,網(wǎng)頁的關(guān)鍵詞和內(nèi)容嚴(yán)重不匹配,或者某些關(guān)鍵詞密度太大;
(9)非法內(nèi)容的網(wǎng)頁;
(10)相同網(wǎng)站內(nèi)存在大量相同標(biāo)題的網(wǎng)頁,或者網(wǎng)頁的標(biāo)題沒有實(shí)際含義; 成功的人生,需要自己去經(jīng)營,別再說了,莫再等了,現(xiàn)在就為自己的人生做好規(guī)劃,為人生點(diǎn)亮一盞明燈,贏在人生起跑點(diǎn)上。

2、新站如何做才正確(僅供參考) 特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn),本站所提供的攝影照片,插畫,設(shè)計(jì)作品,如需使用,請(qǐng)與原作者聯(lián)系.

(1)和優(yōu)秀的網(wǎng)站交換鏈接;
(2)廣泛登錄各種大網(wǎng)站的網(wǎng)站目錄列表;
(3)多去質(zhì)量好的論壇發(fā)言,發(fā)言要有質(zhì)量,最好不要回復(fù),發(fā)言中留下自己網(wǎng)站地址;
(4)申請(qǐng)大網(wǎng)站的博客(新浪、網(wǎng)易、CSDN),并在博客中推廣自己的網(wǎng)站;
(5)使用好的建站程序,最好能生成靜態(tài)頁面和自動(dòng)生成關(guān)鍵詞;
(6)重視每個(gè)網(wǎng)頁的標(biāo)題,以及<head>區(qū)域,盡量把符合的關(guān)鍵詞放在這些容易被搜索索引的位置,重視文章的開頭部分,盡可能在文章的開始部分使用類似摘要的功能(可以學(xué)學(xué)網(wǎng)易的文章樣式)。 .

例如“基于開源jabber(XMPP)架設(shè)內(nèi)部即時(shí)通訊服務(wù)的解決方案”; ..

標(biāo)題部分:<title>基于開源jabber(XMPP)架設(shè)內(nèi)部即時(shí)通訊服務(wù)的解決方案 - 肥龍龍(expendable)的專欄 - CSDNBlog</title>
關(guān)鍵詞部分:<meta name="keywords" cCOLOR: #c00000">安裝,">
文章描述部分:<meta name="description" cCOLOR: #c00000">是著名的即時(shí)通訊服務(wù)服務(wù)器,它是一個(gè)自由開源軟件,能讓用戶自己架即時(shí)通訊服務(wù)器,可以在Internet上應(yīng)用,也可以在局域網(wǎng)中應(yīng)用。 .

XMPP(可擴(kuò)展消息處理現(xiàn)場協(xié)議)是基于可擴(kuò)展標(biāo)記語言(XML)的協(xié)議,它用于即時(shí)消息(IM)以及在線現(xiàn)場探測。它在促進(jìn)服務(wù)器之 。

間的準(zhǔn)即時(shí)操作。這個(gè)協(xié)議可能最終允許因特網(wǎng)用戶向因特網(wǎng)上的其他任何人發(fā)送即時(shí)消息,即使其操作系統(tǒng)和瀏覽器不同。XMPP的技術(shù)來自 .

于Jabber,其實(shí)它是 Jabber的核心協(xié)定,所以XMPP有時(shí)被誤稱為Jabber協(xié)議。Jabber是一個(gè)基于XMPP協(xié)議的IM應(yīng)用,除Jabber之外,XMPP還支

持很多應(yīng)用。

下面就是如何架設(shè)內(nèi)部即時(shí)通訊服務(wù)的步驟: . 

(7)按照web標(biāo)準(zhǔn)的要求,規(guī)范自己網(wǎng)頁的html代碼,讓自己的網(wǎng)頁通過w3c代碼和css標(biāo)準(zhǔn)檢測;
(8)不要想著作弊,做好網(wǎng)站內(nèi)容最關(guān)鍵。

提交成功!非常感謝您的反饋,我們會(huì)繼續(xù)努力做到更好!

這條文檔是否有幫助解決問題?

非常抱歉未能幫助到您。為了給您提供更好的服務(wù),我們很需要您進(jìn)一步的反饋信息:

在文檔使用中是否遇到以下問題: