国产欧美日韩第一页|日本一二三不卡视频|在线精品小视频,亚洲第一免费播放区,metcn人体亚洲一区,亚洲精品午夜视频

相關(guān)文章

云南公布第二批免費(fèi)向社會(huì)提供信息技術(shù)服務(wù)企業(yè)名單中國(guó)互聯(lián)網(wǎng)企業(yè)赴美上市規(guī)模預(yù)計(jì)今年或減半【滇企復(fù)工進(jìn)行時(shí)】藍(lán)隊(duì)云：未雨綢繆，危機(jī)之下必有機(jī)遇搜狐、騰訊、迅雷等一批互聯(lián)網(wǎng)公司涉黃被罰5萬(wàn) 他們失敗的辛酸血淚史：億唐網(wǎng)、博客中國(guó)、酷6網(wǎng)、飯否

幫助中心 > 技術(shù)知識(shí)庫(kù) > 云服務(wù)器 > 服務(wù)器教程 > 網(wǎng)站防止數(shù)據(jù)被采集的十點(diǎn)建議

網(wǎng)站防止數(shù)據(jù)被采集的十點(diǎn)建議

2024-08-16 16:43:48 6083

網(wǎng)站防止數(shù)據(jù)被采集的十點(diǎn)建議

藍(lán)隊(duì)云小課堂：

很多防采集方法在施行的時(shí)候需要考慮是否影響搜索引擎對(duì)網(wǎng)站的抓取，所以先來(lái)分析下一般采集器和搜索引擎爬蟲(chóng)采集有何不同。
相同點(diǎn)：a. 兩者都需要直接抓取到網(wǎng)頁(yè)源碼才能有效工作，b. 兩者單位時(shí)間內(nèi)會(huì)多次大量抓取被訪問(wèn)的網(wǎng)站內(nèi)容；c. 宏觀上來(lái)講兩者IP都會(huì)變動(dòng)；d. 兩者多沒(méi)耐心的去破解你對(duì)網(wǎng)頁(yè)的一些加密(驗(yàn)證)，比如網(wǎng)頁(yè)內(nèi)容通過(guò)js文件加密，比如需要輸入驗(yàn)證碼才能瀏覽內(nèi)容，比如需要登錄才能訪問(wèn)內(nèi)容等。

不同點(diǎn)：搜索引擎爬蟲(chóng)先忽略整個(gè)網(wǎng)頁(yè)源碼腳本和樣式以及html標(biāo)簽代碼，然后對(duì)剩下的文字部分進(jìn)行切詞語(yǔ)法句法分析等一系列的復(fù)雜處理。而采集器一般是通過(guò)html標(biāo)簽特點(diǎn)來(lái)抓取需要的數(shù)據(jù)，在制作采集規(guī)則時(shí)需要填寫(xiě)目標(biāo)內(nèi)容的開(kāi)始標(biāo)志何結(jié)束標(biāo)志，這樣就定位了所需要的內(nèi)容；或者采用對(duì)特定網(wǎng)頁(yè)制作特定的正則表達(dá)式，來(lái)篩選出需要的內(nèi)容。無(wú)論是利用開(kāi)始結(jié)束標(biāo)志還是正則表達(dá)式，都會(huì)涉及到html標(biāo)簽(網(wǎng)頁(yè)結(jié)構(gòu)分析)。

然后再來(lái)提出一些防采集方法
1、限制IP地址單位時(shí)間的訪問(wèn)次數(shù)
分析：沒(méi)有哪個(gè)常人一秒鐘內(nèi)能訪問(wèn)相同網(wǎng)站5次，除非是程序訪問(wèn)，而有這種喜好的，就剩下搜索引擎爬蟲(chóng)和討厭的采集器了。
弊端：一刀切，這同樣會(huì)阻止搜索引擎對(duì)網(wǎng)站的收錄
適用網(wǎng)站：不太依靠搜索引擎的網(wǎng)站
采集器會(huì)怎么做：減少單位時(shí)間的訪問(wèn)次數(shù)，減低采集效率

2、屏蔽ip
分析：通過(guò)后臺(tái)計(jì)數(shù)器，記錄來(lái)訪者ip和訪問(wèn)頻率，人為分析來(lái)訪記錄，屏蔽可疑Ip。
弊端：似乎沒(méi)什么弊端，就是站長(zhǎng)忙了點(diǎn)
適用網(wǎng)站：所有網(wǎng)站，且站長(zhǎng)能夠知道哪些是google或者百度的機(jī)器人
采集器會(huì)怎么做：打游擊戰(zhàn)唄！利用ip代理采集一次換一次，不過(guò)會(huì)降低采集器的效率和網(wǎng)速(用代理嘛)。

3、利用js加密網(wǎng)頁(yè)內(nèi)容
Note:這個(gè)方法我沒(méi)接觸過(guò)，只是從別處看來(lái)
分析：不用分析了，搜索引擎爬蟲(chóng)和采集器通殺
適用網(wǎng)站：極度討厭搜索引擎和采集器的網(wǎng)站
采集器會(huì)這么做：你那么牛，都豁出去了，他就不來(lái)采你了

4、網(wǎng)頁(yè)里隱藏網(wǎng)站版權(quán)或者一些隨機(jī)垃圾文字，這些文字風(fēng)格寫(xiě)在css文件中
分析：雖然不能防止采集，但是會(huì)讓采集后的內(nèi)容充滿了你網(wǎng)站的版權(quán)說(shuō)明或者一些垃圾文字，因?yàn)橐话悴杉鞑粫?huì)同時(shí)采集你的css文件，那些文字沒(méi)了風(fēng)格，就顯示出來(lái)了。
適用網(wǎng)站：所有網(wǎng)站
采集器會(huì)怎么做：對(duì)于版權(quán)文字，好辦，替換掉。對(duì)于隨機(jī)的垃圾文字，沒(méi)辦法，勤快點(diǎn)了。

5、用戶登錄才能訪問(wèn)網(wǎng)站內(nèi)容
分析：搜索引擎爬蟲(chóng)不會(huì)對(duì)每個(gè)這樣類(lèi)型的網(wǎng)站設(shè)計(jì)登錄程序。聽(tīng)說(shuō)采集器可以針對(duì)某個(gè)網(wǎng)站設(shè)計(jì)模擬用戶登錄提交表單行為。
適用網(wǎng)站：極度討厭搜索引擎，且想阻止大部分采集器的網(wǎng)站
采集器會(huì)怎么做：制作擬用戶登錄提交表單行為的模塊

6、利用腳本語(yǔ)言做分頁(yè)(隱藏分頁(yè))
分析：還是那句，搜索引擎爬蟲(chóng)不會(huì)針對(duì)各種網(wǎng)站的隱藏分頁(yè)進(jìn)行分析，這影響搜索引擎對(duì)其收錄。但是，采集者在編寫(xiě)采集規(guī)則時(shí)，要分析目標(biāo)網(wǎng)頁(yè)代碼，懂點(diǎn)腳本知識(shí)的人，就會(huì)知道分頁(yè)的真實(shí)鏈接地址。
適用網(wǎng)站：對(duì)搜索引擎依賴度不高的網(wǎng)站，還有，采集你的人不懂腳本知識(shí)
采集器會(huì)怎么做：應(yīng)該說(shuō)采集者會(huì)怎么做，他反正都要分析你的網(wǎng)頁(yè)代碼，順便分析你的分頁(yè)腳本，花不了多少額外時(shí)間。

7、防盜鏈措施(只允許通過(guò)本站頁(yè)面連接查看，如：Request.ServerVariables(“HTTP_REFERER“) )
分析：asp和php可以通過(guò)讀取請(qǐng)求的HTTP_REFERER屬性，來(lái)判斷該請(qǐng)求是否來(lái)自本網(wǎng)站，從而來(lái)限制采集器，同樣也限制了搜索引擎爬蟲(chóng)，嚴(yán)重影響搜索引擎對(duì)網(wǎng)站部分防盜鏈內(nèi)容的收錄。
適用網(wǎng)站：不太考慮搜索引擎收錄的網(wǎng)站
采集器會(huì)怎么做：偽裝HTTP_REFERER嘛，不難。

8、全flash、圖片或者pdf來(lái)呈現(xiàn)網(wǎng)站內(nèi)容
分析：對(duì)搜索引擎爬蟲(chóng)和采集器支持性不好，這個(gè)很多懂點(diǎn)seo的人都知道
適用網(wǎng)站：媒體設(shè)計(jì)類(lèi)并且不在意搜索引擎收錄的網(wǎng)站
采集器會(huì)怎么做：不采了，走人

9、網(wǎng)站隨機(jī)采用不同模版
分析：因?yàn)椴杉魇歉鶕?jù)網(wǎng)頁(yè)結(jié)構(gòu)來(lái)定位所需要的內(nèi)容，一旦先后兩次模版更換，采集規(guī)則就失效，不錯(cuò)。而且這樣對(duì)搜索引擎爬蟲(chóng)沒(méi)影響。
適用網(wǎng)站：動(dòng)態(tài)網(wǎng)站，并且不考慮用戶體驗(yàn)。
采集器會(huì)怎么做：一個(gè)網(wǎng)站模版不可能多于10個(gè)吧，每個(gè)模版弄一個(gè)規(guī)則就行了，不同模版采用不同采集規(guī)則。如果多于10個(gè)模版了，既然目標(biāo)網(wǎng)站都那么費(fèi)勁的更換模版，成全他，撤。

10、采用動(dòng)態(tài)不規(guī)則的html標(biāo)簽
分析：這個(gè)比較變態(tài)?？紤]到html標(biāo)簽內(nèi)含空格和不含空格效果是一樣的，所以< div >和< div >對(duì)于頁(yè)面顯示效果一樣，但是作為采集器的標(biāo)記就是兩個(gè)不同標(biāo)記了。如果每次頁(yè)面的html標(biāo)簽內(nèi)空格數(shù)隨機(jī)，那么
采集規(guī)則就失效了。但是，這對(duì)搜索引擎爬蟲(chóng)沒(méi)多大影響。
適合網(wǎng)站：所有動(dòng)態(tài)且不想遵守網(wǎng)頁(yè)設(shè)計(jì)規(guī)范的網(wǎng)站。
采集器會(huì)怎么做：還是有對(duì)策的，現(xiàn)在html cleaner還是很多的，先清理了html標(biāo)簽，然后再寫(xiě)采集規(guī)則；應(yīng)該用采集規(guī)則前先清理html標(biāo)簽，還是能夠拿到所需數(shù)據(jù)。

總結(jié)：
一旦要同時(shí)搜索引擎爬蟲(chóng)和采集器，這是很讓人無(wú)奈的事情，因?yàn)樗阉饕娴谝徊骄褪遣杉繕?biāo)網(wǎng)頁(yè)內(nèi)容，這跟采集器原理一樣，所以很多防止采集的方法同時(shí)也阻礙了搜索引擎對(duì)網(wǎng)站的收錄，無(wú)奈，是吧？以上10條建議雖然不能百分之百防采集，但是幾種方法一起適用已經(jīng)拒絕了一大部分采集器了。

更多小知識(shí)，可聯(lián)系藍(lán)隊(duì)云一起探討。

售前咨詢

售前咨詢服務(wù)時(shí)間：09:00-23:30

售前值班
4006-75-4006

咨詢熱線：

4006-75-4006（09:00-23:30）
0871-6388 6388 （總機(jī)）（工作日 09:00-18:00）

您可能遇到了下面的問(wèn)題：
云服務(wù)器問(wèn)題對(duì)象存儲(chǔ)計(jì)費(fèi) 域名注冊(cè)指南
售后咨詢

售后咨詢服務(wù)時(shí)間：00:00-24:00

24H值班技術(shù)
4006-75-4006

投訴與建議 最快響應(yīng)10分鐘

您可能遇到了下面的問(wèn)題：
云服務(wù)器教程遠(yuǎn)程登陸問(wèn)題 FTP上傳問(wèn)題其他問(wèn)題查詢
備案咨詢

備案咨詢服務(wù)時(shí)間：09:00-18:00（工作日）

備案專業(yè)客服
0871-6388 6388

您可能遇到了下面的問(wèn)題：
備案所需材料提交備案流程關(guān)于幕布申請(qǐng) 備案服務(wù)指引
電話

0871-6388 6388 （總機(jī)）
工單
二維碼
TOP