亚洲av成人无码网天堂,少妇白浆高潮无码免费区,小污女小欲女导航,色欲久久综合亚洲精品蜜桃,亚洲,欧美,日韩,综合

<blockquote id="msiqy"><dfn id="msiqy"></dfn></blockquote>

<ul id="msiqy"></ul>

當前位置： OFweek 人工智能網(wǎng) > 其他 > 正文

深挖網(wǎng)絡爬蟲技術及Crawl4J應用

2019-03-15 10:18

啟迪云計算

配置介紹：

config．setMaxDepthOfCrawling（int maxDepthOfCrawling）：抓取深度限制，默認抓取深度不受限制（設定值為－1也不受限制）。如種子頁面為A，A鏈接到B，B鏈接到C，C鏈接到D。種子頁面A的深度為0，B的深度為1，以此類推。如果設定值為2，就不會抓取到D鏈接的內(nèi)容。

config．setPolitenessDelay（int politenessDelay）：每次請求前等待毫秒數(shù)，默認不等待�？梢苑乐棺ト≌埱筮^快而被服務器端認為是非法請求而終止訪問的情況。

可以通過如下代碼設定代理設置：

crawlConfig．setProxyHost（＂proxyserver．example．com＂）；

crawlConfig．setProxyPort（8080）；

如果代理需要認證：

crawlConfig．setProxyUsername（username）；

crawlConfig．getProxyPassword（password）；

解析器

代碼解釋：

shouldVisit（）：用來實現(xiàn)滿足抓取數(shù)據(jù)的條件，如滿足抓取條件則返回true，返回false代表不滿足條件則放棄本次抓取。

visit（）：抓取返回的響應結果，此示例中通過Jsoup來解析響應內(nèi)容。Jsoup的代碼解析語法遵循JavaScript規(guī)范要求，對熟悉JavaScript的開發(fā)者使用起來比較方便易懂。

標簽定位：HTML標簽定位可以通過瀏覽器控制臺的方式進行查看。

資源庫：

本示例中通過Java標準輸出流來替代資源庫的實現(xiàn)部分，未單獨實現(xiàn)資源庫的代碼。從輸出結果可以看出項目設定10個線程同時抓取滿足條件的第一級深度的博客文章共計21篇。

規(guī)避反爬蟲技術

在實際項目抓取的過程中應該滿足君子協(xié)議即不違背robots．txt定義的抓取協(xié)議。同時爬蟲項目的開發(fā)中可能會遇被抓取的WEB網(wǎng)站對訪問頻繁程度的限制，異步Ajax動態(tài)渲染數(shù)據(jù)等�？梢詤⒖既缦路椒ń鉀Q：

通過設定動態(tài)IP代理的方式，每抓取幾次之后動態(tài)更換IP地址，讓服務器端判斷每次IP來源不同；

通過設定抓取前休眠時間來降低抓取頻度；

分析動態(tài)Ajax請求，結合Jsoup進行單獨的URL請求，獲取異步請求數(shù)據(jù)響應內(nèi)容；

通過Selenium等相關自動化測試工具，模擬真實的瀏覽器請求獲取Ajax異步請求渲染之后的數(shù)據(jù)；

通過設定Header中的值，來規(guī)避相關請求參數(shù)的限制。

<上一頁 1 2

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

一周熱點月點擊榜

企業(yè)服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

掃碼關注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯

x

_*文字標題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網(wǎng)安備 44030502002758號

<menu id="4fzry"></menu>