華為官方解析何為 Python 爬蟲

2019/7/8 9:11:30 來源:IT之家 作者:滄海 責編:滄海

IT之家7月8日消息 據華為中國官方消息,今日,華為中國發文《小白看過來,讓Python爬蟲成為你的好幫手》,文中詳細介紹了Python爬蟲的工作原理,我們來看一下吧。

以下為《小白看過來,讓Python爬蟲成為你的好幫手》全文:

隨著信息化社會的到來,人們對網絡爬蟲這個詞已經不再陌生。但什么是爬蟲,如何利用爬蟲為自己服務,這些在ICT技術小白聽起來又有些高入云端。不用愁,下面一文帶你走近爬蟲世界,讓即使身為ICT技術小白的你,也能秒懂使用Python爬蟲高效抓取圖片。

什么是專用爬蟲?

網絡爬蟲是一種從互聯網抓取數據信息的自動化程序。如果我們把互聯網比作一張大的蜘蛛網,數據便是存放于蜘蛛網的各個節點,而爬蟲就是一只小蜘蛛(程序),沿著網絡抓取自己的獵物(數據)。

爬蟲可以在抓取過程中進行各種異常處理、錯誤重試等操作,確保爬取持續高效地運行。它分為通用爬蟲和專用爬蟲。通用爬蟲是捜索引擎抓取系統的重要組成部分,主要目的是將互聯網上的網頁下載到本地,形成一個互聯網內容的鏡像備份;專用爬蟲主要為某一類特定的人群提供服務,爬取的目標網頁定位在與主題相關的頁面中,節省大量的服務器資源和帶寬資源。比如要獲取某一垂直領域的數據或有明確的檢索需求,此時就需要過濾掉一些無用的信息。

爬蟲工作原理

爬蟲可以根據我們提供的信息從網頁上獲取大量的圖片,它的工作原理是什么呢?

爬蟲首先要做的工作是獲取網頁的源代碼,源代碼里包含了網頁的部分有用信息;之后爬蟲構造一個請求并發送給服務器,服務器接收到響應并將其解析出來。實際上,獲取網頁——分析網頁源代碼——提取信息,便是爬蟲工作的三部曲。如何提取信息?最通用的方法是采用正則表達式。網頁結構有一定的規則,還有一些根據網頁節點屬性、CSS選擇器或XPath來提取網頁信息的庫,如Requests、pyquery、lxml等,使用這些庫,便可以高效快速地從中提取網頁信息,如節點的屬性、文本值等,并能簡單保存為TXT文本或JSON文本,這些信息可保存到數據庫,如MySQL和MongoDB等,也可保存至遠程服務器,如借助SFTP進行操作等。提取信息是爬蟲非常重要的作用,它可以使雜亂的數據變得條理清晰,以便我們后續處理和分析數據。

軟媒旗下網站: IT之家 辣品 - 超值導購,優惠券 IT圈(Win10/WP8.1/Win7論壇) 最會買 - 返利返現優惠券 6655網址之家 Win10之家 Win8之家 Win7之家 Vista之家

軟媒旗下軟件: 魔方 旗魚瀏覽器(極速內核) 云日歷 酷點桌面 閃游瀏覽器(IE內核) Win7優化大師 Win8優化大師 Win10優化大師 軟媒手機APP應用

贵州快3开奖号码走势