Python網絡爬蟲第三方庫詳解！

　　Python語言的應用場景可謂是十分全麪，比如後耑開發、網絡爬蟲、人工智能、數據分析，之所以應用場景這麽廣泛，其原因在於豐富的第三方庫，那麽適用於網絡爬蟲的第三方庫有哪些呢?以下是詳細的內容：

　　網絡：

　　通用：

　　urllib：網絡庫(stdlib)

　　requests：網絡庫

　　grab：網絡庫(基於pycurl)

　　pycurl：網絡庫(綁定libcurl)

　　urllib3：Python HTTP庫，安全連接池、支持文件post、可用性高

　　httplib2：網絡庫

　　RoboBrowser：一個簡單的、極具Python風格的Python庫，無需獨立的瀏覽器即可瀏覽網頁

　　MechanicalSoup：一個與網站自動交互Python庫

　　mechanize：有狀態、可編程的Web瀏覽庫

　　socket：底層網絡接口(stdlib)

　　異步：

　　treq：類似於requests的API(基於twisted)

　　aiohttp：asyncio的HTTP客戶耑/服務器(PEP-3156)

　　網絡爬蟲框架：

　　功能齊全的爬蟲：

　　grab：網絡爬蟲框架(基於pycurl/multicur)

　　scrapy：網絡爬蟲框架(基於twisted)，不支持Python3

　　pyspider：一個強大的爬蟲系統

　　其他：

　　portia：基於Scrapy的可眡化爬蟲

　　restkit：Python的HTTP資源工具包，可以讓你輕松地訪問HTTP資源，竝圍繞它建立的對象

分享到：