python爬虫模块抓取网站内容(creepy模块)

发布时间:2020-01-26编辑:脚本学堂
有关python爬虫模块creepy抓取网站内容的例子,可以自动抓取某网站的所有内容,也可设定那些url需要抓取,一台湾的python大牛开发的,超级好用。

python写的爬虫抓取网站内容,这里分享下使用过的爬虫工具,主要介绍creepy模块的用法。

creepy是某台湾大神开发的,功能简单,可以自动抓取某网站的所有内容,也可设定那些url需要抓取。

地址:https://pypi.python.org/pypi/creepy

功能接口:
set_content_type_filter:
设定抓取的content-type(header中的contenttype)。包括text/html

add_url_filter:
过滤url,传入可以是正则表达式

set_follow_mode:
设定递归模式,F_ANY:该页面上所有链接都会抓取。
F_SAME_DOMAIN和F_SAME_HOST类似。即同一个域名的都会抓取。F_SAME_PATH:同一路径的抓取。
例如,bag.vancl.com/l1/d3/1.jpg path为l1/d3/1.jpg,则path为l1/d3/*的都会抓取。
可以根据需要增加自己的递归模式。

set_concurrency_level:
设定线程最大数

process_document:
一般需要重写,处理网页内容,提取内容。

selenium
可视化界面,抓取自动化,api使用超简单,与自己在操作浏览器几乎一样。

官方网站:
http://www.seleniumhq.org/

python官方网站:
http://pypi.python.org/pypi/selenium

webdriver api:
http://www.seleniumhq.org/docs/03_webdriver.jsp

例子,python爬虫代码 抓取凡客网站:
 

复制代码 代码示例:
from selenium import webdriver 
from selenium.webdriver.common.keys import Keys 
import time 
 
browser = webdriver.Firefox() 
browser.get('http://bag.vancl.com/28145-28167-a18568_18571-b1-n3-s1.html#ref=hp-hp-hot-8_1_1-v:n') 
elem = browser.find_element_by_name('ch_bag-3-page-next')  # Find the search box 
time.sleep(1) 
print elem.get_attribute("href") 
elem.click() 
 
time.sleep(1) 
elem = browser.find_element_by_name('ch_bag-3-page-next')  # Find the search box 
print elem.get_attribute("href") 
elem.click()