python爬虫模块抓取网站内容(creepy模块)_Python模块

python爬虫模块抓取网站内容(creepy模块): 发布时间：2020-01-26编辑：脚本学堂

有关python爬虫模块creepy抓取网站内容的例子，可以自动抓取某网站的所有内容，也可设定那些url需要抓取，一台湾的python大牛开发的，超级好用。

python写的爬虫抓取网站内容，这里分享下使用过的爬虫工具，主要介绍creepy模块的用法。

creepy是某台湾大神开发的，功能简单，可以自动抓取某网站的所有内容，也可设定那些url需要抓取。

地址：https://pypi.python.org/pypi/creepy

功能接口：
set_content_type_filter:
设定抓取的content-type（header中的contenttype）。包括text/html

add_url_filter：
过滤url，传入可以是正则表达式

set_follow_mode：
设定递归模式，F_ANY：该页面上所有链接都会抓取。
F_SAME_DOMAIN和F_SAME_HOST类似。即同一个域名的都会抓取。F_SAME_PATH：同一路径的抓取。
例如，bag.vancl.com/l1/d3/1.jpg path为l1/d3/1.jpg，则path为l1/d3/*的都会抓取。
可以根据需要增加自己的递归模式。

set_concurrency_level：
设定线程最大数

process_document：
一般需要重写，处理网页内容，提取内容。

selenium
可视化界面，抓取自动化，api使用超简单，与自己在操作浏览器几乎一样。

官方网站：
http://www.seleniumhq.org/

python官方网站：
http://pypi.python.org/pypi/selenium

webdriver api：
http://www.seleniumhq.org/docs/03_webdriver.jsp

例子，python爬虫代码抓取凡客网站：

复制代码代码示例:

from selenium import webdriver  

from selenium.webdriver.common.keys import Keys  

import time  

browser = webdriver.Firefox()  

browser.get('http://bag.vancl.com/28145-28167-a18568_18571-b1-n3-s1.html#ref=hp-hp-hot-8_1_1-v:n')  

elem = browser.find_element_by_name('ch_bag-3-page-next')  # Find the search box  

time.sleep(1)  

print elem.get_attribute("href")  

elem.click()  

time.sleep(1)  

elem = browser.find_element_by_name('ch_bag-3-page-next')  # Find the search box  

print elem.get_attribute("href")  

elem.click()

上一篇：python optionparser模块用法教程与例子
下一篇：python optparse模块用法实例详解

与 python爬虫模块抓取网站内容(creepy模块) 有关的文章

本文标题：python爬虫模块抓取网站内容(creepy模块)
本页链接：http://www.jb200.com/python/27716.htm

浏览排行

栏目分类

热点文章

python爬虫模块抓取网站内容(creepy模块)