python写的爬虫抓取网站内容,这里分享下使用过的爬虫工具,主要介绍creepy模块的用法。
creepy是某台湾大神开发的,功能简单,可以自动抓取某网站的所有内容,也可设定那些url需要抓取。
地址:https://pypi.python.org/pypi/creepy
功能接口:
set_content_type_filter:
设定抓取的content-type(header中的contenttype)。包括text/html
add_url_filter:
过滤url,传入可以是正则表达式
set_follow_mode:
设定递归模式,F_ANY:该页面上所有链接都会抓取。
F_SAME_DOMAIN和F_SAME_HOST类似。即同一个域名的都会抓取。F_SAME_PATH:同一路径的抓取。
例如,bag.vancl.com/l1/d3/1.jpg path为l1/d3/1.jpg,则path为l1/d3/*的都会抓取。
可以根据需要增加自己的递归模式。
set_concurrency_level:
设定线程最大数
process_document:
一般需要重写,处理网页内容,提取内容。
selenium
可视化界面,抓取自动化,api使用超简单,与自己在操作浏览器几乎一样。
官方网站:
http://www.seleniumhq.org/
python官方网站:
http://pypi.python.org/pypi/selenium
webdriver api:
http://www.seleniumhq.org/docs/03_webdriver.jsp
例子,python爬虫代码 抓取凡客网站: