分享一例python 正则实现的代码:
import os,urllib,urllib2
import re,sys
url = "http://jt.sz.bendibao.com/bus/linesearch.aspx?line=615&x=0&y=0"
page = urllib.urlopen(url).read()
pat = re.compile(r<div class="line"></div>(.*?)<div class="pad8lr lh24 blue_06c">,flags=20)
cont = pat.search(page).group(1)
cont = re.sub(r<(.*?)>,,cont)
print cont
输出结果:
运营时间:5:50-21:20
票价:上车2元,全程7元
往程:七十二区总站 - 金威啤酒厂 - 新福市场 - 宝城批发市场 - 宝安海关大厦 - 宝安党校 - 新安影剧院 - 恒丰商场 - 沁园公园 - 教育培训中心 - 恒丰中心 - 宝安税务局 - 宝安海雅百货 - 冠利达大厦 - 建安新村 - 北方公司 - 西乡路口 - 臣田 - 固戍 - 劲力集团 - 三围路口 - 中华商贸城 - 鹤洲路口 - 钟屋 - 翠湖花园 - 机场路口 - 下十围 - 白石厦 - 福永工业区 - 凤凰工业区 - 福永汽车站凤凰分站 - 上南油站 - 沙井电子城 - 上寮市场 -上南酒店 - 上寮市场 - 沙井天虹商场 - 万丰派出所 - 万丰工业区 - 马鞍山市场 - 茭塘工业区 - 大王山 - 三洋马达厂 - 沙一村 - 海欣花园 - 安托山科技园 - 海上田园风光 - 国富康总站
返程:国富康总站 - 海上田园风光 - 安托山科技园 - 海欣花园 - 沙一村 - 三洋马达厂 - 大王山 - 茭塘工业区 - 马鞍山市场 - 万丰工业区 - 万丰派出所 - 沙井天虹商场 - 上寮市场 - 沙井电子城 - 上南油站 - 福永汽车站凤凰分站 - 凤凰工业区 - 福永工业区 - 白石厦 - 下十围 - 机场路口 - 翠湖花园 - 钟屋 - 鹤洲路口 - 中华商贸城 - 三围路口 - 劲力集团 - 固戍 - 臣田 - 西乡路口 - 北方公司 - 建安新村 - 冠利达大厦 - 宝安海雅百货 - 宝安税务局 - 恒丰中心 - 教育培训中心 - 沁园公园 - 恒丰商场 - 新安影剧院 - 宝安党校 - 宝安海关大厦 - 宝城批发市场 - 新福市场 - 金威啤酒厂 - 七十二区总站
在python中使用正则表达式可以方便地获取数据,上例中也显示了os,urllib,urllib2模块的用法,希望对大家有所帮助。