点击排行

您现在的位置：首页 > 技术文档 > Python网络爬虫

python小技巧之批量抓取美女图片

来源：中文源码网浏览：217 次日期：2024-05-17 02:37:30

python小技巧之批量抓取美女图片
其中用到urllib2模块和正则表达式模块。下面直接上代码：
[/code]#!/usr/bin/env python#-*- coding: utf-8 -*-#通过urllib(2)模块下载网络内容import urllib,urllib2,gevent#引入正则表达式模块，时间模块import re,timefrom gevent import monkeymonkey.patch_all()def geturllist(url): url_list=[] print url s = urllib2.urlopen(url) text = s.read() #正则匹配，匹配其中的图片 html = re.search(r'', text, re.S) urls = re.finditer(r'

',html.group(),re.I) for i in urls: url=i.group(1).strip()+str("jpg") url_list.append(url) return url_listdef download(down_url): name=str(time.time())[:-3]+"_"+re.sub('.+?/','',down_url) print name urllib.urlretrieve(down_url, "D:\\TEMP\\"+name)def getpageurl(): page_list = [] #进行列表页循环 for page in range(1,700): url="http://jandan.net/ooxx/page-"+str(page)+"#comments" #把生成的url加入到page_list中 page_list.append(url) print page_list return page_listif __name__ == '__main__': jobs = [] pageurl = getpageurl()[::-1] #进行图片下载 for i in pageurl: for (downurl) in geturllist(i): jobs.append(gevent.spawn(download, downurl)) gevent.joinall(jobs)[/code]
程序不长才45行，不是太难，大家可以研究下，这里我只是抛砖引玉，大家可以根据原理开发出其他的抓取程序，呵呵，自己想去吧。。。我就不多说了~~

上一篇：深度剖析使用python抓取网页正文的源码

下一篇：测试、预发布后用python检测网页是否有日常链接

点击排行

您现在的位置：首页 > 技术文档 > Python网络爬虫

python小技巧之批量抓取美女图片

相关内容