简单的Python爬虫

Requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库.

利用python的requests库进行请求是非常方便的一件事情详情可以戳这里查看Requests手册

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
# -*- coding:utf-8 -*-
import requests
import random
import os
import re
pic_url = [] # 创建一个列表用于存储图片的URL
for q in range( 84, 93 ): # 一个URL一张大图,多次访问
url = "http://desk.zol.com.cn/bizhi/6849_854" + str( q ) + "_2.html"
head = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36'}
ss = requests.get( url, headers=head ) # GET方式请求访问
s = re.findall( '<img id="bigImg" src="(.*?)"', ss.content ) # 通过正则表达式匹配图片URL
s = s[0]
pic_url.append( s )
print pic_url
try:
os.mkdir( "your_name" ) #创建一个文件夹
os.chdir( "your_name" ) #将工作目录转移到创建的文件夹当中
except:
os.chdir( "your_name" )
for each in pic_url: #for循环访问URL
b = random.randint( 1, 999999 ) #随机数命名图片
b = str( b )
if 'http' in each:
pass
else:
continue
print each
pic = requests.get( each )
fp = open( b + '.jpg', 'wb' ) #创建图片文件
fp.write( pic.content ) #写入数据
print "OK"