基于requests百度图库图片爬取-python黑洞网

本站消息

站长简介/公众号

出租广告位,需要合作请联系站长

妖怪还我师傅

1134

文章

927428

访问

+关注

分类

暂无分类

日期归档

2024-11(3)

基于requests百度图库图片爬取

发布于2019-08-07 12:09 阅读(1181) 评论(0) 点赞(2) 收藏(4)

这几天尝试图片的爬取，根据一篇博客，有了一些收获，来总结一下，此次爬取的对象是百度图库。百度爬虫分为就3部分：

（1）获得批量图片的url；

（2）通过每张图片的url获取图像内容；

（3）保存图片。

以上所有内容都是基于reques完成的。

url = 'http://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&fm=result&pos=history&word='+word+'&pn='

这是百度图库的链接，关键的是'&pn=',这个可以获取不同页，但是百度图库是往下拉动的，这个还是看别人博客才知道，不加这个只能获取30个图片。

（1）定义的第一个函数Many_urls,获取批量图片的url。这里输入是百度图库的网址和想要获取图像的数量，返回获取的批量图像的url列表。

def Many_urls(Url,num):
    
    print('正在检测图片，请稍等.....')
    t = 0
    List=[]
    
    while t < (int(num/30)+1):
        url = Url + str(t)
        t+=1
        try:
            urls=requests.get(url)
            
            urls.encoding='utf-8'
            text = urls.text
            pic_url = re.findall('"objURL":"(.*?)",', text, re.S)  # 先利用正则表达式找到图片url
            
            if len(pic_url) == 0:
                break
            else:
                List.extend(pic_url)
            
        except:
            print('打开网页失败')
            continue
        
                
    return List

（2）定义获取图像的函数，输入是图片的url，输出的是图片的content。

def pic_content(url):    
    try: 
        pic=requests.get(url)
        
    except:         
        print('图片获取失败')
    return pic.content

（3）将获取到的图像保存起来，输入是图像的content。

def pic_download(content,string):
    fp = open(string, 'wb')
    fp.write(content)
    fp.close()

整个实验代码如下，可以运行下，图片文件夹在文件所在位置。

# -*- coding: utf-8 -*-
import re
import requests
import os
import time

num = 0
numPicture = 0
file = ''
List = []
word=''

def Many_urls(Url,num):
    
    print('正在检测图片，请稍等.....')
    t = 0
    List=[]
    
    while t < (int(num/30)+1):
        url = Url + str(t)
        t+=1
        try:
            urls=requests.get(url)
            
            urls.encoding='utf-8'
            text = urls.text
            pic_url = re.findall('"objURL":"(.*?)",', text, re.S)  # 先利用正则表达式找到图片url
            
            if len(pic_url) == 0:
                break
            else:
                List.extend(pic_url)
            
        except:
            print('打开网页失败')
            continue
        
                
    return List
    
def pic_content(url):    
    try: 
        pic=requests.get(url)
        
    except:         
        print('图片获取失败')
    return pic.content

def pic_download(content,string):
    fp = open(string, 'wb')
    fp.write(content)
    fp.close()
    

 
 
if __name__ == '__main__':  # 主函数入口
    
    word = input("请输入搜索关键词(可以是人名，地名等): ")
    
    url = 'http://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&fm=result&pos=history&word='+word+'&pn='
    numPicture = int(input('请输入想要下载的图片数量 '))
    urls=Many_urls(url,numPicture)
    
    print('检测完成！！！！！！！！！！！！！')
    time.sleep(1)

    file = input('请建立一个存储图片的文件夹，输入文件夹名称即可')
    
    if os.path.exists(file):
        print('该文件已存在，请重新输入')
        file = input('请建立一个存储图片的文件夹，)输入文件夹名称即可')
        os.mkdir(file)
    else:
        os.mkdir(file)
        
    num=1
    print('找到关键词:' + word + '的图片，即将开始下载图片...')
    for url in urls[:numPicture]:
        try:
            string = file + r'\\' + word + '_' + str(num) + '.jpg'
            print('正在下载第' + str(num + 1) + '张图片，图片地址:' + url)
            content=pic_content(url)
            pic_download(content,string)
            num+=1
        except:
            continue

    print('当前搜索结束，感谢使用')
    print('猜你喜欢')