发布于2019-08-07 12:09 阅读(999) 评论(0) 点赞(2) 收藏(4)
这几天尝试图片的爬取,根据一篇博客,有了一些收获,来总结一下,此次爬取的对象是百度图库。百度爬虫分为就3部分:
(1)获得批量图片的url;
(2)通过每张图片的url获取图像内容;
(3)保存图片。
以上所有内容都是基于reques完成的。
url = 'http://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&fm=result&pos=history&word='+word+'&pn='
这是百度图库的链接,关键的是'&pn=',这个可以获取不同页,但是百度图库是往下拉动的,这个还是看别人博客才知道,不加这个只能获取30个图片。
(1)定义的第一个函数Many_urls,获取批量图片的url。这里输入是百度图库的网址和想要获取图像的数量,返回获取的批量图像的url列表。
def Many_urls(Url,num):
print('正在检测图片,请稍等.....')
t = 0
List=[]
while t < (int(num/30)+1):
url = Url + str(t)
t+=1
try:
urls=requests.get(url)
urls.encoding='utf-8'
text = urls.text
pic_url = re.findall('"objURL":"(.*?)",', text, re.S) # 先利用正则表达式找到图片url
if len(pic_url) == 0:
break
else:
List.extend(pic_url)
except:
print('打开网页失败')
continue
return List
(2)定义获取图像的函数,输入是图片的url,输出的是图片的content。
def pic_content(url):
try:
pic=requests.get(url)
except:
print('图片获取失败')
return pic.content
(3)将获取到的图像保存起来,输入是图像的content。
def pic_download(content,string):
fp = open(string, 'wb')
fp.write(content)
fp.close()
整个实验代码如下,可以运行下,图片文件夹在文件所在位置。
# -*- coding: utf-8 -*-
import re
import requests
import os
import time
num = 0
numPicture = 0
file = ''
List = []
word=''
def Many_urls(Url,num):
print('正在检测图片,请稍等.....')
t = 0
List=[]
while t < (int(num/30)+1):
url = Url + str(t)
t+=1
try:
urls=requests.get(url)
urls.encoding='utf-8'
text = urls.text
pic_url = re.findall('"objURL":"(.*?)",', text, re.S) # 先利用正则表达式找到图片url
if len(pic_url) == 0:
break
else:
List.extend(pic_url)
except:
print('打开网页失败')
continue
return List
def pic_content(url):
try:
pic=requests.get(url)
except:
print('图片获取失败')
return pic.content
def pic_download(content,string):
fp = open(string, 'wb')
fp.write(content)
fp.close()
if __name__ == '__main__': # 主函数入口
word = input("请输入搜索关键词(可以是人名,地名等): ")
url = 'http://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&fm=result&pos=history&word='+word+'&pn='
numPicture = int(input('请输入想要下载的图片数量 '))
urls=Many_urls(url,numPicture)
print('检测完成!!!!!!!!!!!!!')
time.sleep(1)
file = input('请建立一个存储图片的文件夹,输入文件夹名称即可')
if os.path.exists(file):
print('该文件已存在,请重新输入')
file = input('请建立一个存储图片的文件夹,)输入文件夹名称即可')
os.mkdir(file)
else:
os.mkdir(file)
num=1
print('找到关键词:' + word + '的图片,即将开始下载图片...')
for url in urls[:numPicture]:
try:
string = file + r'\\' + word + '_' + str(num) + '.jpg'
print('正在下载第' + str(num + 1) + '张图片,图片地址:' + url)
content=pic_content(url)
pic_download(content,string)
num+=1
except:
continue
print('当前搜索结束,感谢使用')
print('猜你喜欢')
我是参考这篇博客写的,更详细的内容可以看这篇博客。
作者:妖怪还我师傅
链接:https://www.pythonheidong.com/blog/article/10645/4c89436117b95887982a/
来源:python黑洞网
任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任
昵称:
评论内容:(最多支持255个字符)
---无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事,而不是让内心的烦躁、焦虑,坏掉你本来就不多的热情和定力
Copyright © 2018-2021 python黑洞网 All Rights Reserved 版权所有,并保留所有权利。 京ICP备18063182号-1
投诉与举报,广告合作请联系vgs_info@163.com或QQ3083709327
免责声明:网站文章均由用户上传,仅供读者学习交流使用,禁止用做商业用途。若文章涉及色情,反动,侵权等违法信息,请向我们举报,一经核实我们会立即删除!