+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

2020-04(20)

2020-05(17)

2020-06(63)

2020-07(37)

2020-08(31)

爬虫第一血! requests模块的简单使用!

发布于2021-04-03 20:05     阅读(1665)     评论(0)     点赞(20)     收藏(5)


0

1

2

3

4

5

爬虫第一血!

爬虫在使用场景中的分类:

  • 通用爬虫:抓取系统重要组成部分,抓取的是一整张页面的数据。
  • 聚焦爬虫:是建立在通用爬虫之上,抓取的是页面中特定的局部内容。
  • 增量式爬虫:检测网站中数据更新的情况,只会抓取网站中最新更新出来的数据。

requests模块:

python中功能特别强大的网络请求的模块,简单便捷,效率极高,即模拟浏览器发送请求。

如何使用:
- 指定URL
- 发起请求
- 获取响应数据
- 持久化处理(存储)

环境安装

pip install requests

实战编码:
需求:爬取搜狗首页的页面数据;

代码:

import requests
# step1:指定URL
url = "https://www.sogou.com/"
# step2:发起请求
# get方法会返回一个响应对象
response = requests.get(url = url)
# step3:获取响应数据,text返回的是字符串形式的响应数据
page_text = response.text
print(page_text)
# step4:持久化存储
with open('./sogou.html','w',encoding='utf-8') as f:
    f.write(page_text)
print("爬取数据结束!!!")

原文链接:https://blog.csdn.net/qq_43278562/article/details/115397148

0

1

2

3

4

5

6

7

8



所属网站分类: 技术文章 > 博客

作者:好好学习

链接: https://www.pythonheidong.com/blog/article/915688/6cd80d6108fba4ddaccb/

来源: python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

20 0
收藏该文
已收藏

评论内容:(最多支持255个字符)