程序员最近都爱上了这个网站  程序员们快来瞅瞅吧!  it98k网:it98k.com

本站消息

站长简介/公众号

  出租广告位,需要合作请联系站长

+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

暂无数据

抓取网页的所有元素

发布于2023-03-21 14:24     阅读(1021)     评论(0)     点赞(23)     收藏(2)


我正在尝试抓取该网站的所有元素(图像、图形、超链接) 。但是,不幸的是,图像、图表和超链接没有正确抓取。我尝试使用 bs4。

import requests
from bs4 import BeautifulSoup

url ='https://www.gold.org/goldhub/research/investment-update-case-gold-uk-defined-benefit-schemes'

page = requests.get(url)
soup = BeautifulSoup(page.content, 'html.parser')
lay_content = soup.find("div", {"class": "layout-content"})

这样,提取的内容并没有得到所有的东西。我怎样才能做到这一点?谢谢阅读。


解决方案


你可以使用find_all()方法。
当没有参数传递时,它将返回所有元素。
所以,这应该为您提供页面上的所有元素。

import requests
from bs4 import BeautifulSoup

url ='https://www.gold.org/goldhub/research/investment-update-case-gold-uk-defined-benefit-schemes'

page = requests.get(url)
soup = BeautifulSoup(page.content, 'html.parser')
lay_content = soup.find_all()


所属网站分类: 技术文章 > 问答

作者:黑洞官方问答小能手

链接:https://www.pythonheidong.com/blog/article/1944129/fb4bc226e0b156ef7ec4/

来源:python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

23 0
收藏该文
已收藏

评论内容:(最多支持255个字符)