本站消息

站长简介/公众号


站长简介:高级软件工程师,曾在阿里云,每日优鲜从事全栈开发工作,利用周末时间开发出本站,欢迎关注我的微信公众号:程序员总部,程序员的家,探索程序员的人生之路!分享IT最新技术,关注行业最新动向,让你永不落伍。了解同行们的工资,生活工作中的酸甜苦辣,谋求程序员的最终出路!

  价值13000svip视频教程,python大神匠心打造,零基础python开发工程师视频教程全套,基础+进阶+项目实战,包含课件和源码

  出租广告位,需要合作请联系站长

+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

暂无数据

Pandas read_html 获取一列的 href 而不是文本

发布于2021-10-15 00:21     阅读(89)     评论(0)     点赞(5)     收藏(3)



我正在尝试使用网站上的表格。当我使用pandas read_html 导入时,网站中的第四个表。

使用 pandas.read_html 我可以以一种非常简单和漂亮的方式获取数据。

我的问题是我不需要最后一列(“Arquivo”)中的“下载”文本,而是需要下载的 href 链接。

有人可以帮我实现这个例外吗?

我已经看到了一些答案(比如这个:HTML table to pandas table: Info inside html tags),但在我的情况下我无法实现。

这是我的代码:

import pandas as pd
data = (pd.read_html('http://sisweb.tesouro.gov.br/apex/f?p=2501:2::::2::')[3])
print(df) #this way I print the table with 'Download' text.

第二次尝试:

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

options = Options() #I pretend to use headless, but I did not activate in this example. 
options.add_argument('--headless')
options.add_argument('--disable-gpu') 

driver = webdriver.Chrome()
driver.get('http://sisweb.tesouro.gov.br/apex/f?p=2501:2::::2::')

bsobj = bs(driver.page_source, 'lxml')

tabela_geral = bsobj.findAll('table', {'class':'table table-striped'})

#this returns to me all the tables I want to work with. is this case, the table in the first (0)

import lxml.html as LH

table = LH.fromstring(str(tabela_geral[0])) #getting just the first return from selenium.

for df in pd.read_html(str(tabela_geral[0])):
    df['Arquivo'] = table.xpath('//tr/td/a/@href')
    print(df) #this returns me an error.

特兰克斯。

ps:MacOS High Sierra / Python 3.6


解决方案


暂无回答







所属网站分类: 技术文章 > 问答

作者:黑洞官方问答小能手

链接:https://www.pythonheidong.com/blog/article/1059596/7f7c8c78fc46bc28fc6b/

来源:python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

5 0
收藏该文
已收藏

评论内容:(最多支持255个字符)