+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

暂无数据

阅读网站中的内容,无法打开

发布于2021-01-12 00:57     阅读(2912)     评论(0)     点赞(27)     收藏(1)


0

1

2

3

4

5

6

7

8

我正在使用Python 2.7.9

我尝试打开并阅读网站,但出现类似以下错误:11001 getaddrsinfo或没有连接...机器主动拒绝了它

实际上,当我尝试打开网站以阅读为目的时,我永远无法打开它。我相信问题是系统的配置。使用webdriver,我可以打开一个网站,但不知道如何阅读该内容。你能帮忙吗?

这是我使用的代码,具有不同的可能性,但始终具有相同的错误。

    import socket
import os
os.environ['http_proxy'] = '127.0.0.1:8080'
import requests, re
import urllib2
#from urllib2 import urlopen 
from bs4 import BeautifulSoup as bs

from HTMLParser import HTMLParser
from six.moves import urllib
# as req

#from urllib.request import urlopen

def news ():

    url = "http://www.edureka.co/"
    #payload = {'q': 'shape of you'}
    #r = requests.get(url, params = payload)
##  socket.getaddrinfo('127.0.0.1', 8080)
##  r = requests.get(url)
##  soup = bs(r.text,"html.parser")

#   html = urlopen(url).read()

#   soup = BeautifulSoup(html)
#https://www.crummy.com/software/BeautifulSoup/bs4/doc/
    #webbrowser.register('chrome',  None,
    #webbrowser.BackgroundBrowser("C://Program Files (x86)//Google//Chrome//Application//chrome.exe"))
    
##  link = soup.find('a', {'href':re.compile('http://www.edureka.co/')})['href']
    #link = "http://www.edureka.co/"
    link = 'http://www.edureka.co/'
    print(link)
    #proxies = {'http': 'http://www.someproxy.com:3128'}
    #proxies = {'http': 'http://www.edureka.co/'}
    #f = urllib.urlopen(link, proxies={})
    #proxy_support = urllib2.ProxyHandler({'http': '127.0.0.1'})
### proxy_support = urllib2.ProxyHandler({})
### opener = urllib2.build_opener(proxy_support)
### urllib2.install_opener(opener)
### in_ = opener.open(link)
### in_.read()

##  result = urllib2.urlopen(link)
    #result = urllib.request.urlopen(link)
    #f = urllib2.Request('http://www.edureka.co/')


    socket.getaddrinfo('localhost', 8080)
    mysock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    mysock.connect(("www.edureka.co/", 80))
    #mysock.send('GET http://www.edureka.co/ HTTP/1.0\n\n')
##  f2 = urllib2.urlopen('http://www.edureka.co/')
##  my = f2.read()

    #HTMLParser.feed('http://www.edureka.co/')
    

    #import requests
    #s = requests.Session()
    #url = requests.form['http://www.edureka.co/']
##  r = req.get('http://www.edureka.co')
##  print(r.status_code)
    #req = requests.get('<a href="http://www.edureka.co/">http://www.edureka.co/</a>')

##  r.encoding # returns 'utf-8'
##  soup = BeautifulSoup(r.text, 'html.parser').get_text()

##  print(soup.prettify())

解决方案


您正在寻找的东西称为“ Web Scraping”。

以下代码对给定的URL执行HTTP请求。它检索服务器发回的HTML数据,并将该数据存储在Python对象中。

import requests

URL     = 'http://www.edureka.co/'
page    = requests.get(URL)

您可以将其与“ beautifulsoap”结合使用来解析您的html,就像下面的代码一样:

import requests
from bs4 import BeautifulSoup as bs

URL     = 'http://www.edureka.co/'
page    = requests.get(URL)
soup    = bs(page.content, 'html.parser')
results = soup.find(id='auto_banner_load')

print (results)

这可以正常工作,不会产生任何错误,您必须阅读“请求”和“ beautifulsoap”文档,具体取决于您要执行的实际操作。

有关更多信息,请在此链接上抢劫

0

1

2

3

4

5

6

7

8



所属网站分类: 技术文章 > 问答

作者:黑洞官方问答小能手

链接: https://www.pythonheidong.com/blog/article/758409/07a9a361c7b736c565ad/

来源: python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

27 0
收藏该文
已收藏

评论内容:(最多支持255个字符)