本站消息

站长简介/公众号


站长简介:高级软件工程师,曾在阿里云,每日优鲜从事全栈开发工作,利用周末时间开发出本站,欢迎关注我的微信公众号:程序员总部,程序员的家,探索程序员的人生之路!分享IT最新技术,关注行业最新动向,让你永不落伍。了解同行们的工资,生活工作中的酸甜苦辣,谋求程序员的最终出路!

  价值13000svip视频教程,python大神匠心打造,零基础python开发工程师视频教程全套,基础+进阶+项目实战,包含课件和源码

  出租广告位,需要合作请联系站长

+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

2021-03(4)

2021-04(4)

小红书采集的分享

发布于2021-03-15 17:43     阅读(180)     评论(0)     点赞(0)     收藏(0)



对于小红书我们都不陌生,一个号称拥有超过一亿用户的生活分享app。其用户笔记内容涵盖吃穿玩乐买,涉及时尚、护肤、彩妆、美食、旅行、影视、读书、健身等各个生活方式的各个领域,而且每天都有很多的用户分享笔记。可想而知其数据价值有多大。

我们都知道越大的app数据的获取越不容易,而且小红书只能通过app接口通过抓包工具获取数据,接下来我们分享下用java进行小红书的爬取,代码分享如下:

import org.apache.commons.httpclient.Credentials;

import org.apache.commons.httpclient.HostConfiguration;

import org.apache.commons.httpclient.HttpClient;

import org.apache.commons.httpclient.HttpMethod;

import org.apache.commons.httpclient.HttpStatus;

import org.apache.commons.httpclient.UsernamePasswordCredentials;

import org.apache.commons.httpclient.auth.AuthScope;

import org.apache.commons.httpclient.methods.GetMethod;

import java.io.IOException;public class Main {  

 # 代理服务器(产品官网 www.16yun.cn)  

private static final String PROXY_HOST = "t.16yun.cn";  

 private static final int PROXY_PORT = 31111;  

  public static void main(String[] args) {    

  HttpClient client = new HttpClient();    

   HttpMethod method = new GetMethod("https://httpbin.org/ip");    

    HostConfiguration config = client.getHostConfiguration();    

  config.setProxy(PROXY_HOST, PROXY_PORT);      

  client.getParams().setAuthenticationPreemptive(true);  

      String username = "16ABCCKJ";    

  String password = "712323";    

   Credentials credentials = new UsernamePasswordCredentials(username, password);      

 AuthScope authScope = new AuthScope(PROXY_HOST, PROXY_PORT);  

     client.getState().setProxyCredentials(authScope, credentials);    

    try {            client.executeMethod(method);  

         if (method.getStatusCode() == HttpStatus.SC_OK) {  

            String response = method.getResponseBodyAsString();        

       System.out.println("Response = " + response);  

        }        } catch (IOException e) {    

      e.printStackTrace();        } finally {    

      method.releaseConnection();      

 }    }}







所属网站分类: 技术文章 > 博客

作者:yiniuyun

链接:https://www.pythonheidong.com/blog/article/893757/c846682da4187948851b/

来源:python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

0 0
收藏该文
已收藏

评论内容:(最多支持255个字符)