+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

2019-07(2)

2019-08(106)

2019-09(110)

2019-10(14)

2019-11(8)

java爬虫与python爬虫 流程

发布于2020-11-09 18:19     阅读(337)     评论(0)     点赞(18)     收藏(1)


0

1

2

3

4

5

 

前言

很多人说学习数据挖掘,先从爬虫入手。接触了大大小小的项目后,发现数据的获取是数据建模前的一项非常重要的活儿。在此,我需要先总结一些爬虫的流程,分别有python版的以及java版的。

url请求

java版的代码如下:

  1. public String call (String url){
  2. String content = "";
  3. BufferedReader in = null;
  4. try{
  5. URL realUrl = new URL(url);
  6. URLConnection connection = realUrl.openConnection();
  7. connection.connect();
  8. in = new BufferedReader(new InputStreamReader(connection.getInputStream(),"gbk"));
  9. String line ;
  10. while ((line = in.readLine()) != null){
  11. content += line + "\n";
  12. }
  13. }catch (Exception e){
  14. e.printStackTrace();
  15. }
  16. finally{
  17. try{
  18. if (in != null){
  19. in.close();
  20. }
  21. }catch(Exception e2){
  22. e2.printStackTrace();
  23. }
  24. }
  25. return content;
  26. }

python版的代码如下:

  1. # coding=utf-8
  2. import chardet
  3. import urllib2
  4. url = "http://www.baidu.com"
  5. data = (urllib2.urlopen(url)).read()
  6. charset = chardet.detect(data)
  7. code = charset['encoding']
  8. content = str(data).decode(code, 'ignore').encode('utf8')
  9. print content

正则表达式

java版的代码如下:

  1. public String call(String content) throws Exception {
  2. Pattern p = Pattern.compile("content\":\".*?\"");
  3. Matcher match = p.matcher(content);
  4. StringBuilder sb = new StringBuilder();
  5. String tmp;
  6. while (match.find()){
  7. tmp = match.group();
  8. tmp = tmp.replaceAll("\"", "");
  9. tmp = tmp.replace("content:", "");
  10. tmp = tmp.replaceAll("<.*>", "");
  11. sb.append(tmp + "\n");
  12. }
  13. String comment = sb.toString();
  14. return comment;
  15. }
  16. }

python的代码如下:

  1. import re
  2. pattern = re.compile(正则)
  3. group = pattern.findall(字符串)

python学习资料领取看主页简介或添加q裙467604262一起交流探讨 

原文链接:https://blog.csdn.net/xixi20200/article/details/109556292

0

1

2

3

4

5

6

7

8

9



所属网站分类: 技术文章 > 博客

作者:9384vfnv

链接: https://www.pythonheidong.com/blog/article/611712/760b9108d9de8a717f4d/

来源: python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

18 0
收藏该文
已收藏

评论内容:(最多支持255个字符)