本站消息

站长简介


前每日优鲜python全栈开发工程师,自媒体达人,逗比程序猿,钱少话少特宅,我的公众号:想吃麻辣香锅

  python大神匠心打造,零基础python开发工程师视频教程全套,基础+进阶+项目实战,包含课件和源码

  出租广告位,需要合作请联系站长



+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

2020-06(12)

2020-07(30)

2020-08(30)

2020-09(66)

2020-10(79)

Python系列爬虫之抓取并简单分析鱼C论坛的鱼油数据可视化

发布于2021-05-09 16:32     阅读(936)     评论(0)     点赞(12)     收藏(4)


0

1

2

3

4



开发工具

Python版本:3.6.4
相关模块:

requests模块;

fake_useragent模块;

pyechart模块;

以及一些python自带的模块。

环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

原理简介

其实爬虫的文章我一般写的比较水,然后偶尔瞅了瞅别人的文章,发现基本是数据获取,清洗,最后可视化分析这个流程,于是打算稍微模仿一下,虽然我可能还是会写的比较随意and极其不专业。

数据获取:

这部分很简单,鱼C论坛每个鱼油的个人主页除了uid不同,其他都是一样的:

@

挨个请求每个鱼油个人主页的url,然后把返回的内容保存起来就可以了:

图片

最后获得的数据大概这么多,一共40万条左右吧,虽然大部分是无效的。

图片

数据清洗:

接下来我们从每个鱼油的个人主页中提取一些有用的数据,例如性别、生日、出生地、学历等内容,具体代码实现如下:

图片

最后剩下的数据大概这么多:

图片

他喵的这也太真实了吧,最后大概只剩下了1万多条数据,简直了。然后我去看了下,发现很多鱼油的主页是这样的:

图片

还有很多uid是无效用户:

图片

数据可视化分析:

首先,让我们来看看鱼C论坛鱼油们的男女比例吧:

图片

Emmmm,原来论坛里还是有女生的,我一直以为是没有女生的。

OK,接下来我们来看看论坛里的鱼油学历分布情况吧:

图片

竟然有将近200个博士,惊讶ing。

OK,接下来我们来看看论坛鱼油们的省份分布吧,这里只统计了国内的鱼油:

[图片上传中...(image-a96b08-1616672741403-2)]

看了鱼C论坛的鱼油们来自五湖四海,当然在广东省的鱼油是最多的,目测论坛的坛主小甲鱼应该是广东人吧。

再接下来,我们来看看鱼C论坛鱼油的年龄分布吧:

图片

估计论坛里的鱼油大部分还是90后的学生党吧,虽然90后大多应该已经毕业了。

最后,我们再来看看论坛里哪个鱼油比较土豪吧,也就是鱼币和C币最多的鱼油,统计结果如下图所示:

图片

原文链接:https://www.cnblogs.com/daimubai/p/14708824.html




0

1

2

3

4

5

6

7



所属网站分类: 技术文章 > 博客

作者:dfd323

链接:https://www.pythonheidong.com/blog/article/965577/2bcc57276663fcf3c8bf/

来源:python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

12 0
收藏该文
已收藏

评论内容:(最多支持255个字符)