+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

2019-04(2)

2019-06(1)

2019-07(7)

2019-08(98)

2019-09(98)

jieba库词频统计_词云统计个人博客词频

发布于2021-01-13 21:19     阅读(348)     评论(0)     点赞(15)     收藏(3)


0

1

2

3

4

5

6

7

8

1dd7ca3813812649c208ac040c4ecd91.png

工具

  • Win7
  • Python3.6.2
  • 使用到的库 wordcloud jieba re matplotlib

开启项目

  • 安装好jupyter后,执行jupyter notebook
  • 点击新建文件

相关代码

一般的词云统计
  1. %matplotlib inline #执行才能在线查看图片
  2. import re
  3. import jieba
  4. from wordcloud import WordCloud
  5. import matplotlib.pyplot as plt
  6. txt = open('bobocode.txt',encoding="utf-8").read()
  7. new_txt = re.findall(r'[u4e00-u9fa5]+',txt) #去掉英语和光字符,保留中文
  8. txt_list = ''
  9. for word in new_txt:
  10. if word in txt_list:
  11. continue
  12. txt_list +=word
  13. seg_list = jieba.cut(txt_list) #用分词把句子分为每个词语
  14. new_text = " ".join(seg_list)
  15. wordcloud_txt= WordCloud(font_path="DroidSansFallbackFull.ttf").generate(new_text) #
  16. plt.imshow(wordcloud_txt)
  17. wordcloud_txt.to_file('pic.png') #下载保存图片
  18. plt.axis("off")
  19. plt.show()
输出结果

5ee20ad2b7d4a82e183238a8bf63c88d.png
带有遮罩图片的词云

485a0052a367af7bce586acdcff5dc06.png
  1. import numpy as np
  2. from PIL import Image
  3. import matplotlib.pyplot as plt
  4. import random
  5. from wordcloud import WordCloud
  6. #自定义随机颜色
  7. def grey_color_func(word,font_size,position,orientation,random_state=None,**kwargs):
  8. return "hsl(0,0%%,%d%%)" % random.randint(60,100)
  9. mask = np.array(Image.open("lz.jpg"))
  10. result_word = WordCloud(font_path="DroidSansFallbackFull.ttf",max_words=2000,
  11. mask=mask,margin=10,
  12. random_state=1).generate(new_text)
  13. default_color = result_word.to_array()
  14. plt.title("Custom colors")
  15. plt.imshow(result_word.recolor(color_func=grey_color_func,random_state=5))
  16. result_word.to_file("site.png")
  17. plt.axis("off")
  18. plt.figure()
  19. plt.title(u'bobocode博客词频统计')
  20. plt.rc('font', family='SimHei', size=13) #解决中文显示问题
  21. plt.imshow(default_color)
  22. plt.axis("off")
输出结果

f13d5b2144a6a4df8f5932f0e2c66148.png

c55ab942a43dd65b80de06539b4fb581.png

总结
通过以上可以看出我的博客频繁出现的词语,侧重哪个方面一目了然

原文链接:https://blog.csdn.net/weixin_42492233/article/details/112522331

0

1

2

3

4



所属网站分类: 技术文章 > 博客

作者:搞笑

链接: https://www.pythonheidong.com/blog/article/764493/9b0abe79c64258b01fed/

来源: python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

15 0
收藏该文
已收藏

评论内容:(最多支持255个字符)