2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > stylecloud:制作个性化词云图的Python神器

stylecloud:制作个性化词云图的Python神器

时间:2021-05-31 02:07:50

相关推荐

stylecloud:制作个性化词云图的Python神器

文 |ssw

来源:Python 技术「ID: pythonall」

开篇一张图,轩逸来坐镇

这只披着“动力”铠甲的蜘蛛名叫“轩逸最不满意”,正在高速上蠕动,左边“车漆异响”,右边“配置”过低,大家注意了,超车时请紧急避让

回到正题。

有位哥们想看瑞虎7,好奇哪里吸引他了。第一次听说虎7,旁边没老师傅,没法儿马上了解它,但爬虫这玩意儿,不就是帮我们搜集信息的吗

因此,要想知道这款车的的“销量密码”,就可以从爬虫入手了。

照旧参考Python指导你买车,第二弹爬取车友圈“【购车经历】”

先从标致新408开始,缘由是它老派又新潮,我一度想买它

标致新408词云分析

从词云图和文本描述来看,价格和外观颜值是第一吸引力。

空间大,动力足,内饰讨喜的优点在词云中也有明显体现。

值得注意的词语

原因在于老款408无论品质还是质量都很得人心,新款预售加上补贴政策,自然而然就成为大家口中的“卷王”。

再看一个案例

凌度L

为什么选这款车型?因为它年轻,时尚,车主都喜欢带女朋友去看!不选其它车子也只有一个理由:女朋友嫌内饰不好看

选它,就像这个🌶一样酷辣!

如何生成漂亮词云

安装

pipinstalljiebapipinstallstylecloud

计数和生成词云

importstylecloudimportcodecs#作用:处理中文不乱码importjieba#分词fromcollectionsimportCounter#计数stopwords=set()content=[line.strip()forlineinopen('stopwords.txt','r',encoding='utf8').readlines()]print(111,content)stopwords.update(content)#most_common应用于一个Counter对象时,会返回一个list,这个list包含了前N个常见的元素defmake_word(txt):make_list=jieba.cut(txt)c=Counter()#对字典的增强words_list=[]foriinmake_list:iflen(i)==3andi!='\r\n':c[i]=c[i]+1words_list.append(i)fork,vinc.most_common(60):ifknotinstopwords:print(k,v)return"".join(words_list)withcodecs.open('408.txt','r','utf8')asf:txt=f.read()words_txt=make_word(txt)print(words_txt)stylecloud.gen_stylecloud(text=words_txt,custom_stopwords=content,#max_words=11,#palette='cartocolors.qualitative.Pastel_3',#background_color='#1A1A1A',colors=['#5470c6','#91cc75','#fac858','#ee6666','#73c0de'],#colors=['#dd4444','#fec42c','#80F1BE'],icon_name="fasfa-car",max_font_size=110,output_name='666.jpg',font_path="C:/Windows/Fonts/FZSJ-WOSJJ.TTF")

脚本说明

仔细观察gen_stylecloud()函数的相关参数,我们可以控制背景颜色、单词的颜色、字体等

设置词语长度

iflen(i)==2

输出:

如果设置长度为3,输出:

则词云图显示的是以3个汉字为单位的情况:

这样的话,分析角度不一样了。

设置颜色组合 不同的颜色组合带来不一样的效果

colors=['#5470c6','#91cc75','#fac858','#ee6666','#73c0de'],

不信,我们看个瑞虎8的词云效果:

处理停用词

custom_stopwords参数来处理文本中的停用词

stopwords.txt,已上传到 linux服务器上,http://ssw.fit/file/

可以将用处不大但出现次数很多的词加入到stopwords.txt,以免它出现在词云图中,如下图“内饰”前面的词都可以去掉:

设置字体 这个可以参考用python来吐槽,真是太会玩啦文末的字体设置

爬虫数据 408,瑞虎8,瑞虎7等的爬虫数据也上传了,http://ssw.fit/file/

图标网站链接 /search

icon_name="fasfa-car"

icon_name可以在这个网站中去找,有一部分是有效果的,去试试。

接下来,分析几种车型的购买理由,用绚丽的色彩、多变的图形、精彩的字体来展示爬虫数据。

瑞虎7 vs 瑞虎8

瑞虎7

看图说话,价格是谈到最多的因素!此外,虎7的车主考虑过竞争对手,长安和吉利

可能虎7的优惠力度比竞争对手更大,“优惠”两个大字如此鲜艳。从文本中搜索“老婆”,可以知道有些是买给老婆开的,有些是听老婆意见入手的

瑞虎8

相比瑞虎7,瑞虎8车主更多考虑这款车的动力(动力2个字好大呀)。有趣的是图片中的发动机位置,很多人提到鲲鹏,原来是在等瑞虎8鲲鹏版上市,希望拥有更强劲的动力!

款威朗 Pro GS 追风版

威朗的价格和动力是亮点,同价位性价比最高的合资车。竞争对手有星越L,宝来,威朗,思域,型格等,客户因性价比而选择它。

奔驰C级

好了,这就是今天的全部内容,喜欢就点个赞呀~

PS:Python技术交流群(技术交流、摸鱼、白嫖课程为主)又不定时开放了,感兴趣的朋友,可以在下方公号内回复:666,即可进入,一起100天计划!

老规矩,酱友们还记得么,右下角的 “在看” 点一下,如果感觉文章内容不错的话,记得分享朋友圈让更多的人知道!

神秘礼包获取方式

识别文末二维码,回复:1024

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。