2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > tableau实战案例-分析120个国家和地区的自杀率情况

tableau实战案例-分析120个国家和地区的自杀率情况

时间:2020-08-13 10:45:50

相关推荐

tableau实战案例-分析120个国家和地区的自杀率情况

做数据分析,避免不了的要做可视化展示,这次就讲解一下如何通过tableau制作一份可视化图表,来分析一些问题。

需要的工具:excel、tableau public(就是免费版)

需要的技能:数据清洗、数据分解拆分、tableau操作技能、分析能力

1、获取数据

获取数据的渠道有很多种,如果只是前期练手的话,建议去找一下公共数据库来获得一份数据。本次分析数据来自kaggle数据集,数据中只有一部分国家和地区。

2、数据清洗

拿到数据之后,先对数据进行检查,检查的重点包括:数据是否有缺失、数据是否存在异常值

数据如有缺失,查看是否能够结合其他数据进行补充,如果缺失的是字段名称,结合数据和逻辑分析,填补上该字段名称;如果缺失的是数值,可以分析是否是值为0的数据以空白代替。如果无法进行填充,则可删掉该缺失数据。

我拿到的这份数据里,存在国家人口数据、自杀人数数据空缺的情况,因无法获知准确数据,我选择将该国家字段删除,避免后续数据分析得出错误的结论。

数据是否存在异常值,比如本该是数据的字段里出现了文字,这肯定就是异常数据了,如果无法根据其他数据进行修改,建议删除该数据。

3、数据分解拆分-分析目的

在确认数据完整且字段正确的情况下,首先明确自己的分析目的,然后开始数据分解,否则没有目的的分解,到分析的时候就发现怎么跟当初想的不一样啊,无从下手又要重新分解,浪费了很多时间。

我们来看一下我手里的这份数据,字段包括:国家、年份、性别、年龄区间、自杀人数、国家人口。

从这几个字段来看,我们可以简单的想出以下几个分析方向:

3.1 哪个国家的自杀率最高?

3.2 随着年份的变化,各个国家自杀率的变化情况怎样的?

3.3 不同性别的自杀率有明显差异吗?

3.4 不同国家的男女自杀率分布有什么特点?

3.5 不同年龄区间,自杀人数随着年份是如何变化的?

3.6 自杀率最高的国家中,年龄区间和年份的详细分析

大体我们能拆分出以上几个分析目的,可能有人会问,为什么大部分以自杀率为指标,而不是自杀人数呢?因为我们考虑到随着时间的推移,国家人口肯定是增长的,这样自杀人数也会增长,这样会得出错误的分析结论,所以我们以自杀率为指标,可以比较可观的对自杀情况做一个展示。

不知道大家有没有发现一个问题,就是国家人数这一列中,是按照年份、性别、年龄进行拆分的,也就是说我们不能单独在原表中新增一列叫做——自杀率,通过自杀人数/国家人口=自杀率来进行计算。因为这样算的话,算某一年某个国家的自杀率就会变成百分数相加,计算是不准确的哦!

4、数据分解拆分-分解

好,那我们就先根据以上6个问题来进行数据分解,其中肯定会遇到问题,就详细看看吧:

4.1哪个国家的自杀率最高?

这个问题乍一看很简单嘛,不就是按照国家、自杀人数、国家人口做个数据透视表,然后一除就出来了。说干就干,先来个数据透视表:

好嘛,数据是透视出来了,但是如果你仔细一点,就会发现这数据存在严重的问题。大家看,国家人口排名第一的美国,人口数居然打到了90亿,全球才70亿人口,美国都超出了,难道是数据有问题吗?

其实数据并没有问题,而是分析方法出错了,之前就说过了,这个数据表中是包含了1979-的数据,也就是这个数据透视表是把30+年的国家人口做了个累计,妈耶,那肯定是不对的啦。

所以我们第一个问题其实是错的,或者说不完整的,应该是每一年,哪个国家的自杀率最高,这样就跟我们第二个问题重复了,那就抛弃第一个问题,直接来做第二个吧。

4.2随着年份的变化,各个国家自杀率的变化情况怎样的?

根据上一个问题,我们知道,需要在透视表中增加年份这个字段,一番操作之后,得到如图所示:

好的,我们将这些数据复制到单独的sheet中,通过分列(分列这里是我用的,根据年份全部以19开头,将19替换成英文标点",然后分列,最后补充19即可,其他方式能达成目的均可)将表格清洗成这个样子:

4.3 不同性别的自杀率有明显差异吗?

好,我们继续来对性别下手,通过数据透视表,得到如下样子的图表:

复制-整理格式,得到如下数据表:

4.4 不同国家的男女自杀占比分布有什么特点?

以上几个问题呢都是比较中规中矩的,这个问题就有意思了,不同国家的男女自杀占比分布有什么特点,这在分析的时候可能就牵扯到宗教、风俗、工作等的影响了,应该会比较有意思,到时候从图表中具体来分析吧。

还是进行数据透视,得到如下图:

复制-整理数据后,得到下图,其中对男女自杀人数做了比例计算,之所以没有计算自杀率,还是之前那个问题,没有区分年份,国家人口是总计的,是不准确的,所以以男女自杀占比来作展示:

4.5 不同年龄区间,自杀人数随着年份是如何变化的?

这个问题呢,我没有用自杀率,因为我想看的是不同年龄段的人的自杀情况,人数和比率趋势应该是一致的,所以我就没有折腾自杀率了。

数据透视表如下:

复制-整理-转成一维表(二维表转一维表就不详述了,百度一下即可):

4.6 自杀率最高的国家中,年龄区间和年份详细分析

这个数据需要整理的字段有点多,国家、年龄区间、年份、自杀人数和国家人口,经过数据透视后,并整理的数据如下表,但是这个表并不完善,需要多维表转一维表,已经超出了excel的简单操作范围,接下来使用tableau进行转置(将第三列到最后一列选中,右键选择转置即可,修改列名称即可成为一维表):

好了,基本上把数据拆成了6个sheet,就能满足我们的基本分析了,到时候看还缺什么数据,等再补充即可。

5、tableau作图

数据已经整理好了,那我们就可以导入到tableau中进行作图分析了。

首先导入excel,根据顺序制作逻辑图表。

5.1随着年份的变化,各个国家自杀率的变化情况怎样的?

这个表需要选择地图进行制作,将国家右键,地理信息中心选择国家/地区,自动生成了经纬度数据,然后将其拖动到图表中,生成了一张世界地图;将自杀率按颜色展示,蓝色的表示自杀率高,橙色的表示自杀率低;添加国家信息;既然我们是要按年份来看国家自杀率的变化情况,那就得想办法能按年来展示吧,又不能老做筛选功能,能不能做成动画展示呢?还别说,tableau还真的能做动画功能哦,就是页面那个框框。

将年份拖动到页面中,即可实现年份的自动播放,也可以手动选择,是不是很方便呢?

因为这里发不了动图啊,我把分析的结果说一下吧,根据显示,俄罗斯的自杀率在这些有统计数据的国家和地区中,算是较高的,是不是有点颠覆认知呢?而且只要有俄罗斯的年份,基本上就是偏高的。

5.2 不同性别的自杀率有明显差异吗?

根据年份,我们来看一下男女自杀率的变化情况,从图中首先可以看出,男性自杀率是女性自杀率的3倍以上,而且随着年份的增加,两者的自杀率都是向下的趋势,说明整体的自杀率也是正在降低。

5.3 不同国家的男女自杀占比分布有什么特点?

不同性别就需要更换到性别国家表,同样的国家拆分出经纬度,生成世界地图,然后将女性比例拖入颜色标记(其实拖男性也一样,分析结果都一样),然后就得到了如下这张图表,你们有没有发现一个很有意思的现象。

颜色越蓝,说明比例越高,那么我们可以发现,在部分中东地区、欧洲国家女性自杀的比例相对来说还是比较高的(因为部分国家数据缺失,灰色的都是没有数据的),反过来说,蒙古国、墨西哥、智利、波兰等几个红色的地区,男性自杀比例要高一些。

5.4 不同年龄区间,自杀人数随着年份是如何变化的?

再来看一下年龄分布,同5.1,设置年份自动播放,不同年龄段的自杀人数变化图展示出来,我们可以看出35-54年龄段的自杀人数是最多的,考虑原因是中年人要面对更多的工作和生活压力,更容易走向自杀。

5.5 自杀率最高的国家中,年龄区间和年份详细分析

我们上面说到,俄罗斯联邦的自杀率一直稳居世界前列,那么我们就深入看一下俄罗斯联邦自杀年龄区间分布、自杀率最高的年份,看能不能得到什么有意思的结论。

先来看下自杀率最高的几个年份吧,从图中发现1992-2002年间,自杀率是这30年间的高峰期,我们知道俄罗斯联邦前身是苏联,苏联在1991年爆发政变,1991年12月苏联解体,而恰恰在第二年,自杀率开始出现大幅度上涨,经历发展后,自杀率再次下降。推测在这段动荡时期,很多人或者对未来比较迷茫,或者是无法承受苏联解体带来的压力而自杀。

我们再来看一下这几年不同年龄区间的自杀人数分布,可以发现同整体趋势一致,35-54年龄区间的自杀人数是最高的,而这部分人正是在动荡年代承受压力最大的一批人。

以上是我自己对这些数据进行分类分析后的部分方法和结论,可以分析下其他的数据来得到更多的分析结果哦。

以上内容已发布在如下:/profile/shirleyfang#!/vizhome/120_15616308819870/1_2

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。