Tableau Tableau介绍、安装Tableau介绍Tableau 是帮助人们查看并理解数据的一款软件。Tableau 帮助任何人快速分析、可视化并分享信息。利用简便的拖放式界面Tableau可以在几分钟内生成美观的图表、坐标图、仪表盘与报告。Tableau安装注意虽然Tableau不断发布新版本但在实际工作中优先选择的是Tableau的稳定版本本课程使用的Tableau稳定版本为2019.4.1版本Tableau的安装过程与普通软件一样需要注意的是在最后安装完成后直接点击“退出”然后将tabui.dll拖放到安装目录的bin目录中即可激活Tableau。条形图认识条形图条形图主要用于展示分类数据比较不同类别之间某指标的大小。重要操作案例各地区酒店数量各地区酒店均价价格等级堆积图直方图认识直方图直方图矩形的高度表示每一组的频数或频率宽度则表示各组的组距直方图主要用来呈现数据的分布情况案例创建酒店评分直方图直方图的绘制先要创建“数据桶”右键“评分”》创建》数据桶将“评分数据桶”放在“列”中记录数放在“行”中编辑横轴别名效果如下数据预处理数据预处理的必要性改进数据的质量有助于提高其后的决策过程的精度和性能。高质量的决策必然依赖于高质量的数据数据预处理是知识发现过程的重要步骤。案例对“电影名”进行拆分之后根据需要对字段右键“》”隐藏“或”删除“最终效果对“累计票房”进行拆分对“导演”进行拆分对“主演”进行拆分对“上映时间”进行“自定义拆分”最终效果折线图案例绘制电影数量变化折线图设置行和列删除掉无效节点将“记录数”加入“标签”把电影数量显示在折线图上改变轴名称为“电影数量”在关键节点上右键》“添加注释”》“标记”还可以设置注释格式“右键”》“设置格式”最终效果创建电影票房变化折线图注意此处要把累计票房(万)放在度量区域中将累计票房(万)放在“标签”然后“设置格式”最终效果选择2037年的电影数量与票房比较先对“上映日期”按年进行筛选可以对各个月份展开分析最终效果双轴最终效果图饼图案例——绘制酒店价格等级饼图使用智能显示绘制饼图计算百分比设置显示的格式最终效果最后可以导出工作表基本表与凸显表案例不同地区酒店数量的基本表不同地区酒店数量的凸显表第一种制作方式制作好基本表后在“智能显示”中选择凸显表项凸显表效果第二种制作方式树形图使用树形图可在嵌套的矩形中显示数据。可使用维度定义树形图的结构使用度量定义各个矩形的大小或颜色。树形图是一种相对简单的数据可视化形式可通过具有视觉吸引力的格式提供分析见解。案例——绘制不同类型电影数量与票房树形图先对票房和类型字段进行拆分然后制作树形图效果如下在此基础上可以将票房和电影数量的标签显示出来效果如下气泡图案例不同类型电影数量与票房气泡图动作电影动态气泡图先将“上映时间”的数据类型变为日期类型随后将其拖入页面区域最后再将上映时间拖放到“筛选器”去掉Null年份。筛选动作类型设置行列显示历史轨迹等词云图词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。案例——制作不同类型电影的电影数量词云图先制作气泡图然后将气泡图的形状改成“文本”即可制作词云图标靶图标靶图就是在条形图的基础上增加参考线参考分布可以更直观的地看到两个度量之间的关系通常两个度量为计划值和实际值判断是否达标。案例——绘制二月份电量销售额完成情况最终效果甘特图甘特图一般用于查看项目交付计划日期和实际日期的比较情况。时间维度是否达标案例——绘制交货延期情况的甘特图右键“实际交货日期”创建计算字段此时甘特图为为了显示清楚可对颜色条块使用颜色标记瀑布图瀑布图介绍可以表达构成整体的各个组成部分的比较关系由一个长柱体及多个短柱体组成案例——绘制超市不同子类别产品的盈亏瀑布图先对“订单”表和“人员”表进行连接默认连接字段是“地区”然后按照升序制作“子类别”与其对应的“利润”的条形图再对“利润”进行汇总操作对每种子类型的利润进行标签显示此时标签的数值代表对应子类型的利润而条形图的高度代表汇总的利润也就是累加利润。选择标记为“甘特条形图”目前效果图如下(每个类别对应的横线代表起始点)创建一个名为“长方形高度”的字段“利润”的相反数并将其拖入“大小”标记目前的效果是将“利润”加入颜色并进行汇总编辑颜色区分汇总的亏损与盈利红色代表汇总亏损蓝色代表汇总盈利。最后选择菜单栏的“分析”》“合计”》“显示行总和”瀑布图的最终效果为数据集合并在Tableau中往往导入的excel工作表不止一个这时候就会进行数据的合并数据集合并的四种方式超市销售情况符号地图案例——制作各国家销售额符号地图直接将“国家/地区(Country)”拖放到工作表的显示区中并做相应的设置效果如下针对地图上一个国家显示两个名称的问题做如下处理即可仪表板仪表板介绍仪表板是若干视图的集合方便同时比较各种数据工作表和仪表板中的数据是相连的当修改工作表时包含该工作表的任何仪表板也会更改反之亦然工作表和仪表板都会随着数据源中的最新可用数据一起更新案例——创建仪表板点击Tableau右下角底部“新建仪表板”可以将多个视图包括工作表、图像、文本、网页等拖入仪表板同时进行显示填充地图案例——各省售电量填充地图分别转换“省市”和“地市”的地理角色将“省市”拖放到工作区中并调整当期值的颜色对于“未知”区域进行编辑添加省市标签对于命名特殊的省份例如“龙江”可以添加区域注释并设置“注释格式”对原来的“龙江”标签设置从不显示“右键”》“标记标签”》“从不显示”目前效果设置“地图层”最终效果多维地图案例——各省售电量的多维地图描述各省市的不同用电类型的当期值对“统计周期”进行显示对“用电类别”进行排序混合地图混合地图用来在一个地图层里展示多个数据维度案例——各省市售电量混合地图Ctrl拖动一个新的维度并设置为双轴效果如下分别设置两个标记维度最终效果多边形地图多边形地图是填充地图的一种补充基于地理编码绘制一个多边形的区域实现自定义的填充地图。案例——英国国家公园多边形地图先将数据源中的纬度和经度的地理角色的纬度和经度分别双击“纬度”和“经度”并取消分析菜单中的“聚合度量”标记选择为“多边形”将“公园名称”设置为颜色“点ID”设置为路径在地图层中进行相应的设置由于多边形不能设置标签所以可以添加区域注释(以凯恩戈姆国家公园为例)最终效果为层级结构案例——人工服务接听量的层级结构创建分层结构并将创建好的分层拖放到列中排除异常值可以对分层结构进行“上钻”、“下钻”注意层级结构不能嵌套数据分组数据分组介绍数据分组是根据业务需要将原始数据按照某种标准划分成不同的组别分组后的数据称为分组数据。数据分组的主要目的是观察数据的分布特征。案例——班分组的人工服务接听量展示每个班的人工服务接听量创建分组根据需要可以选择是否包括班分组中的“其他”以降序方式展示班分组的人工服务接听量效果如下实战——国家区域用电量(一)地理区域分组通过“省市”进行地图显示编辑未知省市并在地图标识上选择“套索选择”使用套索选择工具对区域进行框选分组编辑区域名称以大小显示“当期值”效果为实战——国家区域用电量(二)区域用电量填充图将各区域分组的当期值使用填充图表示实战——国家区域用电量(三)区域用电量标靶图设置月度计划值的标靶线最终的标靶图效果集的概念集的定义集是满足某些条件的数据子集它是维度的部分成员图标类型用途集内外成员的对比分析集内部成员的对比分析静态集的创建创建负利润国家的静态集对市场、“细分市场”、“国家/地区”的利润进行显示Ctrl选中某些负利润国家并创建集尝试删除集中的某些列观察条形图动态集的创建案例——针对产品名称创建集创建负利润产品集创建销量Top100集创建合并集合并集的时候一定是同一个维度量案例——创建“卖情怀产品”集使用集做对比分析案例——查看卖情怀产品的利润得出结论产品Rogers Lockers,Blue的负利润是最高的可以对这种产品进行重点关注分析其亏损的具体原因。计算字段计算字段介绍计算字段是根据数据源字段包括维度、度量、参数等等使用函数和运算符构造公式来定义的字段可以拖放到功能区里构建视图也可以用于创建新的计算字段计算字段的类型基本计算字段LOD计算字段(Level of Detail详细级别表达式)表计算创建基本计算字段创建成本计算字段显示国家/地区的平均成本创建“盈利标志”计算字段显示国家/地区的盈亏情况粒度与聚合粒度粒度源于Tableau的散点图它表示数据的颗粒浓度聚合度量聚合每当把度量内的内容拉入到行或列时在其前面会出现总计字样这就是度量的聚合并且聚合的形式多样维度聚合很少使用比率比率是什么Tableau中的比例运算一般都会使用两个已有的变量来书写公式对两个变量进行相除的运算。案例——对比不同比率创建一个层级结构和两个计算字段对“度量名称”进行筛选对两个比率表达式设置百分比格式比较利润/销售额与SUM(利润)/SUM(销售额)详细级别表达式(LOD——Level of Detail)案例——显示国家/地区的订单利润平均值创建订单利润计算字段INCLUDE语法{INCLUDE 维度声明 : 聚合表达式}除了视图中的任何维度之外INCLUDE 详细级别表达式还将使用指定的维度计算值。 也就是说Include中的聚合级别是视图中维度表达式中的维度。在地图显示国家/地区的订单利润平均值FIXED语法{FIXED 维度声明 : 聚合表达式}FIXED 详细级别表达式使用指定的维度计算值而不引用视图中的维度人口金字塔一句话阐明人口金字塔人口金字塔在本质上就是成对条形图案例——创建人口金字塔数据预处理显示不同年龄的人数将Age的数据类型变为字符串观察Null的具体情况创建“年龄”计算字段将年龄计算字段拖放到维度区域观察不同年龄的人数创建人口金字塔图根据年龄创建一个数据桶创建直方图创建一个男性人数计算字段同理再创建一个女性人数计算字段显示“男性人数”和女性人数的直方图对女性人数进行倒序显示双击横轴女性人数调出女性人数编辑轴在全部标记设置颜色最终效果为漏斗图漏斗图的作用直观地展现业务流程快速发现流程中存在的问题在电商、营销、客户关系管理CRM等领域有广泛应用案例——公众号流量转化漏斗图制作不同阶段数量的条形图复制一个“总和(数量)——Ctrl拖动并将第二幅图的形状改为线图设置“双轴”、“条形图”、“同步轴”复制数量、设置条形图、线图、双轴、同步轴在前一半图下方横轴双击调出编辑轴并选择倒序隐藏标题去掉中间的分隔符在连接线上添加阶段标签和数量标签分别在左右两边连线上“添加表计算”最终效果图箱型图箱型图相关概念箱型图也称为盒须图。用于显示数据的位置、分散程度、异常值等。图中可以体现出中位数、第一四分位数(Q1)、第三四分位数 (Q3)、上限、下限、异常值等信息。中位数数据由小到大排序后处于中间位置的数据总观测数 50%的数据值第一四分位数(Q1)等于该样本中所有数值由小到大排列后第25%的数字第三四分位数(Q3)等于该样本中所有数值由小到大排列后第75%的数字IQR四分位距第三四分位数与第一四分位数的差值上限Q31.5IQR下限Q1-1.5*IQR异常值上下限范围之外的数据案例(示例_超市.xls)——每个订单每个子分类利润的分布情况选中“子类别”、“订单 Id”及“利润”选择右侧“智能显示”窗口中的“盒图”上图可以看到就是制作好的盒须图我们把鼠标放到灰色的盒子中。可以看到显示有上须、上枢纽、中位数、下枢纽、下须等几个值范围—线图范围—线图介绍范围—线图将整体数据的部分统计特征均值、最大值、最小值等展示在图形中既可以说明群体特征还可以展示个体信息更可以比较个体与整体的相对关系。案例人工坐席接听数据.xlsx绘制工号为20002875员工每天的人工服务接听量创建接听量平均值计算字段同理创建接听量最大值计算字段和接听量最小值计算字段将接听量平均值、接听量最大值、接听量最小值添加到详细信息中并对“人工服务接听量”纵轴添加参考线添加接听量平均值的参考线再次添加参考线最终效果图倾斜图倾斜图介绍倾斜图又名斜线图、斜率图可以展示单指标不同时期的变化情况既能展示值的大小变化同时能展示排名变化。案例劳动生产率指标.xlsx——劳动生产率变化倾斜图创建“排名”计算字段显示“期间”与“排名”的关系并以线的方式展示将“单位”添加到详细信息中并开始对排名进行“编辑表计算”设置“排名”表计算将排名加入标签并设置同样的表计算将“单位”、“累计值”加入标签并设置标签的显示格式再创建一个排名_正确的计算字段将“排名_正确”计算字段加入标签移除原来的“排名”计算字段并设置表计算编辑标签格式此时的效果图是创建一个“变化量”的计算字段并将该字段加入大小标记创建“增减状态标志”计算字段并将其拖入颜色标记创建“变化量绝对值”计算字段并将该字段加入大小标记移除变化量计算字段当前效果为调整期间的顺序调整为“同期”在前“当期”在后最终效果凹凸图凹凸图介绍凹凸图通过对相同事物的不同排名进行连接从而显示出排名间的一个相互变化关系其实就是多线图和点的结合。案例示例_超市.xls——随年份变化各个子类的销售额的凹凸图拖动“订单日期”到列“销售额”到行将“子类别”拖动到“颜色”对“销售额”进行排序右键“销售额”选择“快速表计算”选择“排序”对“销售额”进行编辑表计算使用“子类别”特定维度作为计算依据按住 Ctrl 键创建双轴图表并右键选择“双轴”在第二个维度中选择“圆”并修改标签的样式点击右侧的轴选择“同步轴”看到多一行右键“编辑轴”范围选择固定并勾选倒序最后将右边轴的显示标题去掉最终的凹凸图效果是故事故事介绍通过数据把我们自己发现的观点以故事的形式讲出来。故事非常适合叙述从数据中发现的规律。它们和显示面板相似你可以创建工作表然后将工作表拖到故事中。但是每个工作表都单独显示并且会有按顺序显示的叙述性文字。案例——创建故事创建故事的两种方式不管使用哪种方式都会出现如下图的效果拖动工作表修改标题名点击空白创建下一个观点可以对工作表添加文本说明如果是对当前图的补充可以点击“复制”布局窗口是对故事导航器样式的修改回归分析回归分析介绍回归分析本质上是将存在及可能存在的相关关系的变量拟合成直线或者曲线。据此我们一方面可以总结出已有数据的规律和特征另一方面还可以预测数据。案例——示例_超市.xls的回归分析线性回归拖动“销售额”到列“利润”到行点击分析菜单取消“聚合度量”添加趋势线——在分析窗口拖动“趋势线”到视图窗口选择“线性”R平方值:拟合优度越大越好最大 1最小 00.4 以上表示不错右键选择“描述趋势线”可以复制公式并将公式添加到注释区域中幂回归复制线性回归工作表右击趋势线选择“编辑趋势线”选择“幂”可以看到此时的回归公式和R平方值都有了变化而且此时的R平方值较大说明回归效果较好时间序列分析时间序列分析介绍时间序列分析本质上就是利用原始的数据拟合出一个模型来。然后研究分析事物发展变化的规律。从而得出观测数据的一种统计特征找到这种特征再依据拟合出来的模型向后推一定时间内的预测值。案例(示例_超市.xls)——不同订单日期的销售额变化绘制如下折线图右键-预测-显示预测也可以选中“预测选项”进行相应的选择对于预测模型一般选“自定义”。选择了自定义后有“趋势”和“季节”两个选项。如果都设置为无则对模型和预测都不做贡献累加模型是对各模型组件的贡献求和而累乘模型是至少将一些组件的贡献相乘。当趋势或季节性受数据级别数量影响时累乘模式可以大幅改善数据预测质量这是官方解释图此时查看描述预测质量是“差”然后再将“趋势”与“季节”都改为“累加”再次查看描述预测发现质量是“好”