R语言中值得学习的7个可视化,附代码段&案例数据集

  • 时间:
  • 浏览:3
  • 来源:uu快3官网app_uu快3豹子赚钱

7. Correlogram



1. Scatter Plot

在Mart data中,可能想根据它们的成本数据来可视化项目,那末都时需使用一六个 多多连续变量的散点图,即Item_Visibility和Item_MRP,如下所示。

在你类似数据集中,可能想知道每个出口的每个项目的成本,就都时需使用Heat Map,如下所示使用从mart数据集中的一六个 多多变量项目MRP,出口标识符和项目类型。



在你类似例子中都时需看过,物品成本和销售量是正相关的,而物品重量和它的可见度是负相关的。

这里是使用函数ggplot()和geom_histogram()的简单直方图的R代码。

在你类似数据集中,可能想知道基于分类变量如类型(Outlet Type)和位置(Outlet Location Type)的outlet数,堆栈图将以最有用的办法 显示该场景。

使用场景:Heat Map使用颜色的时延(密度)来显示二维图像中的一六个 多多、一六个 多多或多个变量之间的关系。 它允许使用一六个 多多维度作为轴和第一六个 多多维度用作颜色的时延。

3. Bar & Stack Bar Chart

为了选择哪有一种与数据匹配,不妨先从以下多少方面考虑:

Stacked Bar chart是条形图的高级版本,用于可视化分类变量的组合。

更多精彩内容参见云栖社区大数据频道:https://yq.aliyun.com/big-data

下面是使用函数ggplot()的单个连续变量的简单条形图的R代码。

使用场景:当您你都可不可不可以绘制分类变量或连续变量和分类变量的组合时,建议使用Bar Charts。

使用场景:Scatter Plot用于查看一六个 多多连续变量之间的关系。

使用场景:Histogram用于绘制连续变量。它将数据分成数据仓,并显示哪些数据仓的频率分布。这里都时需随时改变bin的大小,看看它对可视化的效果。

R代码加进类别:

使用场景:Area Chart用于显示变量或数据集的连续性。它与折线图非常类似,通常用于时间序列图。可能,它也用于绘制连续变量并分析潜在趋势。

从你类似数据集中,可能想知道在特定年份建立的货币数量,那末条形图将是最最少的选择,如下所示使用变量成立年份。



暗帕累托图表示项目MRP接近400.较亮帕累托图指示项目MRP接近2400。这里是使用函数ggplot()的简单热图的R代码。

可能检查项目成本、重量、可见性与出口建立年份和出口销售之间的一起关系,如下图所示。

下面来了解何如在R中使用哪些可视化



下面将通过“Big Mart data”示例来了解何如在R中创建可视化,完正数据集都时需从这里下载。

从Mart data中,可能想了解项目成本计数,那末都时需绘制直方图使用连续变量Item_MRP如下所示。

这里是使用functioncorrgram()的简单自相关图的R代码。

4. Box Plot

窟窿眼是离群值。 异常值检测和删除是成功数据探索的关键步骤。下面是使用函数ggplot()和geom_boxplot的简单框图的R代码。

Stacked Bar chart:

使用场景:Box Plot用于绘制分类和连续变量的组合。 此图用于可视化数据的扩展和检测异常值。 它显示六个统计上显著的数字——最小值,第25百分位数,中值,第75百分位数和最大值。



R编程允许开发者通过一组内置的函数和库来构建可视化以描绘数据。 在分享可视化的技术实现很久,首先着眼何如选择最少的图表类型。

在这里,facet_wrap在矩形布局中展示Item_Type。

使用场景:Correlogram用于测试数据集中可用变量之间的关联程度。矩阵的单元都时需被着阴影或着彩色以显示一起关系值。

在日常工作中,大多数会遇到下面列出的7张图表。

这里是简单区域图的R代码,显示项目出口销售的连续性,使用函数ggplot()和geom_area。

6. Heat Map

颜色越深,变量之间的相关性越高。 正相关以深蓝色显示,负相关以红色显示。 颜色时延与相关值成正比。

通过你类似教程,相信朋友对R编程中使用gplot2库来对数据进行可视化可能有所理解。

基本呈现类型有有一种:

这里甚至都时需通过为每个单独的Item_Type创建单独的散点图,使其更加直观清晰,如下所示。

这里是使用函数ggplot()和geom_point()的简单散点图的R代码。



Vertical Bar Chart:

在数据集中,当分析项目销售额的趋势时,面积图都时需如下图所示。 它显示销售额的销售点数。

2. Histogram

下面是通过ggplot()函数实现简单堆叠条形图的R代码。

原文链接:7 Visualizations You Should Learn in R (作者/Dikesh Jariwala)

下图恰到好处地描述了何如选择最少的图表类型,出自Andrew Abela博士之手。

从数据集中,可能期望选择每个出口的完正项目销售包括最小,最大和珍间数字,Box Plot是可行的。 此外,它还给出了每个出口的项目销售的异常值的值,如下图所示。

作为变体,都时需删除coord_flip()参数以获取上述垂直条形图。

单独类别图表的R代码:



现在,都时需在同一六个 多多图表中查看第一六个 多多变量,比如一六个 多多分类变量(Item_Type),它将给出每个数据集的结构(item_type)。 在下面的图表中,item_type的不同颜色表示不同的类别。

5. Area Chart

选择最少的图表类型

要根据单个条形图上的出口类型(分类变量)知道项目权重(连续变量),请使用以下代码: