Plotly包安装_数据可视化,还在用Matplotlib?
作者 | 将要
如何仅用一行代码创建美观的交互式图表?
程序员的沉没成本理论
沉没成本谬误是人类众多认知偏差之一。 它指的是我们倾向于不断地将时间和资源投入到失败的事业中,因为我们花了太多时间去追求无用的东西。 当我们在一个不起作用的项目或工作上花费大量资金时,就会出现沉没成本谬误。 例如,当有更高效、更具交互性的选项时,我们会继续使用它们。
在过去的几个月里,我意识到我使用它的唯一原因是因为我花了数百个小时学习它复杂的语法。 这种复杂性导致作者在尝试弄清楚如何格式化日期或添加第二个 y 轴时遭受了数小时的挫败感。 幸运的是,在探索了几个选项之后,在易用性、文档和功能方面,库是明显的赢家。
在本文中,我们将直接开始学习如何在更短的时间内创建更好的图表。
本文的所有代码都可以在()处找到。 图表是交互式的,可以在 () 处查看。
介绍
() 是一个基于 .js() 构建的开源库,而 .js() 又基于 d3.js() 构建。 我们将使用名为的包装器来使用数据。 因此,我们的整个堆栈是>>.js>d3.js,这意味着我们可以通过d3的交互式图形功能来获得编码效率。
(本身是一家拥有多种产品和开源工具的图形公司。它的库版本是免费使用的,我们可以在离线模式下创建无限的图表,在在线模式下最多可以创建25个图表进行共享。)
本文中的所有工作都是使用 + 完成的,它可以在离线模式下运行。 安装并使用 pip 命令后,运行以下命令:
单变量分布:直方图和箱线图
单变量图是开始分析数据的标准方法,直方图是绘制分布的首选图(尽管它有一些问题 -)。 在这里,利用作者文章的统计(你可以看看如何获取你的统计数据,也可以使用我的-),制作了一个文章点赞数的交互式柱状图(df是标准数据框):
对于那些习惯了它的人来说,我们所要做的就是添加一个字母(使用 iplot 而不是绘图),我们就得到了一个更好看的交互式图表! 我们可以单击数据来获取更多详细信息,放大图表的各个部分,然后选择要突出显示的内容(稍后我们将看到)。
如果我们想画一个叠加的直方图,就用下面的代码,也很简单:
通过使用一些相关的操作,我们可以制作一个条形图:
正如我们所看到的,我们可以与 + 结合。 您可以按出版物绘制每个故事的关注者箱线图:
交互性的好处是我们可以根据需要探索和分组数据。 箱线图中包含大量信息,如果没有能力查看数字,我们就会错过大部分信息!
散点图
散点图是大多数分析方法的核心。 它使我们能够看到变量随时间的演变或两个(或多个)变量之间的关系。
依次地
相当一部分真实数据都会有时间维度。 幸运的是,+ 的设计考虑了时间序列可视化。 接下来,使用下面的代码创建有关作者的 TDS 文章的数据框架,并查看趋势如何变化。
这里我们只用一行代码就可以完成很多不同的事情:
自动获取时间序列x轴
添加辅助 y 轴,因为我们的变量有不同的范围
添加文章标题作为悬停信息
我们还可以非常轻松地添加文本注释:
对于使用第三个变量着色的双变量散点图,我们可以使用以下命令:
我们可以使用对数轴(指定为绘图布局)(请参阅文档中的布局详细信息)和数值变量来调整气泡,使图表变得更复杂一些:
进一步的工作(详细信息请参见 -
),我们甚至可以将四个变量放在一张图表上(不推荐-)!
和以前一样,我们可以将它与 + 结合起来以获得有用的图表。
有关添加功能的更多示例,请参阅 或 文档。 我们可以使用一行代码向文本添加文本注释、指南和最佳拟合线,并且仍然具有所有交互。
高级图表
现在我们将制作一些您可能不会经常使用的图表,但它可能会令人印象深刻。 我们将使用(
)仅使用一行代码即可创建这些令人难以置信的图表。
散布矩阵
当我们想要探索许多变量之间的关系时,散点矩阵(也称为 splom)是一个不错的选择:
该图也是完全人机交互的,可以用来探索数据。
相关热图
为了可视化数值变量之间的相关性,我们计算相关性,然后制作带注释的热图:
还有许多不同类型的图表。 我们还可以使用几个主题来创建完全不同的风格。 例如,下面我们在“Space”主题中有一个比率图,在“”中有一个扩展图:
我们还可以获得 3D 图(表面和气泡):
您甚至可以制作饼图:
在图表中编辑
当您在 中绘制这些图时,您会注意到图右下角有一个小链接,上面写着“.ly”。 如果您单击该链接,您将进入聊天室,您可以在其中修改图表并进行最终演示。 您可以添加注释、指定颜色并清理所有不相关的内容以获得精美的图片。 然后,您可以将图表发布到网上,以便任何人都可以通过链接找到它。
下面是我在Chart中发布的两张图表:
上面提到的一切还不是这个绘图库的全部功能! 因此,作者建议读者查看文档以获取更多令人难以置信的图形。
() 的风电场数量
总结
沉没成本谬论最糟糕的部分是,你只有在放弃努力后才意识到浪费了多少时间。 幸运的是,现在作者犯了长期坚持下去的错误,而你不必这样做!
在考虑绘图库时,我们通常需要以下一些东西:
1. 只需一行代码即可快速探索数据
2. 用于子集/调查数据的交互元素
3. 根据需要深入挖掘细节
4. 轻松定制最终演示文稿
到目前为止,在 中完成这一切的最佳选择是库。 使我们能够快速可视化并帮助我们通过交互更好地探索数据。 此外,必须承认绘图应该是数据科学中最有趣的部分之一! 当使用其他库时,绘图就变成了一项繁琐的任务。 但当您使用图书馆时,您可以享受拍出好照片的乐趣!
随着时间的推移我的情节
2019 年到了,是时候升级您的绘图库,以提高数据可视化的效率、功能和美观性了。
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权本站发表,未经许可,不得转载。