非程序员的数据可视化

转载:非程序员的数据可视化之路 http://www.civn.cn/p/12334.html
2013年03月26日 ? 数据可视化 ? 共 2310字 ? 暂无评论

我们注意到,这个博客的字里行间常常透露出可视化如何被大肆宣传以及这种趋势正在不断扩大。这是好消息!很有趣,并且——成功!但是,当越来越多人加入到wild bunch,我们不得不照顾那些并不具备我们所拥有的技能的人。有很多人热爱数据可视化,但他们觉得自己并不是干这行的,因为他们不会编程。我个人认为,这是一个问题,我们应尽可能地包容它。智慧无处不在,我们要善于利用。

随着数据可视化的发展,我们期待人们为非程序员开发更容易理解和使用的工具。无论如何,想想:为什么想成为数据可视化专家必须懂编程?冷静思考一下其它成功的技术。我们需要编程才能成为高级平面设计师吗?或者,创建一个动画又怎样?以及用CAD设计蓝图?我甚至会说,我们可以将未来可达到的大众化作为某领域成熟度的测量。

顺便说一下,如果你是非编程数据热爱者,我有好消息带给你:未来就在这里!这里已经有至少三款免费的强大的工具。不过,我先讲讲存在的问题,因为我们需要更宽广的视野。

 

数据可视化,80%数据20%可视化

我觉得不会有人反对这句话。理解这句话,首先,创建一个伟大的可视化,需要先收集和预处理数据。以我的经验,这部份工作占全部工作量的80%。我知道这听起来很沮丧,但别无它法。

还有一个更微妙的问题。许多人认为可视化的魅力在于可视化本身。但事实证明,一个可视化成功与否,取决于所展示的数据是否有实际价值,是否传达了清晰和有趣的信息,以及讲述了某些故事。你可以创建最美丽的可视化,但如果数据是无趣的,将很难让读者留下深刻的印象。

所以,你需要这些:

数据收集工具:你可以花整个下午像僵尸一样在网络上寻找有趣的东西、data.gov或OECD知识库中的数据,但更好的方式是离开网络,建立自己的数据。为此,最好的办法是从手头的百万个网站上抓取数据。只有你想不到的,没有得不到的。

数据处理工具:你最好从第一天就意识到:数据是污泥,数据处理是一件肮脏的工作。你不会喜欢(呃,我喜欢数据处理,那是另一个故事)但必须做的事,尤其是从网络上收集的素材。你要面对缺失值、异常值、你不喜欢的格式、要转换的数据、总体和样本等问题。

数据可视化工具:好东西来了。如果你从没写过一行代码会怎样?有点艰难。好吧,我来告诉你:写几行代码没有那么难,而且我衷心建议每个人都尝试写写。你获得的力量是不可估量的。但如果你太害怕,或只是太懒或没有时间投入,你需要一个可视化设计工具。一些把你的数据转变成像素点的东西。可能是一些有缓慢而柔和的学习曲线的东西。

 

忍者的工具箱

Outwit Hub (数据收集)

Outwit Hub是一个神奇的FireFox插件。 运行时将出现一个有许多功能的浏览器窗口。它分析最近的网面并抓取全部的元素,并将这些元素分类:tables、text、images、links、documents等等。如何使用这些?有三个主要功能。

以相似的格式导出html表为.csv表;

抓取数据条目;

对系列链接自动应用scraper。

是不是很神奇?网络就在你手上,唯一的限制就是你的想象。我玩Outwit Hub有些日子了,小菜一碟。你需要花点精力理解它是怎么工作的,尽管许多功能是不言自明的。如果你想了解更多,你可以进入 outwit blog,那里有一些有用的教程。

最后一句:Outwit Hub有免费版和付费版。我必须承认,免费版有些限制,虽然你仍可以开始用它做一些有趣的事。如果你需要更多,尤其是自动化和数据模式规范,需要升级付费版本。

KNIME(数据处理)

KNIME代表Konstanz Information Miner和它最有名的数据挖掘工具。它有庞大的制药企业领域的追随者,但我猜测,鲜有数据可视化领域的专家了解它。数据挖掘在数据可视化中的角色这个问题值得以一整篇博文讲述,我的计划是泛泛而谈。推荐KNIME有两个原因:

基于工作流模式的直观用户界面;

方便的数据预处理和转换工具。

使用KNIME不需要任何的编程技能。应用以工作流模式组织,你选择要处理的数据的节点,并将它们连接起来,以得到你想要的形状。例如,有些数据输入输出的节点,用来加载.csv文件或数据库中的数据。还有一些节点用来过滤、聚合和标准化数据列。用于顾及缺失值的节点。然后,如果你有经验并且喜欢冒险,还有一大堆节点可以用,如clustering、classification、rules等等。KNIME有一些数据可视化功能,但他们真的并不是最好的。

Tableau Public(数据可视化)

我不知道是不是真的要介绍Tableau Public。Tableau是发展最快的高技术企业之一,它的产品正在改变业务环境和网络环境中数据可视化的方式。Tableau Public是Tableau的免费版本,准许在网络上发布可视化。Tableau的两点强大之处:

基于拖拽操作的易用界面;

创建可出版的可视化的能力。

可以加载一个数据表(从多个格式),并开始尝试数秒间生成各种形式的图表。只用选择一个数据列,将其拖动到可视化空间,它会猜测什么表示方式是最好的。类似的,数据列映射到不同的颜色、大小、形状等。几分钟就可以探索数十种不同的设计方案,选择最适合你脑海中的目标的一种。一旦选择了最好的设计,可以以仪表板的格式将它发布到网上。

 

结论

全部下载并开始尝试。最重要的是玩得开心!像往常一样,每个工具需要一定程度的精力投入,但他们都有一个非常温柔的学习曲线,你可以从一开始就得到很酷的东西。如果你有问题或困难,请告诉我(Enrico Bertini),我很乐意帮助。

 

via Fell in Love with Data by Enrico Bertini

civn.cn译,转载请注明

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值