我看你骨髓清奇,是个学数据分析的奇才。

本文转自知乎

作者:邹昕

—————————————————————————————————————————————————————

 

整理一些数据分析入门的学习资料,顺便送几本书,有兴趣的请看文章最后。

【0】入门互联网数据分析

不同行业不同公司要求会很不一样,比如说银行做数据分析、建模会要求 SAS/SQL,而互联网行业数据分析只要会 SQL 就可以了。

再比如说小公司可能会要求还会 R/Python 什么的,但是稍微中型一点的公司则可能只需要会 SQL 就行了。

乍一看有点奇怪,但其实也不奇怪,因为大一点的公司基础设施 (infra) 做得好,很多事情比如说 A/B test 这种都自动化了,不需要专门写代码。

接下来的内容都以中型以上互联网公司为例,讲讲如何准备工作需要的三个维度:技术,数据分析方法,行业知识。

【1】技术
技术方面 SQL 是最基本的,也是最重要的。

几个可以学习 SQL 的网站,基本上不会有什么太大的区别

https://community.modeanalytics.com/sql/tutorial/introduction-to-sql/

https://sqlzoo.net/

中文版的 https://www.w3cschool.cn/sql/

一些可以练习的网站:

http://www.programmerinterview.com/index.php/database-sql/advanced-sql-interview-questions-continued-part-2/

重点需要注意的:where / group by / order by / left join / right join / inner join / null / not null / having / distinct / like / union / avg / sum / min / max 
像 rankover 这种已经算是挺高级的了。

当然除了 SQL 之外,Excel 也是要会一点的,比如说做个图,算算总合、平均之类的,稍微复杂点的数据透视表 (pivot) 就够了。

如果 SQL 上手比较快,时间充裕,那就练练 Tableau, 主要目的是看看都有什么样的图表,感受一下各自适用什么样的场景。

具体怎么做图不是非常重要,真要用的时候搜索一下现学就好了。

Tableau 很贵,所以下个试用版的就可以了,然后试用期学点最基本的就可以了。

说到数据可视化,再提一下这个 blog,作者写了《Storytelling with Data》:

http://www.storytellingwithdata.com/

【2】数据分析方法

经常被问到学习数据分析推荐哪些书,通常答案是我没看过什么数据分析的书,大部分时候是搜索整合各种网上的资源,后来仔细想了想,还是有一些的。

Case in point. 经典的管理咨询的书,哪个版本的都无所谓了,印象中大概看了一半左右。好像是因为懒,所以没看完,也因为套路都是类似的,看一半也就差不多可以了。

Introduction to Probability Models by Sheldon M. Ross. 应该是出到第 11 版了,但内容应该区别不大,看第一章就可以了,需要搞清楚条件概率,这个概念还是有点重要的。

Storytelling with Data,中文版《用数据讲故事》,作者也就是前面提到的 http://storytellingwithdata.com 的作者。

然后再找本统计基础的书(随便哪本教科书都差不多,实在不行的话把 wiki 上统计长条目下的多看几遍也可以),不要太纠结于理论、证明,时刻记住你要能把这些概念解释给不懂统计的人听,解释不清楚的东西你自己搞清楚了,效果也要大打折扣。

搞清楚几种常见的分布,假设检验,假阳性,假阴性,区别估算,显著性差异,p-value,平均值,中位数,p1/p25/p50/p75/p99,相关性,因果性,幸存者偏差,大数定律,80/20 等等。
Thinking, Fast and Slow. 当科普书看看就好,如果看不下去的话那就看《牛奶可乐经济学》。

【3】行业知识
很不幸,这一部分就真的没有特别有针对性的书可以看的了,基本都靠搜索,总结,思考,再搜索,总结,思考。。。

如果平时对互联网、科技行业相对比较关注,这一部分会上手很快,了解一些基本概念,试用一些产品,基本上 20 天可以达到一个入门的程度。

【3.1】试用相关的产品

所有互联网公司都强调员工要使用自己的产品,也就是所谓 dogfooding,这是提高产品思维最有效的办法,没有之一。

比如 Airbnb 会每个季度提供一定额度的金额让员工去度假的时候可以用上,住 Airbnb 上的房源,Uber 会给员工提供 credit 打 Uber 的,Facebook 会给员工提供 credit 在 Facebook 上做广告,通常来说每个季度几百块的样子。

通过这种方式员工可能会发现一些 bug,或者提供一些产品相关的反馈等等。

很显然,即使你不是上述公司的员工,你仍然是可以使用他们的产品,想想他们为什么样这么做,有什么可以改进的。

以 google map 为例,有一个功能是在达到目的地的时候,会显示出目的地的街景。那么接下来可以有一系列的问题。

为什么要显示出街景?方便用户辨认目的地。

除了显示街景还可以显示什么?可以显示附近停车场,或许目的地本身是没有停车场的,那么用户需要停车的话如果能自动给用户一些选择或许是一个不错的功能。

假设要做这么一个功能的话,什么情况下应该显示呢?

比如显然应该只有在用户在开车的时候才应该显示,那么如何辨别用户之前是开车而不是走路?

比如假如有目的地有停车场的话,那就不需要显示,这又如何辨别?

如果要显示停车场,又需要显示哪些信息?比如停车场的距离?价格?开放时间?

假设做了这么一些新的功能出来了,又如何验证效果是否好?A/B test?如何选 metrics?选用哪些用户?

类似的问题可以一直问下去,多进行类似的思维训练,对积累行业相关知识,训练产品思维是很有帮助的。

而且这种积累并不是说一定要坐在桌子前开始慢慢想,形成习惯了之后,使用产品的过程中会自然而然的想到这些。

比如上面的例子就是在一次导航完发现 google map 自动显示了目的地的街景而想到的。

数据分析的工作除了需要技术上的打磨,如何训练分析过程中的思路,也就是 analytical/critical thinking也是非常重要的一环。

很有效的一个办法就是碰到一个问题的时候,至少问自己5个为什么,不断深入,剥丝抽茧,问题也自然越来越明朗了。 

【3.2】善用搜索引擎

信息爆炸的时候,如何搜索信息、汇总、提炼出有用的信息变得尤其重要。具体关于如何使用 google的一些技巧,这篇文章就不细说了。

另外,墙内的同学们,试试翻墙或者用 Bing 吧。

除此之外,知乎和 quora 上都聚集了大量互联网相关从业人员,很多问答也是与此相关的,至于能不能找到你想要的信息,搜索技巧就很重要了。 

【3.3】跟行业前辈交流

这里面的行业前辈可以是已经在行业里工作的师兄师姐(有时候是师弟师妹),也可以是这个行业里并没有什么关系的人。

那么如何结识这样的人,并且让他/她愿意帮助你呢?Linkedin 是一个很好的地方。就我个人来说,我很愿意帮助有一定准备的同胞。

注意是有一定准备,自己花了一定时间进行积累思索,让问题更有针对性,效果也会更好。

如果不直接认识在这个领域工作的人,很有可能也是可以通过你的好友间接认识的,此外还有一些社交网站,诸如微信群、知乎等,也可以认识不少行业大牛。

比如曾经有人问 

@曾加

,作为十几万粉的知乎大V,最好的变现方式是什么?

他回答的大意是,通过这样一些资源认识更多的行业大牛,不断增强自己,这是最好的“变现方式”, 就是这个意思。

还有一个很好的办法是通过各种线下聚会,比如美国这边尤其是湾区比较常见的 meetup,不时会有各个行业的活动。

这些活动上通常可以跟业内人士聊聊他们做的东西,请教一些问题,而且一般他们也会宣传他们的招人计划,可谓一举两得。

【3.4】网络资源

不管你是处在世界的哪个地方,只要有网络,也就意味着你可以接入到世界上无数的公开课、行业领头人物的分享。

但是信息太多,也就意味着如何精简挑选变得更加的困难。

这里我分享一下过去几年来我总结的一些资源,以及简单的讲一下推荐的理由。 

【3.5】书籍

Zero to One by Peter Thiel -- 从0到1

The Hard Thing about Hard Things by Ben Horowitz -- 创业维艰

这两本书是讲创业的,都有中文版。如果你还没看过,又想从事互联网行业的话,一定要看一下。虽然是讲创业的,但是却可以让人退一步,在一个更高的角度理解如何做好产品。 

【3.6】网站

http://jwegan.com/

Pinterest 的一个用户增长工程师的 blog,很多各种产品开发的思路、实验、分析。

https://www.kissmetrics.com/

产品思维里重要的一面,metrics metrics metrics。看名字你应该就能猜出来我为什么推荐这个网站了。

https://medium.com/

各种科技相关资讯。

http://firstround.com/review/

同上。

http://www.slideshare.net/

LinkedIn 旗下的网站,有大量专业人士分享的 slides (幻灯片)。

视频资源

https://www.youtube.com/channel/UCxIJaCMEptJjxmmQgGFsnCg

硅谷最出名的 YC 创业孵化器在斯坦福的讲课,中文版的看这里:

http://startupclass.club/

【3.7】微信/知乎推荐(排名不分先后)

张溪梦

微信公众号:GrowingIO

https://www.zhihu.com/people/simonzhang1

LinkedIn 前 Business Analytics 的大头创办的公众号,现在在国刚创业数据分析服务。

曹政

微信公众号:caozsay

https://www.zhihu.com/people/cao-zheng

心得分享

朱赟

微信公众号:AngelaTalk

Airbnb 工程师,硅谷技术、文化、故事、职业发展等。

曾加

微信公众号:PlusZeng

https://www.zhihu.com/people/zengjiaplus

蚂蚁数据分析

何明科

https://www.zhihu.com/people/he-ming-ke

做过投资做过互联网产品;目前专注于数据和互联网产品中。

chenqin

https://www.zhihu.com/people/chenqin

知乎数据帝

路人甲

微信公众号:一个程序员的日常

https://www.zhihu.com/people/sgai/

空白白白

https://www.zhihu.com/people/jiafeimao/

数据咨询

【4】送书啦~~~

最后的最后,送一本书,也就是前面提到的 Cole Nussbaumer Knaflic 写的 Storytelling with Data一方面是因为这本书的确不错,值得一读。

另一方面是因为过几天可能需要送几个 Udacity Nano Degree 的名额,想先通过送书的形式先测试一下这个方法是否可行。

所以对这本书有兴趣的,欢迎在微信公众号「再生谈|reborn_chat后台回复「数据分析送书20170917」参与活动,截止北京时间 2017 年 9 月 24 日 23:59,邮寄地址仅限中国大陆地区,一共五个名额,随机抽取。

每多 100 个人参与再多加 5 个名额,无需转发,无需点赞。

当然您要转发或者点赞我也不能拦着不是。。。

基于TROPOMI高光谱遥感仪器获取的大气成分观测资料,本研究聚焦于大气污染物一氧化氮(NO₂)的空间分布与浓度定量反演问题。NO₂作为影响空气质量的关键指标,其精确监测对环境保护与大气科研究具有显著价值。当前,利用卫星遥感数据结合先进算法实现NO₂浓度的高精度反演已成为该领域的重要研究方向。 本研究构建了一套以深度习为核心的技术框架,整合了来自TROPOMI仪器的光谱辐射信息、观测几何参数以及辅助气象数据,形成多维度特征数据集。该数据集充分融合了不同来源的观测信息,为深入解析大气中NO₂的时空变化规律提供了数据基础,有助于提升反演模型的准确性与环境预测的可靠性。 在模型架构方面,项目设计了一种多分支神经网络,用于分别处理光谱特征与气象特征等多模态数据。各分支通过独立习提取代表性特征,并在深层网络中进行特征融合,从而综合利用不同数据的互补信息,显著提高了NO₂浓度反演的整体精度。这种多源信息融合策略有效增强了模型对复杂大气环境的表征能力。 研究过程涵盖了系统的数据处理流程。前期预处理包括辐射定标、噪声抑制及数据标准化等步骤,以保障输入特征的质量与一致性;后期处理则涉及模型输出的物理量转换与结果验证,确保反演结果符合实际大气浓度范围,提升数据的实用价值。 此外,本研究进一步对不同功能区域(如城市建成区、工业带、郊区及自然背景区)的NO₂浓度分布进行了对比分析,揭示了人类活动与污染物空间格局的关联性。相关结论可为区域环境规划、污染管控政策的制定提供科依据,助力大气环境治理与公共健康保护。 综上所述,本研究通过融合TROPOMI高光谱数据与多模态特征深度习技术,发展了一套高效、准确的大气NO₂浓度遥感反演方法,不仅提升了卫星大气监测的技术水平,也为环境管理与决策支持提供了重要的技术工具。 资源来源于网络分享,仅用于习交流使用,请勿用于商业,如有侵权请联系我删除!
在机器人技术领域,机器人操作系统(ROS)的演进为各类应用提供了关键支撑。计算机视觉与增强现实的结合,进一步拓展了机器人的感与交互能力。OpenCV作为广泛使用的视觉处理库,集成了多种图像分析与模式识别算法。其中,Aruco标记系统作为一种基于二维码的视觉标识,因其识别稳定、计算高效的特点,被广泛应用于空间定位、姿态估计及增强现实场景的虚实融合。 Aruco标记通过预定义的编码图案,可在复杂环境中实现快速检测与高精度位姿解算。这一特性使其在自主导航、三维重建、目标跟踪等任务中具有重要价值。例如,在移动机器人定位中,可通过布设标记点辅助实现厘米级的位置修正;在增强现实应用中,则能依据标记的空间姿态准确叠加虚拟信息。 针对ROS2框架,现已开发出集成OpenCV的Aruco标记检测与位姿估计工具包。该工具能够实时处理图像流,识别标记的独特编码,并解算其相对于相机坐标系的三维位置与旋转姿态。结果可通过ROS2的话题或服务接口发布,为其他功能模块提供实时视觉反馈。工具包兼容多种标准标记字典,用户可根据实际场景的复杂度与识别范围需求,灵活选择不同尺寸与编码数量的标记集合。 将Aruco检测模块嵌入ROS2系统,可充分利用其分布式通信机制与模块化架构。开发者能够便捷地将视觉定位数据与运动规划、控制决策等模块相融合,进而构建更为综合的机器人应用系统。例如,结合点云处理技术可实现动态环境的三维建模,或与机械臂控制器联动完成基于视觉引导的精准抓取操作。 该开源工具的推出,降低了在ROS2中部署视觉定位功能的技术门槛。通过提供稳定、可配置的标记识别与姿态解算方案,它不仅促进了机器人视觉应用的快速原型开发,也为后续在工业自动化、服务机器人、混合现实等领域的深入应用奠定了技术基础。随着感算法与硬件性能的持续提升,此类融合视觉、增强现实与机器人中间件的工具包,将在智能化系统的构建中发挥日益重要的作用。 资源来源于网络分享,仅用于习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值