- 博客(5)
- 收藏
- 关注
原创 四招技巧,秒杀复杂的SQL
一个问题的复杂度分为两种:本质复杂度和偶然复杂度,本质复杂度就是必须要做的事,偶然复杂度多为偶然的路径选择而遇到的额外的事,多余做的事情。类比写SQL做数据分析,SQL模型很复杂多半来自偶然复杂性:比如一个指标模棱两可的口径,只需要和需求方沟通清楚,确定口径即可,没必要埋头苦干,苦思两全的方法这么做多半没有价值。避免路径依赖,固守老方法而忽略新的高效的工作方法,要多想多借鉴优秀的经验来提高工作效能。总结了几种SQL的高级写法,让SQL更顺滑。普通版sql VS 高级版sql,一见便知…1,学会使用C
2021-06-19 14:56:55
532
原创 一件利器:发现“数据亮点”不费力
数据分析最头疼的不是缺少分析思路,而是面对多维度大量数据,总需要做很多重复的工作,往往最后自己的辛苦工作却没有产出任务实际意义的价值。实践出真知,面对如下的数据:年龄、性别、学历等级、工作年限、工资**。如何快速挖掘出有用的价值,避免局限在自己的技能树之下,费千般力不得一分好:**用EXCEL开始手动处理,对列与列之间做重复的相关性校验,N列的数字我们需要做 次操作;探查每一列值域的分布,可能需要做N次这样的操作;偶然我们还会因为NULL值而掉进坑里;最头疼的是摸着石头过河,无法找到数据探查的信息点
2021-06-19 14:53:30
265
原创 小而美的民主算法:PageRank
了解Google公司,多半都对“PageRank”算法有所耳闻。该算法是一种典型的“从群众中来,到群众中去”的民主算法。1,PR的计算原理:网络世界由万万千千,千千万万的网页链接而成的,一个网页通过出链和入链链接着一个或多个网页。出链指的是网页中可以跳转出去的链接,入链指的是跳进网页的链接从图中我们很容易看出,网页Page1的出链有4个,网页Page1的入链有2个。用拓扑图来描述网页之间的关系,复杂交错的链接构建了一个庞大的互联系统,简称为“互联网”。一个网页的影响力是所有入链集合的网页影响力
2021-06-19 14:42:37
151
原创 箴言:统计学的智慧七柱
《旧约.箴言》写道:“智慧建造了房屋,雕琢了七根柱子。”建造智慧的房屋欢迎寻求知识的人一起庐舍谈天,阐明统计推理的核心思想及其七个原则。1,均值均值(聚合)【定向减少或压缩数据的价值】,最小二乘法及其衍生方法的本质都是均值,它们通过对数据进行加权汇总而抹去数据的个体特性——指定的协变量除外。把数据集中的个体值进行统计汇总,概括出的信息可以超越个体。甚至核密度估计和各类现代平化器在本质上也是均值...
2019-11-09 09:48:10
1810
原创 入门指南:菜鸟如何学习数据分析?
温馨提示:请先喝一杯水,因为内容太干;1,数据分析的重要性当你选择要学数据分析的时候,你一定知道数据分析的重要性赋予自己一技之长,安生立命,养家糊口创造价值,实现自我价值大势所趋,顺势而为,大放异彩从数据中提取知识的研究,进行富有创造性的查询和分析,描述客观事实,推演预测未知如果想简单的了解,数据预测的逻辑,可以阅读下文戏谈《长安十二时辰》的大案牍术2,兴趣是最好的老师当你开始...
2019-11-09 09:34:01
502
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人