
Data Mining
是东哥啊
欢迎关注我的公众号「统计与数据科学」:Data2Science。
展开
-
常用运筹学软件整理
1. 问题最近在折腾运筹学的一些东西。理论学完了肯定是要借助工具,手算的时代已经过去了。那么常用的软件包有哪些呢?2. 分析2.1. Excel把Excel排在第一肯定有很多人不服,毕竟这看起来也太不专业了。但就像我们之前说的,讨论工具的鄙视链没有意思。Excel简单易用,普及范围最广,和其他软件结合也是最方便的。Excel求解线性规划、整数规划等需要用到Solver工具包,Excel自带,免费使用。如果想要更强大的工具包,可以考虑其付费升级版Analytic Solver for Excel .原创 2020-06-12 11:26:33 · 5415 阅读 · 0 评论 -
如何通过样本数据推断其分布
1. 问题运筹模拟的时候,我们通常会给定,某事件服从正态分布/指数分布之类。问题是,我们通常只能观察到样本数据,没有办法观察到其具体服从的分布。所谓服从什么分布,是需要我们从样本数据推测的。那么问题来了,怎样从数据推测出其所服从的分布(goodness of fit)呢?2. 分析市面上有一些专业的统计软件,可以做到从数据到分布的推测。比如Stat::Fit。但289美元的价格可着实不低。所以我们需要另想办法。常见分布匹配的方法有很多,比如Bayesian information crite.原创 2020-05-28 22:43:13 · 3875 阅读 · 0 评论 -
一文道尽 Excel 的 Criterion
1. 问题Excel 有众多统计函数(Statistical functions),比如 CountIf、SumIf等,可以根据指定条件(Criterion)进行相关操作。其中 Criterion 应该怎么设置写的比较函数,今天咱一起来总结下。2. 分析根据 Office Online 的帮助文档,我们可以总结出,Criterion 的标准语法应该是"Logic Operator" & Expression具体来说,Logic Operator 有=><>=.原创 2020-05-26 23:49:36 · 1031 阅读 · 0 评论 -
用 R 语言打个印咋就这么费事儿呢
1. 引子前两天还说 R 语言不是不好,(只是不适合咱用)[],今天就想收回这话了。这货用着也太别扭了,一个最简单的可视化差点憋死我。就像马保国,名气大,实则很完蛋。2. 问题比如一个最简单的csv,想打印成 Bar Plot。数据长的像下面这样skillsnumbermachine learning7255communication skill2970fast pace1672software develop1356track record.原创 2020-05-22 21:32:50 · 283 阅读 · 0 评论 -
东哥和刘亦菲的故事
1. 问题R 语言作为统计学家御用语言,数据类型和语法规则和常见的给程序员使用的编程语言多有不同。不能说人家坏,只是不适合。就像东哥就是刘亦菲永远都得不到的人(^_−)☆。2. 分析先丢下咱的刘亦菲,继续聊聊 R 语言这些怪异的数据类型。下面这个表格很清楚的显示了R语言常见复合数据类型HomogeneousHeterogeneous1DVectorList2DMatrixDataFramenDArray/有些数据是单一数据类型(Homogene.原创 2020-05-19 13:54:37 · 388 阅读 · 2 评论 -
NumPy 运算规则总结
1. 问题ndarray 是 NumPy 的基础元素,NumPy 又主要是用来进行矩阵运算的。那么具体来说,ndarray 是如何进行普通矩阵运算的呢?2. 分析首先,在矩阵用 +-*/ 这些常规操作符操作的时候,是对元素进行操作。这和其他诸如 MATLAB 等语言不一样。比如ar = np.array([[20, 21, 22], [23, 24, 25]])ar *...原创 2020-05-07 21:13:30 · 755 阅读 · 0 评论 -
Python 中怎样合并数据
1. 问题数据连接是数据处理中经常需要用到的操作。Python 常见的数据类型,都应该怎样进行连接呢?2. 分析2.1. listlist 的连接是最容易的,直接用 Python 语法即可。a = [1, 2, 3]b = [4, 5, 6]c = a + bprint(c)d = [a, b]print(d)输出结果[1, 2, 3, 4, 5, 6][[1, 2,...原创 2020-05-07 02:07:38 · 1604 阅读 · 0 评论 -
Numpy 中如何矩阵的特征对排序
1. 问题用 Numpy 求解矩阵特征对的时候,返回结果大小是随机的,而我们数据挖掘求解的时候常需要把特征值按从大到小的顺序排列。如何简单的实现对特征值和特征向量排序呢?2. 分析Numpy 的 argsort 函数,可以提取排序后的索引。举例来说a = np.array([3, 1, 2, 4])b = np.argsort(a)其结果为array([1, 2, 0, 3])...原创 2020-04-15 09:27:22 · 2421 阅读 · 5 评论