
数据分析
zhige1112
这个作者很懒,什么都没留下…
展开
-
标准差、方差、协方差三者的表示意义
三者都是统计学中,对于样本的集合描述。定义公式标准差:方差:协方差:协方差相关系数:数学实际含义方差(Variance):用来度量随机变量和其数学期望(即均值)之间的偏离程度。标准差:方差开根号。协方差:衡量两个变量之间的变化方向关系。方差、标准差、和协方差之间的联系与区别:方差和标准差都是对一组(一维)数据进行统计的,反映的是一维数组的离散程度;而协方差是对2维数据进行的,...转载 2019-03-28 07:27:21 · 941 阅读 · 0 评论 -
K-means聚类最优k值的选取
我们希望能从数据自身出发去确定真实的聚类数,也就是对数据而言的最佳聚类数1.手肘法1.1 理论手肘法的核心指标是SSE(sum of the squared errors,误差平方和),其中,Ci是第i个簇,p是Ci中的样本点,mi是Ci的质心(Ci中所有样本的均值),SSE是所有样本的聚类误差,代表了聚类效果的好坏。 手肘法的核心思想是:随着聚类数k的增大,样本划分会更加精细,每个...转载 2019-03-23 10:48:22 · 1720 阅读 · 0 评论 -
五大常用算法总结
引言据说有人归纳了计算机的五大常用算法,它们是贪婪算法,动态规划算法,分治算法,回溯算法以及分支限界算法。虽然不知道为何要将这五个算法归为最常用的算法,但是毫无疑问,这五个算法是有很多应用场景的,最优化问题大多可以利用这些算法解决。算法的本质就是解决问题。当数据量比较小时,其实根本就不需要什么算法,写一些for循环完全就可以很快速的搞定了,但是当数据量比较大,场景比较复杂的时候,编写for循环就...转载 2019-04-07 17:21:55 · 337 阅读 · 0 评论 -
将excel表格数据导入mysql数据库表格中
工作中有时候会碰到到excel表格中的数据要存入mysql数据库中的情况,少量数据可以通过手动录入,或者编写sql语句,insert into table来完成,但是一旦数据量很大,以上方法就显得很不现实,因此需要有更简洁的办法解决使用navicat软件(收费,尼玛)链接成功以后找到自己要链接的数据库,找到“表”,右击,导入数据–>弹框建议一次只传一个文件,否则可能会等待很久,一旦有报错...原创 2019-06-13 16:53:05 · 8791 阅读 · 1 评论 -
jupyter读取错误格式文件
使用pandas读取xml文件报错:“ Unsupported format, or corrupt file: Expected BOF record; found b’<?xml ve’ ”解决办法:转换文件格式,使用excel打开xml文件 选择:文件—>另存为---->弹框保存以后,再次用pandas读取对应格式的文件读取即可...原创 2019-06-11 10:17:05 · 934 阅读 · 0 评论