纯情小学生-优快云博客

原创应用统计学知识整理

第一章分类变量统计学中的变量（variables）大致可以分为数值变量（numrical）和分类变量（categorical）。有序分类变量和无需分类变量的区别是：前者对于“比较”操作是有意义的，而后者对于“比较”操作是没有意义的。总体、样本、参数、统计量总体（Population）：所研究的全部个体（数据）的集合，其中每一个个体也称为元素。样本（Sample）：从总体中抽取一部分元素的集合（例如，从社群中抽10名小伙伴，这10名就可以成为样本）样本容量（Sample size）：样本中所含个

2021-07-01 16:21:57 3206

原创 Hadoop知识点总结

大数据概率大数据特点数据量大，数据类型繁多，处理速度快，价值密度低三次信息浪潮第一次：:计算机第二次:互联网第三次：物联网、大数据、云计算数据存储单位Byte(字节）、KB(千字节）、MB(兆字节）、GB(吉字节）、TB（太字节）、PB(拍字节）、EB(艾字节）、ZB（泽字节）分布式文件系统系统结构1、HDFS默认的一个块是64MB2、名称节点：负责文件和目录的创建、删除、重命名，同时管理着数据节点和文件块的映射关系，名称节点处于安全模式时只对外面提供读服务。3、数据节点：负责数据

2021-06-27 15:51:23 755

原创 CPU组成原理

cpu是由沙子提炼出来的1、PC：程序计数器，记录当前执行的指令的内存地址2、Registers:寄存器暂时缓存cpu计算需要用到的数据3、MMU：内存管理单元4、ALU：是能实现多组算术运算和逻辑运算的组合逻辑电路5、CU：控制单元，是CPU的一部分，用于执行计算机指令或者Client Unit 监控系统的监控客户端单元的超线程：一个cpu由多个内核构成，每个内核里面一个ALU对应多个PC | Registers，例如：四核八线程，可以理解成每个ALU可以控两个PC | Registers，意

2021-06-05 01:14:54 520

原创机器学习-决策树

决策树sklearn建模的基本流程拟合度拟合度可简单理解为模型对于数据集背后客观规律的掌握程度，模型对于给定数据集如果拟合度较差，则对规律的捕捉不完全，用作分类和预测时可能准确率不高，换句话说，当模型把训练样本学得"太好"了的时候，很可能已经把训练样本自身的一些特点当作了所有潜在样本的普遍性质，这时候所选的模型的复杂度往往会比真模型更高，这样就会导致泛化性能下降。这种现象称为过拟合（overfitting）；欠拟合（underfitting），是指模型学习能力低下，导致对训练样本的一般性质尚未学好。

2021-05-28 12:53:08 261

原创正则

正则表达式正则表达式常用元字符：元字符含义.匹配处换行符以外的字符\w匹配字母、下划线或数字\s任意空白字符\d匹配数字\n匹配一个换行符\t匹配一个制表符^匹配字符串的开始$匹配字符串的结尾\W匹配非字母、数字或下划线\D匹配非数字\S匹配非空白字符a1b匹配字符a或b（）匹配括号内的表达式，也表示一个组[…]匹配字符组中的字符（[a-z]匹配从a到z的字母）[^…]匹

2021-05-08 19:17:41 97

原创爬虫-数据提取

jsonpath使用场景如果有一个多层嵌套的复杂字典，想要根据key和下标来批量提取value，这是比较困难的。jsonpath模块就能解决这个痛点，接下来我们就来学习jsonpath模块。使用方法from jsonpath import jsonpathjsonpath(字典名，“jsonpath的语法”）jsonpath 常用语法$ 查询根节点（最外层大括号）. 子节点… 任意结点（子孙节点）通常情况下json和jsonpath一块使用。先将json字符串转化为字典（json.lo

2021-04-28 10:56:24 328

原创 2021-04-10 MapReduce执行步骤

#MapReduce开发的八个步骤##Map阶段两个步骤1、设置InputFormat类，将数据切割"k1-v1"对2、自定义Map逻辑（继承类），将第一步的结构转换成另外的"k2-v2"对##Shuffle阶段的4个步骤3、对输出的k2-v2进行分区4、对不同分区的数据按照相同的key进行排序5、对分组过的数据进行初步规约（聚合），降低数据的网络拷贝6、对数据进行分组，把相同的Key的Value放入一个集群中输出新的k2-v2##Reduce阶段的两个步骤7、对多个Map任务的结果

2021-04-10 15:02:12 260 1

m0_51298665的博客