- 博客(22)
- 收藏
- 关注
原创 hadoop学习笔记
Hadoop是什么Hadoop主要用来存储以及处理大量并且复杂的数据. 他是由java编写的, 最核心的三个组件分别是HDFS, MapReduce, Yarn。主要使用场景有三个: 存储大量的数据处理不同格式的数据, 包括结构性的数据, 比如关系型数据库里面的数据 以及日常生活中大量存在的非结构化以及半结构化的数据快速处理大量数据,主要用于实时分析HDFS负责存储, 以分布式的形式将数据存储在便宜的电脑上, 这样可以降低存储数据的成本。MapReduce则负责处理数据啦, 它分为Map和Redu
2020-09-11 11:02:32
211
翻译 二叉树的历遍
#include <stdio.h>#include <stdlib.h>/* 定义数据类型 */typedef char TypeData ;/* 定义二叉树 */typedef struct stBiTreeNode{ TypeData data; struct stBiTreeNode *lchild, *rchild;}BITREENODE;/* 初始化二叉树 */BITREENODE* createBiTree(){ cha
2020-08-24 16:15:00
228
原创 XGboost高频面试
XGboost高频面试1. 简单介绍一下XGBoostXGBoost的GBDT优化版,比如损失函数进行了二阶泰勒展开、目标函数加入正则项、支持并行和默认缺失值处理等,在可扩展性和训练速度上有了巨大的提升,但其核心思想是一样的。GBDT是一种基于boosting增强策略模型,训练的时候采用前向分布算法进行贪婪的学习,每次迭代都学习一棵CART树来拟合之前 t-1 棵树的预测结果与训练样本真实值的残差。2. XGBoost与GBDT有什么不同基分类器:XGBoost的基分类器不仅支持CART决策树,还
2020-08-17 21:49:39
423
原创 excel学习
=VLOOKUP(A2&"",数据源!B1:E92,4,0)只能小于等于自己的模糊匹配数值找区间 用1文本转数值=VLOOKUP(F4&"",A2:C6,3,0)数值转文本=VLOOKUP(F41,A2:C6,3,0)
2020-08-13 21:58:05
164
原创 2020-08-07
一个项目涉及到的50个Sql语句(整理版)–1.学生表Student(S,Sname,Sage,Ssex) --S 学生编号,Sname 学生姓名,Sage 出生年月,Ssex 学生性别–2.课程表Course(C,Cname,T) --C --课程编号,Cname 课程名称,T 教师编号–3.教师表Teacher(T,Tname) --T 教师编号,Tname 教师姓名–4.成绩表SC(S,C,score) --S 学生编号,C 课程编号,score 分数*/–创建测试数据creat
2020-08-07 12:01:11
360
原创 Airbnb短租数据分析报告
一. 数据集背景数据来源:https://pic1.zhimg.com/v2f1972ca63e72ba85398ec32fd712fb72_1440w.jpg?source=172ae18b共享,通过让渡闲置资源的使用权,在有限增加边际成本的前提下,提高了资源利用效率。随着信息的透明化,越来越多的共享发生在陌生人之间。短租,共享空间的一种模式,不论是否体验过入住陌生人的家中,你都可以从短租的数据里挖掘有趣的信息。活动采用了短租房源相关的公开数据,包括了结构化的表格数据、非结构化的文本和地图数据。该.
2020-08-06 19:14:04
5752
6
原创 【MySQL】178. 分数排名
178. 分数排名编写一个 SQL 查询来实现分数排名。如果两个分数相同,则两个分数排名(Rank)相同。请注意,平分后的下一个名次应该是下一个连续的整数值。换句话说,名次之间不应该有“间隔”。±—±------+| Id | Score |±—±------+| 1 | 3.50 || 2 | 3.65 || 3 | 4.00 || 4 | 3.85 || 5 | 4.00 || 6 | 3.65 |±—±------+例如,根据上述给定的 Scores
2020-07-08 20:37:48
621
原创 【MySql】第二高薪水 第N高薪水 部门工资前三高的所有员工
176.第二高薪水编写一个 SQL 查询,获取 Employee 表中第二高的薪水(Salary) 。+----+--------+| Id | Salary |+----+--------+| 1 | 100 || 2 | 200 || 3 | 300 |+----+--------+例如上述 Employee 表,SQL查询应该返回 200 作为第二高的薪水。如果不存在第二高的薪水,那么查询应返回 null。+---------------------+|
2020-07-04 11:27:22
554
原创 [MySql]多表查询
Leetcode 175 组合两个表SQL架构表1: Person+-------------+---------+| 列名 | 类型 |+-------------+---------+| PersonId | int || FirstName | varchar || LastName | varchar |+-------------+---------+PersonId 是上表主键表2: Address+-----------
2020-07-03 17:03:07
121
原创 mysql学习
mysql基础操作1.登陆mysql -u root -pD:\Program Files\mysql-8.0.20-winx64\bin> mysql -u root -pEnter password: ******Welcome to the MySQL monitor. Commands end with ; or \g.Your MySQL connection id is 10Server version: 8.0.20 MySQL Community Server
2020-06-08 15:56:54
364
原创 【机器学习】决策树,随机森林
决策树决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。其实用一下图片能更好的理解LR模型和决策树模型算法的根本区别,我们可以思考一下一个决策问题:是否去相亲,一个女孩的母亲要给这个女海介绍对象。分裂原则##2.1ID3算法剪枝处理剪枝(prunin...
2020-03-21 11:43:00
608
原创 【深度学习】YOLO
1、简述下YOLO算法原理?答:Yolo算法采用一个单独的CNN模型实现end-to-end的目标检测,模型参考自GoogleNet,YOLO的CNN网络将输入的图片分割成SxS的网络,然后每个单元格负责去检测那些中心点落在该格子内的目标。每个单元格会预测B个边界框(bounding box)以及边界框的置信度(confidence score)。所谓置信度其实包含两个方面,一是这个边界框含有目...
2020-03-18 20:46:43
489
原创 【机器学习】svm
1. SVM 原理a.SVM 是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器。b.当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机;c.当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机;d.当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机。2. S...
2020-03-18 10:41:03
397
1
原创 【算法1】排序(C++版)
1.输入5个数(1-10),从小到大排序#include <iostream>using namespace std;int main(){ int a[11],t; for(int i = 0; i <= 10; i++) { a[i] = 0; } for(int i = 1; i <= 5; i++) { cin >> t;...
2019-12-19 19:59:36
147
原创 [leetcode]27. 移除元素
给定一个数组 nums 和一个值 val,你需要原地移除所有数值等于 val 的元素,返回移除后数组的新长度。不要使用额外的数组空间,你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。元素的顺序可以改变。你不需要考虑数组中超出新长度后面的元素。示例 1:给定 nums = [3,2,2,3], val = 3,函数应该返回新的长度 2, 并且 nums 中的前两个元素均...
2019-10-12 20:09:01
224
原创 【leetcode】 347. 前 K 个高频元素
示例 1:输入: nums = [1,1,1,2,2,3], k = 2输出: [1,2]示例 2:输入: nums = [1], k = 1输出: [1]说明:你可以假设给定的 k 总是合理的,且 1 ≤ k ≤ 数组中不相同的元素的个数。你的算法的时间复杂度必须优于 O(n log n) , n 是数组的大小。来源:力扣(LeetCod...
2019-10-11 23:34:41
114
原创 [leetcode]215. 数组中的第K个最大元素
堆排序,Python两行流氓代码。在未排序的数组中找到第 k 个最大的元素。请注意,你需要找的是数组排序后的第 k 个最大的元素,而不是第 k 个不同的元素。示例 1:输入: [3,2,1,5,6,4] 和 k = 2输出: 5示例 2:输入: [3,2,3,1,2,4,5,5,6] 和 k = 4输出: 4class Solution: def findKthLarg...
2019-10-10 00:01:42
127
原创 [leetcode] 167. 两数之和 II - 输入有序数组
香港今夜的雨好像依萍遇见书桓一天,由于小黑人的无脑运动我已经在家呆了三天了。Anyway今天开始刷LeetCode了,以后可以教育我的孩子“你看你还不好好学习,想当年香港那么乱,你妈好深夜看书刷题,你再不好好学习到爆你的狗头!”两数之和 II - 输入有序数组给定一个已按照升序排列 的有序数组,找到两个数使得它们相加之和等于目标数。函数应该返回这两个下标值 index1 和 index2...
2019-10-06 23:49:04
134
原创 PLA算法的实现
PLA learning algorithmbackgroundThis program is a basic implementation of a PLA algorithm in Python which is divided into two parts according to requirements.DataEmit.py --To generate random numb...
2019-10-06 23:22:33
645
3
转载 sklearn.cluster.KMeans 参数介绍
sklearn.cluster.KMeans 参数介绍为什么要介绍sklearn这个库里的kmeans? 这个是现在python机器学习最流行的集成库,同时由于要用这个方法,直接去看英文文档既累又浪费时间、效率比较低,所以还不如平时做个笔记、打个基础。 这里还有一个原因,上面介绍了k-means++,sklearn.cluster.KMeans这个类对于初始聚类中心的选择刚好默认选择的就...
2019-05-03 12:05:53
27426
转载 数据分析书单推荐
统计学及机器学习入门《赤裸裸的统计学》《深入浅出统计学》《概率论与数理统计》(茆诗松)《机器学习》(周志华)数据分析技能《深入浅出数据分析》《Excel图表之道》《精益数据分析》《数据化决策》《R语言实战》《数据挖掘与R语言》(Luis Torgo)《数据挖掘技术——应用于市场营销、销售及客户关系管理》《数据、模型与决策》(Frederick S.Hiller)提升分析...
2019-05-01 22:31:16
540
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人