- 博客(64)
- 资源 (5)
- 收藏
- 关注
原创 Python- 分区判断的写法及其5种优化方法
执行以上代码,分别使用了 pd.cut(),np.where(),np.select() 和 apply() 这些方法来统计 col1一列分组后的数据量,各方法的返回值 count1、count2、count3、count4 分别储存在 DataFrame 中。有存在随机的10000个数据,请用Python将判断每个数在哪个区间,并输出,区间分为,小于0,0到50,50到100,100 到1000,1000以上。是Python内置函数,可以用于在遍历一个可迭代的对象时,同时返回一个计数和相应的值。
2024-02-08 09:58:54
1258
原创 sklearn库简述-zstarling
划分数据集from sklearn.model_selection import StratifiedShuffleSplit 评估模型:用于计算真实值与预测值之间的预测误差from sklearn.metrics import accuracy_score, log_loss _score结尾的函数,返回值越大,效果越好;_loss结尾的函数,返回值越小,效果越好。K近邻分类器集(KNN算法)from sklearn.neighbors import KNeighborsClas
2023-05-25 11:37:54
291
原创 面试题集合1
数据标准化方法有最小-最大标准化、z-score标准化、小数定标标准化、对数变换。最小-最大标准化将数据转换为0到1之间的范围,通过对每个数据点进行以下计算实现:(X-Xmin)/(Xmax-Xmin),其中X表示原始值,Xmin表示数据中的最小值,Xmax表示数据中的最大值。该方法的主要特点是保留了数据的相对大小和顺序关系。z-score标准化将数据转换为均值为0,标准差为1的分布,通过对每个数据点进行以下计算实现:(X-μ)/σ,其中X表示原始值,μ表示数据的平均值,σ表示数据的标准差。
2023-05-25 11:30:23
536
原创 MYSQL-高阶2
with在sql语句中定义在group by之后。当需要对数据库数据进行分类统计的时候,往往会用上groupby进行分组。而在groupby后面还可以加入withcube和withrollup等关键字对数据进行汇总。使用 WITH ROLLUP,此函数是对聚合函数进行求和,注意 with rollup是对 group by 后的第一个字段,进行分组计算。count多条件计数,是指满足多条件行的计数,且count统计不计入空值。MySQL是可以支持直接创建字段值,但是牛客不可以,解决方式在下方。
2023-03-12 03:39:18
356
原创 SQL(HIVE -HUE)剔除的三种方式
第四种方法是第三种方法的删减版,但是在hive中会报错,无语法错误。应该是不支持这种写法,至于原因还未找到,若有大佬,请指教。上述三种方法中,一般不建议使用not in。IS NULL 的执行速度最快。
2022-11-16 14:17:49
1473
原创 Python写入EXCEL
pd.ExcelWriter写入open写入方法write与writelines对比表格Dataframe形式的写入for、with 位置对比
2022-07-13 16:08:15
7791
原创 MYSQL--高阶1
文章目录----zstarling----------zstarling------IFNULL函数ifnull(x,y)表示
2022-07-12 16:28:55
252
原创 Linux-操作1(去重)
默认升序(ASCII码方式)。-b :数值排序-f:小写转化成大写排序-r:降序排序-u:去重-n:以数值的方式排序-t:设置分隔符()-k:指定列数()uniq: 去重默认删除重复行(重复行只保留一个)。当重复的行并不相邻时,uniq 命令是不起作用的。所以一般与sort连用。-c:去除重复行并记录出现次数(保留重复行)-u:仅显示出现一次的行列(不保留重复行)-d:只保留重复行wc:计数默认显示顺序为行数、字数(单词数)、字节数-w:字数-c:字节数-l:行数-n
2022-06-07 14:04:38
1070
原创 Python连接SQL与hive
--ZstarlingSQL连接hive连接补充写入方法write与writelines对比表格Dataframe形式的写入for、with 位置对比SQL连接import pymysqldef sql(path): conn = pymysql.Connect(host='36.104.34.123', user='用户名', passwd='密码', db='库名') # 获取游标 cursor = conn.cursor() # 1、从数据库中查询 sql
2022-05-06 23:04:39
1614
原创 SQL函数计算和union
截断平均值写法SELECT b.tag, b.difficulty, -- 去掉最大值与最小值取平均,保留一位小数 ROUND(( SUM( a.score )- MAX( a.score )- MIN( a.score ))/( COUNT( score )- 2 ), 1 ) FROM examination_info b LEFT JOIN exam_record a ON b.exam_id = a.exam_id WHERE b.tag = "SQL" AND b.di..
2022-03-11 16:50:10
319
2
原创 SQL-concat字符串连接
CONCAT和CONCAT_WS的区别:concat 是按左到右的次序依次连接字段值。CONCAT_WS是用第一个字段作为连接符来连接后续字段值。SELECT uid, CONCAT( DATE_FORMAT( start_time, '%Y-%m-%d' ), ':', tag ), CONCAT_WS( ':', DATE( start_time ), ei.tag ) FROM exam_record er JOIN examination_info ei ON er.ex.
2022-03-11 16:35:16
953
原创 SQL(count)
count判断条件计数方式,不能直接在count中用等号=,此时显示的是对是否等于1的结果的计数,并不是等于1时的计数。可以用sum-0-1的方式代替。SELECT uid, sum(IF( submit_time IS NULL, 1, 0 )) `0`, sum(IF( submit_time IS NULL, 0, 1 )) `1`, count( IF ( submit_time IS NULL, 0, 1 )= 1 ) `total` FROM exam_record GROUP
2022-03-11 15:57:50
1615
原创 SQL-索引index
索引创建、删除与使用:create方式创建索引:建表时创建索引CREATE TABLEIF NOT EXISTS user_info_vip ( id INT PRIMARY KEY AUTO_INCREMENT COMMENT '自增ID', uid INT UNIQUE NOT NULL COMMENT '用户ID', nick_name VARCHAR(64) COMMENT '昵称', achievement INT DEFAULT 0 COMMENT '成就值',
2022-02-25 15:51:54
1575
原创 SQL-插入insert四种方式
单条插入INSERT INTO `test`.`exam_record_before_2021`VALUES ( 6, 1001, 9002, '2020-01-02 09:01:01', '2020-01-02 09:21:01', 70 );多条插入INSERT INTO `test`.`exam_record_before_2021` ( `id`, `uid`, `exam_id`, `start_time`, `submit_time`, `score` )VALUES (.
2022-02-24 11:54:50
8209
原创 SQL经典1-45题(4个表)-zstarling
Table structure for courseDROP TABLE IF EXISTS `course`;CREATE TABLE `course` ( `Cid` int(11) NOT NULL, `Cname` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL, `Tid` int(11) NULL DEFAULT NULL) ENGINE = InnoDB ..
2021-06-05 18:51:46
169
2
原创 SQL经典1-45题-zstarling
1.查询" 01 “课程比” 02 "课程成绩高的学生的信息及课程分数SELECT * FROM ( SELECT * FROM score sc WHERE sc.Cid = 1 ) AS cid1, ( SELECT * FROM score sc WHERE sc.Cid = 2 ) AS cid2 WHERE cid1.score > cid2.score AND cid1.sid = cid2.sid;1.1查询同时存在" 01 “课程和” 02 "课程的情况.
2021-06-03 22:26:15
338
原创 python库简介-zstarling
matplotlib.cm是matplotlib库中内置的色彩映射函数。matplotlib.cm语法 matplotlib.cm.色彩即对[数据集]应用[色彩]示例:plt.cm.Set1(catagory)色彩集cmaps = [('Perceptually Uniform Sequential', [ 'viridis', 'plasma', 'inferno', 'magma', 'cividis']), ('Sequential', [.
2021-05-27 18:57:52
596
原创 Git基本操作代码-zstarling
切换分支git checkout maingit checkout basic删除文件git rm * `删除全部文件`git rm 文件名 删除文件夹rmdir 文件夹名新建文件夹touch 文件夹名新建文件mkdir 文件名删除文件或者新建文件直接提交就可以,不需要add查看日志Git log --oneline git log提交操作git commit -m "提交记录"git commit -a -m "提.
2021-05-27 14:40:18
118
原创 R-lasso 回归
数据读取data.fl <- read.csv(“D:\important APP\study\R\data1.csv”,header=T, encoding=“UTF-8”)names(data.fl)dim(data.fl)先做一个正常的回归看看效果fit.fl.lm <- lm(Prfmc~., data.fl)summary(fit.fl.lm)对X,Y赋值Y <- data.fl[,18]# extract YX.fl <- model.matrix(P
2021-03-22 23:46:17
1501
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人