python
文章平均质量分 71
python使用、分析和建模
Just Jump
勿忘来时路上的脚印。站在巨人的肩膀上。
你没有比别人更努力,更不会比别人更不努力。你只是按照你能做到的、最适合你自己的办法去实现自己的目标,去成长为你眼中优秀的人们中的一员。
你自己、优秀的人群;决心、视野;自律、标准。
业精于勤,行成于思。
古之成大事者,不惟有超世之才,亦必有坚韧不拔之志。
苟有恒,何必三更起五更眠;最无益,只怕一日曝十日寒。 十五年只做一个行当。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
PyOD库-异常检测
PyOD(Python Outlier Detection)是一个用于检测多维数据中异常点的开源库。它支持超过20种主流的异常检测算法,包括经典的统计方法、机器学习模型和集成方法。PyOD的设计考虑了易用性和扩展性,能够轻松集成到各种机器学习工作流中。PyOD库是一个功能强大且全面的异常检测工具包,提供了多种算法和工具,适用于各种异常检测任务。通过PyOD,用户可以轻松实现复杂的异常检测任务,并将其集成到现有的机器学习工作流中。转载 2024-10-22 13:41:14 · 321 阅读 · 0 评论 -
DTW算法实现股票高相似查找代码实现
前文中股票高相关k线筛选问题的延伸。基于迁移应用到股票高相关预测上。这里给出一个相关完整的代码实现案例。原创 2024-07-30 20:59:30 · 1813 阅读 · 0 评论 -
使用DTW算法简单实现曲线的相似度计算
如果度量算法符合我们的先验经验,比如我们人工标示最相似的两条曲线,算法给出的距离度量也是最小的,我们判断最不相似的,算法给出的距离度量也是最大的。有了判断两条曲线距离度量的算法,且算法结果具有一定的排序性,那么就可以计算出任两条曲线的距离度量值,根据此值就可以给出与指定股票曲线最相似的TopN股票曲线。dtw算法dtw(x,y)=2 < dtw(x,z)=18 判断曲线y与曲线x的距离小于曲线z与x的距离,即相关性更高,符合期望,所以可以作为股票相关性算法使用。特点:忽略了曲线的振幅,只关注其方向。原创 2024-07-30 14:22:19 · 2773 阅读 · 0 评论 -
sklearn.preprocess.LabelEncoder出现从未见过值的处理方法
如果将LabelEncoder.transform将训练集转换为编码序列,则在测试集上使用时如果遇到新的值,则可能会报错。'<Unknown>'版权声明:本文为优快云博主「Rnan-prince」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.youkuaiyun.com/qq_19446965/article/details/120110169。如果您有一个新标签,它将被分配为未知类。结果编码为8、9、10。结果编码为8、8、8。转载 2024-05-24 18:32:26 · 350 阅读 · 0 评论 -
使用Spark ALS模型 + Faiss向量检索实现用户扩量实例
使用Spark ALS模型 + Faiss向量检索实现用户扩量实例原创 2023-08-10 16:39:22 · 1624 阅读 · 0 评论 -
spark读取本地文件
spark读取本地文件-EXCEL、CSV、TXT原创 2023-03-01 00:18:52 · 1205 阅读 · 0 评论 -
python中的类class: 继承、覆盖、重写、重载、扩展、多态、封装
python中的类class: 继承、覆盖、重写、重载、扩展、多态、封装原创 2023-02-09 23:49:45 · 35368 阅读 · 1 评论 -
pyspark数据倾斜问题解决-repartition & mapPartitions
pyspark mapPartitions, repartition原创 2023-01-08 13:34:41 · 2160 阅读 · 1 评论 -
tensorflow深度学习模型读取parquet数据进行训练实现
tensorflow深度学习模型读取parquet数据进行训练实现原创 2022-09-06 19:27:52 · 1540 阅读 · 0 评论 -
【转】决策树代码练习
转自:【机器学习】决策树代码练习本课程是中国大学慕课《机器学习》的“决策树”章节的课后代码。课程地址:https://www.icourse163.org/course/WZU-1464096179课程完整代码:https://github.com/fengdu78/WZU-machine-learning-course代码修改并注释:黄海广,haiguang2000@wzu.edu.cn机器学习练习7 决策树代码修改并注释:黄海广,haiguang2000@wzu.e.转载 2021-12-05 22:15:33 · 841 阅读 · 1 评论 -
【转】可视化理解决策树
目前无论是机器学习竞赛还是工业界,最流行、应用最广泛的xgboost其实是优化后的GBDT(LightGBM里面的boosting比较经典稳定的也是GBDT哦!),而GBDT的基分类器最常用的就是CART决策树!掌握决策树,对理解之后的GBDT、LightGBM都有大有裨益。可视化的方式理解决策树,对深刻理解这个模型很有帮助。大家最熟知的决策树可视化实现方式是下面这种:dot_data=export_graphviz(clf,out_file=None,featu...转载 2021-12-05 22:13:04 · 1502 阅读 · 2 评论 -
python使用yield写transform构造一个迭代器
工作中我们常常会遇到写循环来处理任务的时候,比如你需要按天循环读取一段时间的数据做一些处理,等等通常我们可以写一个循环函数,或者写一迭代器来生成需要获取的数据集。下面展示这两种方法的代码实现:1、写一个循环函数import datetimefrom datetime import datestart_date = '2020-04-01'end_date = '2020-04-05'tmp_date = start_datewhile tmp_date <= end_d原创 2021-04-22 19:22:17 · 244 阅读 · 1 评论 -
【转】Spark与Pandas中DataFrame对比
转自博文:Spark与Pandas中DataFrame对比我觉得是比较详细的对比了Pandas和Spark的DataFrame的工作原理和使用方法的表格了 Pandas Spark 工作方式 单机single machine tool,没有并行机制parallelism 不支持Hadoop,处理大量数据有瓶颈 分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结点上。 以处理in-memory数据的方式处理dis..转载 2021-04-14 11:55:04 · 715 阅读 · 0 评论 -
python 处理日期类型常用方法
python处理日期类型常用方法汇总import os, sys, datetime, time#0、初始化一个string类型的日期a_string_date = '2021-03-29'#1、string类型日期转 date类型a_date = datetime.datetime(year = int(a_string_date[:4]), month = int(a_string_date[5:7]), day原创 2021-03-29 20:28:59 · 1140 阅读 · 0 评论 -
【转】25 个常用 Matplotlib 图的 Python 代码
作者 |zsx_yiyiyi转自 | 深度学习这件小事大家好,今天要分享给大家25个Matplotlib图的汇总,在数据分析和可视化中非常有用,文章较长,可以码起来慢慢练手。#!pipinstallbrewer2mplimportnumpyasnpimportpandasaspdimportmatplotlibasmplimportmatplotlib.pyplotaspltimportseabornassnsimportwarni...转载 2021-02-23 17:53:17 · 169 阅读 · 1 评论 -
Pandas DataFrame常用方法
1、获取列名1.1.链表推导式语法:[col for col in df]返回结果: [‘cvr1’, ‘cvr2’, ‘cvr3’, ‘cvr4’]结果类型:list1.2.通过columns属性columns属性返回Index,columns.values属性返回 numpy.ndarray,可通过 tolist(), 或者 list(ndarray) 转换为listprint(type(df.columns))print(type(df.columns.values))prin原创 2020-12-20 02:46:35 · 1096 阅读 · 1 评论 -
农历和阳历日期互转,Python实现
近期工作中遇到了节假日场景,而七夕节、中秋节、重阳节、端午节、清明节、春节这些都是农历的节日,对应到阳历日期并不是固定的。所以就很有必要有一个转换方法,实现农历日期到阳历日期的转换。已经有很多大牛对此做了实现,这里记录下亲测好用的方法。1、首推:简书上 “Python 农历公历相互转换”https://www.jianshu.com/p/272c5dfa3eef他在github上有发布模块,可以直接pip安装使用。并且在介绍页有使用方法示例,对于想快速使用、不关心实现细节的用户非常友好了..转载 2020-12-13 21:34:08 · 7686 阅读 · 2 评论 -
正态分布的使用场景之筛选极端值
使用正态分布确定极端GMV值所对应的日期1、查看GMV分布直方图import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.preprocessing import StandardScalerpwd_path = "/Users/gao/Desktop/Code/"gmv_excp_4day = os.path.join(pwd_path,"原创 2020-11-27 17:33:24 · 1830 阅读 · 1 评论 -
推理统计Inferential Statistics
作为一个数学系的,我可以愉快的玩代数、分析和几何,但概率和统计真的是我的弱项啊,真是要了老命了~~我觉得统计make sense ,但一点都不sexy,逻辑也不优雅,太难想象了,不开心,不开心。。。...原创 2020-07-26 17:50:49 · 961 阅读 · 0 评论 -
【转】做ML项目,自查清单帮你理清思路
原文链接:https://towardsdatascience.com/task-cheatsheet-for-almost-every-machine-learning-project-d0946861c6d0【注:与我之前整理的sklearn 快速建模check list 异曲同工】任何科研项目都是系统性的,机器学习项目也不例外,它包含一系列大大小小、或繁或简的要素和组件,如讨论、准备工作、提出问题、模型构建和优化调整等。在这种情况下,开发者很容易漏掉一些重要的东西。八步完成 ML ..转载 2020-07-14 05:36:31 · 366 阅读 · 0 评论 -
《Sklearn机器学习实用指南》笔记
Sklearn机器学习实用指南原创 2020-07-07 06:08:43 · 251 阅读 · 0 评论 -
混淆矩阵与P-R曲线、ROC曲线
1、混淆矩阵 Predicted Positive Negative Actual Positive TP 真正 (True Positive) FN 假负 (False Negative) Negative FP 假正 (False Positive) TN 正负 (True Negative) 2、评价指标计算公式准...原创 2020-07-06 20:23:30 · 1345 阅读 · 0 评论 -
Sklearn快速建模cheat sheet
机器学习项目中,快速使用Sklearn于建模实践的cheat sheet原创 2020-07-06 05:42:52 · 352 阅读 · 0 评论 -
《Python基础知识框架》笔记
Python基础知识框架梳理原创 2020-06-11 01:12:32 · 546 阅读 · 0 评论 -
A guide for data scientists-ML
sklearn中常用的算法模型 算法名称 算法特点或描述 sklearn算法实现 重要调节参数及影响 过拟合、欠拟合怎么判断和调参数? 特征的重要性 训练、预测和评价 适用场景 和其他算法之间的优缺点比较 备注 梯度提升回归树(既可以用作回归,也可以用作分类) Gradient boosted regression trees ...原创 2020-03-10 23:22:55 · 229 阅读 · 0 评论 -
Feature Engineering
《Feature Engineering Made Easy》-读书笔记1、第二章,特征理解,数据库中有什么?(1)结构化/非结构化数据结构化数据:数据可以分解为观察数据和特征,常用数据表的形式展示,行为观察数据,列为特征。非结构化数据:数据不遵循标准组织层次结构,如表格,通常是一个数据块,或者是一个单独的特征(列)。区分的方法:以原始文本形式存在的数据(包括服务器日志和推...原创 2020-02-09 16:28:19 · 460 阅读 · 0 评论 -
《决战大数据》读书笔记
这段时间在梳理这几年工作有什么沉淀下来和所得时,发现自己总是容易陷入细节,不能很好地拎出一条主线来,也不知怎么拔高一个层次或角度来梳理这几年的数据分析工作。幸好的是当你心中有所困惑的时候,总是有优秀的前行者留下了他们的足迹和经验,可以供你借鉴和参考。《决战大数据》这本书在某种程度上就帮我规范了一个思路和框架。有很多概念帮我提升了认知角度。【读书笔记是在Word文档中整理的,贴到博客后发现缩...原创 2020-01-08 22:30:01 · 1336 阅读 · 0 评论 -
KNN模型、KNN算法2-协同过滤推荐
K近邻模型、KNN算法1案例假设有用户对曾经购买过的商品的评分数据,如何利用这份数据给用户做商品推荐?或者对一个用户,应该给他推荐哪些商品?思路逻辑图Python代码#!/usr/bin/env python# -*- coding: utf-8 -*-#@Time: 2019-11-18 22:36#@Author: gaollimport timeimpo...原创 2019-11-17 08:06:29 · 3337 阅读 · 0 评论 -
K近邻模型、KNN算法1-构建预测模型
K近邻模型、KNN算法1-构建预测模型案例假设你已经清洗好了一份同类型的商品信息和价格数据,如果给一个同品类全新的商品,你如何给它定价或预测它的价格?比如,这个商品是红酒。你已经获取到了一批红酒的评级、生产年份、瓶装大小等红酒属性数据,以及对应的红酒价格。现在请根据这个样本数据对一瓶红酒进行价格预测、价格区间概率预测。思路逻辑图Python代码#!/usr/bin/e...原创 2019-11-17 07:55:50 · 2462 阅读 · 6 评论 -
分级聚类、K均值聚类
分级聚类、K均值聚类案例假设有你一批博客数据,请根据博客内容进行聚类,分别用分级聚类和K-均值聚类查看博客的分组情况。假设你使用API已经爬取了相关数据,并且已经整好数据格式如下:blogname,china,kids,music,yahoo,search,engine,google,operating,system,pythonRead/WriteWeb,5,20,15,0,8...原创 2019-11-17 07:48:31 · 1070 阅读 · 0 评论 -
决策树建模实践-构建树、显示、剪枝、处理缺失值和预测
决策树建模构建决策树、显示决策树、决策树剪枝、处理缺失值(训练数据和预测数据中的)、决策树预测案例:利用决策树进行分类问题(采用CART决策树)假设已经有一份清洗好的数据,前四列表示属性及其值,最后一列为分类。数据示例:slashdot,USA,yes,18,Nonegoogle,France,yes,23,Premdigg,USA,yes,24,Basicbaidu,...原创 2019-11-14 19:01:11 · 1036 阅读 · 1 评论 -
优化算法-随机搜索、爬山法、模拟退火法、遗传算法2
案例2: 涉及偏好的优化这里考虑另一种使用优化算法来解决的不同问题。一般表述为:如何将有限的资源分配给多个表达了偏好的人,并根据他们的意愿,尽可能地满足需求。假设你在东京的酒店定了5间房(A,B,C,D,E),5间房各有其风格特点,朋友们根据自己的喜好,给你发了想入住的房间首选、备选。5间房,10个人,每2人一间,每个人都有自己的首选房间和备选房间。你发现他们中有>2个人都对同一...原创 2019-11-13 23:47:17 · 765 阅读 · 0 评论 -
优化算法-随机搜索、爬山法、模拟退火法、遗传算法1
随机搜索、爬山法、模拟退火法、遗传算法1案例1:行程优化问题毕业多年,曾经上学时的好友们都已分散到不同城市工作生活。近日你联系组织了这群生活在不同城市的好友们,组团去日本旅行。约定到达东京羽田国际机场(Tokyo)后,在机场租车,一起出发去酒店。旅行结束后,一起成乘车去机场,还车,然后各自坐飞机离开日本返程。你该如何协调大家乘坐的去程、返程飞机时间,使得大家在机场等待的时间最短?假...原创 2019-11-11 21:14:31 · 1509 阅读 · 0 评论 -
朴素贝叶斯、费舍尔分类方法
朴素贝叶斯、费舍尔分类法案例:有一批图书分类样本数据,用朴素贝叶斯、费舍尔分类法对样本数据学习进行分类。数据清洗这里我们不讨论数据的获取和清洗,而是聚焦在使用朴素贝叶斯、费舍尔分类法上。假设我们已经从数据中确定了几列有价值的数据,并做好了数据清洗。清洗后生成样本数据如下:#第一列Title|第二列Publisher|第三列Summary|第四列图书分类Handsbook for ...原创 2019-11-10 22:04:01 · 1485 阅读 · 0 评论 -
常用模型、分析方法及其检验标准累积汇总
万物皆数学。近期计划汇总整理些实际工作中会用到分析方法、模型和算法,计划从方法/模型/算法适用的情况、实现原理、结果及其检验标准、Python调用方法、以及可视化呈现这几个方面入手来整理。希望能对数据科学分析和挖掘有个系统全面的方法论认识。也起到一个方法参考手册的作用。方法/模型名称 什么情况下适用 实现方法/模型 得到什么系数或结果 如何检验方法或模型是好的,...原创 2019-08-07 15:48:42 · 5157 阅读 · 0 评论 -
最大期望算法EM说明示例
1、硬币问题现在我们有两枚硬币 A 和 B,这两枚硬币和普通的硬币不一样,他们投掷出正面的概率和投掷出反面的概率不一定相同。独立地做 5 次试验。随机的从这两枚硬币中抽取 1 枚,投掷 10 次,得出实验数据。1表示掷出正面,0表示掷出反面。[1,0,0,0,1,1,0,1,0,1],[1,1,1,1,0,1,1,1,1,1],[1,0,1,1,1,1,1,0,1,1],[1,0...原创 2019-11-06 17:30:26 · 424 阅读 · 0 评论 -
机器学习基础知识须知
机器学习中常会用到一些基础的分析方法和基本概念,整理知识框架如下。也可以在之前的博客《常用术语概念汇总》、《常用模型、分析方法及其检验标准》中找到机器学习相关的术语概念和模型。刚入门的同学最好找一本教材系统学习下,重点体会完整的分析过程、建模和检验的过程,以及背后原理的逻辑和思想。入门建议选择理性和实践并重的教材,比如《Python机器学习实践》、《集体智慧编程》。边学习边实践,很容易...原创 2019-10-23 04:40:55 · 388 阅读 · 0 评论 -
Python机器学习实践
前面几篇博文已经整理了Python做数据分析和建模以及机器学习基础知识。这篇博文主要分享Python做数据分析和建模的实践案例应用。分为两部分:1、Python机器学习实践案例的算法总结。 见博文下方的算法总结表格。2、案例和代码实现。 每个案例单独用一篇博文来讲解逻辑和Python代码实现。点击对应的链接到相应的博文中去阅读。 (1)朴素贝叶斯、...原创 2019-11-07 22:06:16 · 4183 阅读 · 0 评论 -
推荐一个很棒的机器学习笔记
1、推荐一个很棒的机器学习笔记,它不仅完整的实现了一个机器学习分析的过程,而且介绍了很好的习惯和流程规范,非常值得学习:An example machine learning notebook : https://nbviewer.jupyter.org/github/rhiever/Data-Analysis-and-Machine-Learning-Projects/blob/master...转载 2019-08-20 16:31:13 · 206 阅读 · 0 评论 -
几种常用的特征选择方法
几种常用的特征选择方法文章推荐阅读推荐读这篇,对比的方法更多一些,最后还有对比汇总示例:https://blog.youkuaiyun.com/SecondLieutenant/article/details/80693765这篇的最后有一点补充作用,https://b...转载 2019-08-19 17:19:47 · 1013 阅读 · 0 评论
分享