o0xgw0o-优快云博客

原创算法模型保存之joblib、pickle和dill使用

使用joblib、pickle和dill进行数据挖掘算法模型的保存与加载

2022-11-08 17:13:42 2460

原创 matplotlib画图时只需保存图片，无需图片展示

matplotlib只保存图片而不显示图片

2022-10-19 14:04:46 2838

原创 Python动态获取token值并获取数据

可根据需求动态获取token值，跟依据token值获取数据

2022-08-18 10:55:51 2524

原创 Python环境下influxdb数据的导入与导出

csv文件和txt文件导入influxdb时序数据库中

2022-06-21 17:06:17 1938

1.更改国内源的方式1.1命令行修改conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/freeconda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/mainconda config --set show_channel_urls yes1.2修改配置文件执行conda con

2022-05-17 13:31:10 4266

原创回顾经典排序算法Python实现

常见的八大排序算法思想以及Python实现插入排序、希尔排序；冒泡排序、快速排序；直接选择排序，堆排序；归并排序；基数排序排序算法的性能比较各排序算法的思想与Python实现1.直接插入排序核心思想：将数组中的所有元素依次跟其序列前面已排好序的元素比较（从后往前遍历），若选择的元素比已排好序的元素小，则相互交换次序代码实现：def insert_sort(list): count = len(lis

2022-05-06 14:23:09 199

原创 docker报错

容器安装报错（1）从源安装docker-ce时，报错依赖包问题依赖包有问题，执行apt --fix-broken install，然后再安装apt-get install docker-ce（2）从源安装docekr-ce时，报错使用其他内核文件信息查看错误报告，需要使用到内核头文件，显示还是使用的之前的内核驱动文件，发现现在正在使用的内核驱动文件build没有软连接。将源码拷贝到116机器上，建立软连接ln -s /root/kata/linux-...

2022-04-29 17:02:21 2144

原创 docker基础知识

1.虚拟化与容器化随着互联网及移动互联网的快速发展，云计算技术也开始迅猛发展，云计算技术发展包括俩大方向：虚拟化与容器化。虚拟化技术是传统的云计算技术，容器化是新一代的云计算技术。一般来说，虚拟机通过模拟硬件环境，并启动完整的操作系统为应用运行提供独占环境，因此其中需要安装Guest OS。与此相反，容器是主机操作系统上的进程虚拟化，容器镜像中并不需要OS内核，因此不需要安装Guest OS，只需要应用运行相关的库和文件就可以了。2.Linux Container...

2022-04-29 16:55:29 760

原创 CRIU解析

CRIU1.CRIU定义CRIU，全称checkpoint/restore in userspace，是运行在Linux操作系统上的一个软件工具，在用户空间实现checkpoint/restore功能。使用CRIU可以冻结一个正在运行的程序，并且checkpoint到程序关联的一系列文件，然后用这些文件在任何主机上重新恢复这个程序被冻结时的那个点，换句话说，也就是对正在运行程序环境的一个备份与恢复。官方网址：https://criu.org/Docker源码地址：https://github.co

2022-04-29 16:19:45 5984

原创 jupyter使用中遇到的问题

jupyter的问题

2022-04-20 16:07:20 2413

原创数据挖掘竞赛预测模型——贝叶斯参数搜索

bayes_opt库实现贝叶斯自动调参本案例使用xgboost算法实现bayes_opt自动搜索调参import pandas as pdimport xgboost as xgbfrom sklearn.model_selection import cross_val_scorefrom bayes_opt import BayesianOptimizationtrain_d...

2019-08-23 16:31:12 1134

原创数据挖掘竞赛预测模型——GridSearch参数网格搜索

本案例使用lightGBM算法实现参数网格搜索import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.model_selection import GridSearchCVimport lightgbm as lgbtrain_data = pd.read_csv('.....

2019-08-23 11:01:23 2259 1

原创数据挖掘竞赛预测模型——五折交叉验证

使用catboost进行五折交叉验证import numpy as npimport pandas as pdimport catboost as cbtfrom sklearn.metric import f1_scorefrom sklearn.model_selection import train_test_splitfrom sklearn.model_selection...

2019-08-21 20:33:41 11519

原创数据挖掘竞赛预测模型二——SVM

分类预测SVCfrom sklearn.svm import SVCsvm = SVC(C=1, kernel='rbf', degree=3, gamma='auto', class_weigth=None)svm.fit(train_data,train_label)test_pred = svm.predict(test_data)参数：（1）C：惩罚参数（0.0001-...

2019-08-21 16:04:55 1103

原创数据挖掘竞赛预测模型一——逻辑回归

逻辑回归sklearn中主要有LogisticRegression和LogisticRegressionCV：LogisticRegressionCV使用交叉验证选择正则化参数C，而LogisticRegression需要每次手动指定一个正则化参数#LogisticRegressionfrom sklearn.linear_model import LogisticRegression...

2019-08-21 11:28:05 1777

原创 Python之多进程、多线程、协程和分布式进程

1.多进程（1）使用os模块中的fork方法，仅适用于Unix/Linux系统 Python的os模块自封装了常见的系统调用方法，其中就有fork方法。普通方法调用一次，返回一次；而fork方法调用一次，返回两次。原因在于系统调用时，系统会将当前进程（父进程）复制出一个几乎完全一样的进程（子进程），子进程永远返回0，父进程返回的是子进程的id。（2）使用mul...

2018-04-02 16:45:36 889

转载不平衡数据分类算法介绍与比较

介绍在数据挖掘中，经常会存在不平衡数据的分类问题，比如在异常监控预测中，由于异常就大多数情况下都不会出现，因此想要达到良好的识别效果普通的分类算法还远远不够，这里介绍几种处理不平衡数据的常用方法及对比。符号表示记多数类的样本集合为L，少数类的样本集合为S。用r=|S|/|L|表示少数类与多数类的比例基准我们先用一个逻辑斯谛回归作为该实验的基准：

2017-09-10 15:23:41 451

原创 Python查找一个文章里出现次数最多的10的单词

用字典格式实现：f = open('novel.txt')word_freq = {}for line in f: words = line.strip().split() for word in words: if word in word_freq: word_freq[word] += 1 else: word_freq[word] = 1freq_word

2017-08-13 21:37:08 6266 2

原创 Python二分查找

二分查找，返回查找的位置下标：def bi_search(list, data): low = 0 high = len(list) - 1 while low <= high: mid = (low + high) / 2 if list[mid] == data: return mid elif list[mid] > data： high = mi

2017-08-13 16:43:34 443

原创判断名字是否是回文

回文：即将字符串反向输出，与原来的顺序一样从txt文件中读取字符串，并判断字符串是否是回文，输出回文字符串（1）递归方法f = open('name.txt','r')def ispanlindrom(name): if len(name) <= 1: return True else: if nam

2017-08-13 13:39:38 473

原创数组逆时针旋转

将数组逆时针旋转90度，如matrix1: 1,2,3 逆时针旋转到matrix2: 3,6,9 4,5,6 2,5,8 7,8,9 1,4,7Python代码如下：def turn(self,matrix): length = len(matrix) width = len(mat

2017-08-07 21:34:19 808

原创特征共线性问题分析

1.概念：多重共线性是指自变量之间存在一定程度的线性相关，会给变量对模型的贡献性带来影响。即若有两个变量存在共线性，在相互作用计算后，其一的变量的影响会相对减弱，而另一个变量的作用却会相对增强。2.产生原因：（1）没有足够多的样本数据（2）选取的样本之间本身就客观存在共线性关系（3）其他因素导致：数据采集所采用的方法，模型的设定，一个过度决定的模型多数研究者认为特征共线性本

2017-07-31 13:51:36 10026

原创 Python读取大容量的csv文件

python按行遍历一个大文件：with open('filename') as file: for line in file: do_things(line)结合下文的block，读几行是没压力了，但存成csv的时候各种奇葩问题，什么str和byte的编码问题啦，什么csv一打开是各种奇葩的整数啦……如何用python处理非常大的csv和x

2017-07-26 16:41:07 11754

原创常用Scikit-learn特征选择方法

特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能：减少特征数量、降维，使模型泛化能力更强，减少过拟合增强对特征和特征值之间的理解拿到数据集，一个特征选择方法，往往很难同时完成这两个目的。通常情况下，我们经常不管三七二十一，选择一种自

2017-07-26 16:06:45 775

原创命令行更新scikit-learn

使用pip命令更新库pip install --upgrade 库名比如更新scikit-learn包pip install --upgrade scikit-learnpip更新Python -m pip install --upgrade pip

2017-07-26 12:27:41 22513 1

转载 pandas数据合并

pandas数据合并

2017-07-24 13:28:09 483

原创 Python数据预处理常用函数

1.append( )函数定义：用于向列表末尾添加新的对象,对象属性任意语法：list.append(object)实例：alist=['ab','cd','ef']alist.append(2017)print "Updated list :",alist结果显示：Updated list :['ab','cd','ef',2017]2.extend()函数定义：用于

2017-07-21 15:12:32 676