- 博客(35)
- 资源 (4)
- 收藏
- 关注
原创 conda更改国内源地址
1.更改国内源的方式1.1命令行修改conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/freeconda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/mainconda config --set show_channel_urls yes1.2修改配置文件执行conda con
2022-05-17 13:31:10
4266
原创 回顾经典排序算法Python实现
常见的八大排序算法思想以及Python实现插入排序、希尔排序;冒泡排序、快速排序;直接选择排序,堆排序;归并排序;基数排序排序算法的性能比较各排序算法的思想与Python实现1.直接插入排序核心思想:将数组中的所有元素依次跟其序列前面已排好序的元素比较(从后往前遍历),若选择的元素比已排好序的元素小,则相互交换次序代码实现:def insert_sort(list): count = len(lis
2022-05-06 14:23:09
199
原创 docker报错
容器安装报错(1)从源安装docker-ce时,报错依赖包问题依赖包有问题,执行apt --fix-broken install,然后再安装apt-get install docker-ce(2)从源安装docekr-ce时,报错使用其他内核文件信息查看错误报告,需要使用到内核头文件,显示还是使用的之前的内核驱动文件,发现现在正在使用的内核驱动文件build没有软连接。将源码拷贝到116机器上,建立软连接ln -s /root/kata/linux-...
2022-04-29 17:02:21
2144
原创 docker基础知识
1.虚拟化与容器化随着互联网及移动互联网的快速发展,云计算技术也开始迅猛发展,云计算技术发展包括俩大方向:虚拟化与容器化。虚拟化技术是传统的云计算技术,容器化是新一代的云计算技术。一般来说,虚拟机通过模拟硬件环境,并启动完整的操作系统为应用运行提供独占环境,因此其中需要安装Guest OS。与此相反,容器是主机操作系统上的进程虚拟化,容器镜像中并不需要OS内核,因此不需要安装Guest OS,只需要应用运行相关的库和文件就可以了。2.Linux Container...
2022-04-29 16:55:29
760
原创 CRIU解析
CRIU1.CRIU定义CRIU,全称checkpoint/restore in userspace,是运行在Linux操作系统上的一个软件工具,在用户空间实现checkpoint/restore功能。使用CRIU可以冻结一个正在运行的程序,并且checkpoint到程序关联的一系列文件,然后用这些文件在任何主机上重新恢复这个程序被冻结时的那个点,换句话说,也就是对正在运行程序环境的一个备份与恢复。官方网址:https://criu.org/Docker源码地址:https://github.co
2022-04-29 16:19:45
5984
原创 数据挖掘竞赛预测模型——贝叶斯参数搜索
bayes_opt库实现贝叶斯自动调参本案例使用xgboost算法实现bayes_opt自动搜索调参import pandas as pdimport xgboost as xgbfrom sklearn.model_selection import cross_val_scorefrom bayes_opt import BayesianOptimizationtrain_d...
2019-08-23 16:31:12
1134
原创 数据挖掘竞赛预测模型——GridSearch参数网格搜索
本案例使用lightGBM算法实现参数网格搜索import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.model_selection import GridSearchCVimport lightgbm as lgbtrain_data = pd.read_csv('.....
2019-08-23 11:01:23
2259
1
原创 数据挖掘竞赛预测模型——五折交叉验证
使用catboost进行五折交叉验证import numpy as npimport pandas as pdimport catboost as cbtfrom sklearn.metric import f1_scorefrom sklearn.model_selection import train_test_splitfrom sklearn.model_selection...
2019-08-21 20:33:41
11519
原创 数据挖掘竞赛预测模型二——SVM
分类预测SVCfrom sklearn.svm import SVCsvm = SVC(C=1, kernel='rbf', degree=3, gamma='auto', class_weigth=None)svm.fit(train_data,train_label)test_pred = svm.predict(test_data)参数:(1)C:惩罚参数(0.0001-...
2019-08-21 16:04:55
1103
原创 数据挖掘竞赛预测模型一——逻辑回归
逻辑回归sklearn中主要有LogisticRegression和LogisticRegressionCV:LogisticRegressionCV使用交叉验证选择正则化参数C,而LogisticRegression需要每次手动指定一个正则化参数#LogisticRegressionfrom sklearn.linear_model import LogisticRegression...
2019-08-21 11:28:05
1777
原创 Python之多进程、多线程、协程和分布式进程
1.多进程 (1)使用os模块中的fork方法,仅适用于Unix/Linux系统 Python的os模块自封装了常见的系统调用方法,其中就有fork方法。普通方法调用一次,返回一次;而fork方法调用一次,返回两次。原因在于系统调用时,系统会将当前进程(父进程)复制出一个几乎完全一样的进程(子进程),子进程永远返回0,父进程返回的是子进程的id。 (2)使用mul...
2018-04-02 16:45:36
889
转载 不平衡数据分类算法介绍与比较
介绍在数据挖掘中,经常会存在不平衡数据的分类问题,比如在异常监控预测中,由于异常就大多数情况下都不会出现,因此想要达到良好的识别效果普通的分类算法还远远不够,这里介绍几种处理不平衡数据的常用方法及对比。符号表示记多数类的样本集合为L,少数类的样本集合为S。用r=|S|/|L|表示少数类与多数类的比例基准我们先用一个逻辑斯谛回归作为该实验的基准:
2017-09-10 15:23:41
451
原创 Python查找一个文章里出现次数最多的10的单词
用字典格式实现:f = open('novel.txt')word_freq = {}for line in f: words = line.strip().split() for word in words: if word in word_freq: word_freq[word] += 1 else: word_freq[word] = 1freq_word
2017-08-13 21:37:08
6266
2
原创 Python二分查找
二分查找,返回查找的位置下标:def bi_search(list, data): low = 0 high = len(list) - 1 while low <= high: mid = (low + high) / 2 if list[mid] == data: return mid elif list[mid] > data: high = mi
2017-08-13 16:43:34
443
原创 判断名字是否是回文
回文:即将字符串反向输出,与原来的顺序一样从txt文件中读取字符串,并判断字符串是否是回文,输出回文字符串(1)递归方法f = open('name.txt','r')def ispanlindrom(name): if len(name) <= 1: return True else: if nam
2017-08-13 13:39:38
473
原创 数组逆时针旋转
将数组逆时针旋转90度,如matrix1: 1,2,3 逆时针旋转到matrix2: 3,6,9 4,5,6 2,5,8 7,8,9 1,4,7Python代码如下:def turn(self,matrix): length = len(matrix) width = len(mat
2017-08-07 21:34:19
808
原创 特征共线性问题分析
1.概念:多重共线性是指自变量之间存在一定程度的线性相关,会给变量对模型的贡献性带来影响。即若有两个变量存在共线性,在相互作用计算后,其一的变量的影响会相对减弱,而另一个变量的作用却会相对增强。2.产生原因:(1)没有足够多的样本数据(2)选取的样本之间本身就客观存在共线性关系(3)其他因素导致:数据采集所采用的方法,模型的设定,一个过度决定的模型多数研究者认为特征共线性本
2017-07-31 13:51:36
10026
原创 Python读取大容量的csv文件
python按行遍历一个大文件:with open('filename') as file: for line in file: do_things(line)结合下文的block,读几行是没压力了,但存成csv的时候各种奇葩问题,什么str和byte的编码问题啦,什么csv一打开是各种奇葩的整数啦……如何用python处理非常大的csv和x
2017-07-26 16:41:07
11754
原创 常用Scikit-learn特征选择方法
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自
2017-07-26 16:06:45
775
原创 命令行更新scikit-learn
使用pip命令更新库pip install --upgrade 库名 比如更新scikit-learn包pip install --upgrade scikit-learnpip更新Python -m pip install --upgrade pip
2017-07-26 12:27:41
22513
1
原创 Python数据预处理常用函数
1.append( )函数 定义:用于向列表末尾添加新的对象,对象属性任意语法:list.append(object)实例:alist=['ab','cd','ef']alist.append(2017)print "Updated list :",alist结果显示:Updated list :['ab','cd','ef',2017]2.extend()函数定义:用于
2017-07-21 15:12:32
676
转载 京东JData算法大赛——高潜用户购买意向预测
本次大赛以京东商城真实的用户、商品和行为数据(脱敏后)为基础,需要通过数据挖掘的技术和机器学习的算法,构建用户购买商品的预测模型,输出高潜用户和目标商品的匹配结果,为精准营销提供高质量的目标群体。
2017-06-22 20:03:06
7035
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅