gua_niu123-优快云博客

转载 linux 进程管理

导读执行中的程序称作进程。当程序可以执行文件存放在存储中，并且运行的时候，每个进程会被动态得分配系统资源、内存、安全属性和与之相关的状态。可以有多个进程关联到同一个程序，并同时执行不会互相干扰。操作系统会有效地管理和追踪所有运行着的进程。为了管理这些进程，用户应该能够：●查看所有运行中的进程●查看进程消耗资源●定位个别进程并且对其执行指定操作●改变进程的优先级●杀死指定进程●限制进程可用的系统资源等Linux提供了许多命令来让用户来高效掌控上述的操作。接下来，一个一个的来讲解下...

2021-04-07 15:49:59 611

原创二维数组查找元素

题目：在一个二维数组中（每个一维数组的长度相同），每一行都按照从左到右递增的顺序排序，每一列都按照从上到下递增的顺序排序。请完成一个函数，输入这样的一个二维数组和一个整数，判断数组中是否含有该整数。思路一：遍历思路二：已知是有序，需求是查找是否存在---->类似二分查找。根据题目，如果拿数组中任意一个元素与目标数值进行比较，如果该元素小于目标数值，那么目标数值一定是在该元素的下方或右方，如果大于目标数值，那么目标数值一定在该元素的上方或者左方。对于二分查找来说，每次比较只能移动一个指针，在二维

2021-04-02 09:40:58 677 2

原创从n个数中找出3个最大的数

很多朋友面试遇到了这个问题，要最优算法，也就是说时间复杂度最低，循环和max（）是行不通的：个人解如下：lst = []for i in num_list(): if len(lst) < 3: lst.append(i) else: if i > min(lst): lst.remove(min(lst)) lst.append(i)代码中用到了min（），但是lst中始终只有3个数，遍历一次的时间复杂度是3，所以算法的时间复杂度为3n，比n**3 快很多

2021-03-30 21:09:18 770

原创 linux 运行python文件并且打印日志

场景：Python程序执行需要很长的时间或者需要一直在跑，或者需要打印并记录很多信息策略：后台运行程序，然后把打印信息保存在指定的文件中，等程序运行结束后，再检查输出日志或者实时观察日志。 1、启动命令： 1、一般使用 nohup python -u Job.py > log.log 2>&1 & 2、只记录异常日志（推荐） # nohup python -u Job.py >/dev/null 2&g...

2021-03-25 16:50:29 2533

原创 requirements文件自动导入固定版本的包

pycharm中的提示信息如下所示：想要得到这样的提示信息需要做以下几步？file>settings>inspections>Package requirement勾选上requirements.txt文件中需要写好对应的包名和版本号，比如selenium==3.4.1当项目中的requirements.txt文件中更新了版本，那么就会出现对应版本安装的提示信息怎么一次性安装包？把requirements.txt文件中的所有包的版本信息都存在...

2021-03-23 11:07:41 597

转载 sql常用函数

转载自：https://blog.youkuaiyun.com/mrtwofly/article/details/53939400一、数学函数ABS(x) 返回x的绝对值 BIN(x) 返回x的二进制（OCT返回八进制，HEX返回十六进制） CEILING(x) 返回大于x的最小整数值 EXP(x) 返回值e（自然对数的底）的x次方 FLOOR(x) &nb...

2021-03-13 09:19:07 211

转载 SVM算法详解

SVM 是一个非常优雅的算法，具有完善的数学理论，虽然如今工业界用到的不多，但还是决定花点时间去写篇文章整理一下。1. 支持向量1.1 线性可分首先我们先来了解下什么是线性可分。在二维空间上，两类点被一条直线完全分开叫做线性可分。严格的数学定义是：和是 n 维欧氏空间中的两个点集。如果存在 n 维向量 w 和实数 b，使得所有属于的点都有，而对于所有属于的点则有，则我们称和线性可分。 1.2 最大间隔超平面从二维扩展到多维空间中时，将和完全正确地划分开的 .

2021-03-12 23:34:44 11422

转载 Seaborn常见绘图

以前粗略的学习过Matplotlib绘图、Pandas绘图（这里是pandas的常见绘图总结），但是都未深入的去学习过，一遇到问题就翻文档，效率低下。听“他们”说matplotlib中的seaborn绘图很好看而且实用，所以，这里系统的总结一下seaborn常见的图形绘制。其目的也是很简单，方便自己和给大家提供一些帮助（由于英文很菜，...

2021-03-11 23:16:45 1910

转载 SQL数据库查询练习题

一、设有一数据库，包括四个表：学生表（Student）、课程表（Course）、成绩表（Score）以及教师信息表（Teacher）。四个表的结构分别如表1-1的表（一）~表（四）所示，数据如表1-2的表（一）~表（四）所示。用SQL语句创建四个表并完成相关题目。 &nb...

2021-03-10 22:13:51 1581

转载朴素贝叶斯分类器详细解析

1 贝叶斯决策论贝叶斯决策论（Bayesian decision theory）是概率框架下实施决策的基本方法。对分类任务来说，在所有相关概率都已知的理想情况下，贝叶斯决策轮考虑如何基于这些概率和误判损失来选择最优的类别标记。1.1 后验概率P{H0|x}是给定观测值x条件下H0出现的概率,统称为后验概率For example:假设一个学校里有60%男生和40%女生。女生穿裤子的人数和穿裙子的人数相等，所有男生穿裤子。一个人在远处随机看到了一个穿裤子的学生。那么这个学生是女生的概率是多少？使用

2021-03-05 23:42:33 1840

转载 python sklearn库(4)

数据集拆分在得到训练数据集时，通常我们经常会把训练数据进一步拆分成训练集和验证集，这样有助于我们模型参数的选取。train_test_split是交叉验证中常用的函数，功能是从样本中随机的按比例选取train data和testdata，形式为：X_train,X_test, y_train, y_test = cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)注意：tr

2021-03-04 22:57:56 395 1

转载 python sklearn库(3)

数据预处理数据预处理阶段是机器学习中不可缺少的一环，它会使得数据更加有效的被模型或者评估器识别。下面我们来看一下sklearn中有哪些平时我们常用的函数：StandardScalerMaxAbsScalerMinMaxScalerRobustScalerNormalizer等其他预处理操作对应的有直接的函数使用：scale()，maxabs_scale()，minmax_scale()，robust_scale()，normaizer（）sklearn.preprocessing.scale

2021-03-03 20:38:16 337 1

转载 python sklearn库(2)

创建数据集我们除了可以使用sklearn自带的数据集，还可以自己去创建训练样本，具体用法可以参考：　https://scikit-learn.org/stable/datasets/　　下面我们拿分类问题的样本生成器举例子：from sklearn.datasets.samples_generator import make_classification X, y = make_classification(n_samples=6, n_features=5, n_informative=2,

2021-03-02 22:57:35 327

转载 python sklearn库（1）

sklearn官方文档的内容和结构sklearn官方文档的内容定义：针对经验E和一系列的任务T和一定表现的衡量P，如果随着经验E的积累，针对定义好的任务T可以提高表现P，就说明机器具有学习能力。sklearn官方文档结构由图中，可以看到库的算法主要有四类：分类，回归，聚类，降维。其中：常用的回归：线性、决策树、SVM、KNN ；集成回归：随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees常用的分类：线性、决策树、SVM、KNN，朴素贝叶斯；集

2021-02-01 22:45:19 547 1

转载监督学习---线性回归

1.监督学习(supervised learning)：在有标记样本上建立机器学习模型数据有标签、一般为回归或分类等任务监督学习三要素：标注数据 => 学习模型 => 损失函数即：标识类别信息的数据=> 如何学习得到映射模型 => 如何对学习结果进行度量（预测值与真实值的差值）分类和回归的区别：分类：要预测的目标函数是离散的；回归：要预测的目标函数是连续的回归：5. 线性回归：y=wx+b（1）何为线性回归：=>m个属性样本=>试图从样本中获得预

2021-01-29 22:04:05 481

原创决策树处理缺失值和连续值

1.连续值的处理方法对于连续属性，不能直接根据连续属性的可取值对节点进行划分，可以使用二分法对连续属性进行划分。对于连续属性a，我们可考察包括 n-1 个元素的候选划分集合（n 个属性值可形成 n-1 个候选点）：　　利用每个候选点对数据进行划分，得到两个子集，计算信息增益，取最大的信息增益对应作为该属性的信息增益。举例：对于数据集中的属性“密度”，在决策树开始学习时，根节点包含的17个训练样本在该属性上取值均不同。该属性的候选划分点集合包括16个候选值：T密度 = {0.244，0.2

2021-01-27 22:21:50 1631

转载 C4.5和CART决策树对比

前面详细讲解了ID3决策树。现在来聊一聊CART、C4.5决策树：CART与ID3和C4.5相同都由特征选择，树的生成，剪枝组成。但ID3和C4.5用于分类，CART可用于分类与回归。CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布，与ID3和C4.5的决策树所不同的是，ID3和C4.5生成的决策树可以是多叉的，每个节点下的叉树由该节点特征的取值种类而定，比如特征年龄分为（青年，中年，老年），那么改节点下可分为3叉。而CART为假设决策树为二叉树，内部结点特征取值为”是”和”否”。左分

2021-01-26 22:38:05 1753

原创 Anaconda常用命令

1 管理conda(1) 检查condaconda --version Conda会返回你安装Anaconda软件的版本。(2) 升级condaconda update conda Conda会检查可升级版本，并同时显示可升级的包。2 管理运行环境(1) 创建新运行环境conda create --name snowflakes biopython 创建名为snowflakes的新运行环境，其中包含包biopython(2) 激活新运行环境Windows: acti

2021-01-26 20:47:11 1023

转载经典监督学习算法——决策树

什么是决策树决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。简单的说就是你做出决定的一系列依据，下面的一个例子能帮助我们很好地理解决策树的概念决策树是一种树形结构，其生成过程是每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。通俗的说就是先选取一个对象的一个特征，在这

2021-01-23 21:48:44 1133

转载 K近邻算法详解

K近邻算法详解KNN简介K最近邻(k-Nearest Neighbor，KNN)，是一种常用于分类的算法，是有成熟理论支撑的、较为简单的经典机器学习算法之一。该方法的基本思路是：如果一个待分类样本在特征空间中的k个最相似(即特征空间中K近邻)的样本中的大多数属于某一个类别，则该样本也属于这个类别，即近朱者赤，近墨者黑。显然，对当前待分类样本的分类，需要大量已知分类的样本的支持，因此KNN是一种有监督学习算法。KNN原理上图中，所有样本可以使用一个二维向量表征。图中，蓝色方形样本和红色三角形样本为

2021-01-20 22:41:04 8664 1

转载监督学习最常见的四种算法

在机器学习中，无监督学习（Unsupervised learning）就是聚类，事先不知道样本的类别，通过某种办法，把相似的样本放在一起归位一类；而监督型学习（Supervised learning）就是有训练样本，带有属性标签，也可以理解成样本有输入有输出。所有的回归算法和分类算法都属于监督学习。回归（Regression）和分类（Classification）的算法区别在于输出变量的类型，定量输出称为回归，或者说是连续变量预测；定性输出称为分类，或者说是离散变量预测。以下是一些常用的监督型学习方法。

2021-01-19 22:15:00 9525 1

原创 26. 删除排序数组中的重复项,你需要在原地删除重复出现的元素

给定一个排序数组，你需要在原地删除重复出现的元素，使得每个元素只出现一次，返回移除后数组的新长度。不要使用额外的数组空间，你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。示例 1:给定数组 nums = [1,1,2],函数应该返回新的长度 2, 并且原数组 nums 的前两个元素被修改为 1, 2。你不需要考虑数组中超出新长度后面的元素。示例 2:给定 nums = [0,0,1,1,1,2,2,3,3,4],函数应该返回新的长度 5, 并且原数组 nums 的

2021-01-18 20:19:46 711

转载 pandas日期字段处理

在做数据处理的过程，包括数据过滤、数据汇总计算等都会经常用到pandas从日期属性中提取年月日。pandas做数据处理分析也不例外。1、pandas导入数据（以导入csv文件为例）import numpy as npimport pandas as pdimport warningswarnings.filterwarnings("ignore")#查看某个函数、方法的详细使用。如输入pd.read_csv，然后按shift+tab(4次)df = pd.read_csv(r"spider.c

2021-01-18 19:35:47 1732

转载 python数据分析——pyecharts其他图像

1 仪表盘from pyecharts import charts # 仪表盘gauge = charts.Gauge()gauge.add('Python小例子', [('Python机器学习', 30), ('Python基础', 70.), ('Python正则', 90)])gauge.render(path="./data/仪表盘.html")print('ok')仪表盘中共展示三项，每项的比例为30%,70%,90%，如下图默认名

2021-01-14 22:31:22 681

转载 python数据分析——pyecharts地图全解

地图文件被分成了三个 Python 包，分别为：全球国家地图: echarts-countries-pypkg (1.9MB)中国省级地图: echarts-china-provinces-pypkg (730KB)中国市级地图: echarts-china-cities-pypkg (3.8MB)直接使用python的pip安装：选择自己需要的安装的地图$ pip install echarts-countries-pypkg$ pip install echarts-china-provi

2021-01-13 22:55:05 8181 5

转载 python数据分析——pyecharts折线图全解

导入from pyecharts import Linefrom pyecharts import WordCloudfrom pyecharts import EffectScatter, Overlapx_attr = ["1月", "2月", "3月", "4月", "5月", "6月"]data1 = [5, 20, 36, 10, 75, 90]data2 = [10, 25, 8, 60, 20, 80]基础折线示例图# 折线示例图line = Line("折线示例图")

2021-01-12 22:18:46 3887 1

转载 python数据分析——pyecharts柱状图全解

一、pyecharts简介pyecharts主要基于Web浏览器进行显示，绘制的图形比较多，包括折线图、柱状图、饼图、漏斗图地图和极坐标图等。使用pyecharts绘图代码量很少，但绘制的图形比较美观。pyecharts 分为 v0.5.X 和 v1 两个大版本，v0.5.X 和 v1 间不兼容，v1 是一个全新的版本v0.5.X支持 Python2.7，3.4+，经开发团队决定，0.5.x 版本将不再进行维护，0.5.x 版本代码位于 05x 分支v1仅支持 Python3.6+，新版本系列将从

2021-01-11 22:36:17 4968 1

原创 pandas聚合函数、透视表、交叉表、表格合并常见操作

聚合函数numpy、pandas使用的统计方式在数组中经常使用的聚合方式data[['counts', 'ches_name']].agg([np.mean, np.std])agg({'xx':np.mean, 'xx2':[np.sum, np.std]})在pandas或者numpy中没有现成的函数可以使用，可以使用transform自定义函数如：将指定列的全部数据 * 2方式一data['counts'].transform(lambda x: x*2)方式二:按照函数

2021-01-10 21:59:59 1584

原创 21. 合并两个有序链表,将两个升序链表合并为一个新的升序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的.

将两个升序链表合并为一个新的升序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。示例 1：输入：l1 = [1,2,4], l2 = [1,3,4]输出：[1,1,2,3,4,4]示例 2：输入：l1 = [], l2 = []输出：[]示例 3：输入：l1 = [], l2 = [0]输出：[0]提示：两个链表的节点数目范围是 [0, 50]-100 <= Node.val <= 100l1 和 l2 均按非递减顺序排列# Definition

2021-01-08 20:25:57 1300 1

原创 pandas 数据清洗

#数据清洗缺失值异常值重复值import pandas as pd# 一：检测与处理缺失值得操作：data = pd.read_excel('人事终表.xlsx')# print(data)#检测是否为空值 1 isnull 判断是空值的方法是空值返回True 否则为Flase # 2 notnull 与isnull 返回形式相同# notnull().sum() 相当于count# pri

2021-01-08 20:16:15 593

原创 70. 爬楼梯每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶

假设你正在爬楼梯。需要 n 阶你才能到达楼顶。每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢？注意：给定 n 是一个正整数。示例 1：输入： 2输出： 2解释：有两种方法可以爬到楼顶。1 阶 + 1 阶2 阶示例 2：输入： 3输出： 3解释：有三种方法可以爬到楼顶。3. 1 阶 + 1 阶 + 1 阶4. 1 阶 + 2 阶5. 2 阶 + 1 阶递归解法def func(n) if n == 1 or n==2: retur

2021-01-06 21:23:45 1915 1

原创 66. 加一给定一个由整数组成的非空数组所表示的非负整数，在该数的基础上加一。

给定一个由整数组成的非空数组所表示的非负整数，在该数的基础上加一。最高位数字存放在数组的首位，数组中每个元素只存储单个数字。你可以假设除了整数 0 之外，这个整数不会以零开头。示例 1：输入：digits = [1,2,3]输出：[1,2,4]解释：输入数组表示数字 123。示例 2：输入：digits = [4,3,2,1]输出：[4,3,2,2]解释：输入数组表示数字 4321。示例 3：输入：digits = [0]输出：[1]提示：1 <= digits

2021-01-06 20:57:22 1494 1

原创 67. 二进制求和给你两个二进制字符串，返回它们的和（用二进制表示）。

给你两个二进制字符串，返回它们的和（用二进制表示）。输入为非空字符串且只包含数字 1 和 0。示例 1:输入: a = “11”, b = “1”输出: “100”示例 2:输入: a = “1010”, b = “1011”输出: “10101”class Solution: def addBinary(self, a: str, b: str) -> str: a = eval('0b'+a) b = eval('0b'+b)

2021-01-05 22:33:06 2300

原创 mysql 分组查询

-- SELECT stu_gender,GROUP_CONCAT('stu_name') FROM student GROUP BY stu_gender-- SELECT stu_gender AS gender,GROUP_CONCAT('stu_name') FROM student GROUP BY stu_gender ;-- SELECT stu_gender AS gender,stu_age,COUNT('stu_name') from student GROUP BY stu_ge

2021-01-05 22:21:29 491

原创给定一个仅包含大小写字母和空格 ‘ ‘ 的字符串 s，

给定一个仅包含大小写字母和空格 ’ ’ 的字符串 s，返回其最后一个单词的长度。如果字符串从左向右滚动显示，那么最后一个单词就是最后出现的单词。如果不存在最后一个单词，请返回 0 。说明：一个单词是指仅由字母组成、不包含任何空格字符的最大子字符串。示例:输入: “Hello World”输出: 5class Solution: def lengthOfLastWord(self, s: str) -> int: s = s.strip() s_li

2021-01-05 22:18:47 3551

原创 pandas 基础操作（3）

#聚合函数# (1)numpy/pandas 统计分析方法# (2)agg# (3)transform 转换 ufunc 在pandas 或者numpy中没有现成的聚合函数可以使用# 可以通过transfrom自定义函数import pandas as pdimport numpy as np# data = pd.read_excel('meal_order_detail.xlsx')# data = data['counts'].transform(lambda x:x*2)#

2021-01-04 22:38:43 512

原创 pandas基础操作(2)

# ## 一、时间处理：# In[4]:place_order_time = data['place_order_time'].astype('str')# ### 1. 将字符串类型转为标准时间格式# In[5]:data['place_order_time'] = pd.to_datetime(place_order_time)print(data['place_order_time'])# ### 2.时间类型提取# ser.dt.时间属性：# 年--year

2021-01-03 22:34:43 667

转载 pandas分组操作

在日常的数据分析中，经常需要将数据根据某个（多个）字段划分为不同的群体（group）进行分析，如电商领域将全国的总销售额根据省份进行划分，分析各省销售额的变化情况，社交领域将用户根据画像（性别、年龄）进行细分，研究用户的使用情况和偏好等。在Pandas中，上述的数据处理操作主要运用groupby完成，这篇文章就介绍一下groupby的基本原理及对应的agg、transform和apply操作。为了后续图解的方便，采用模拟生成的10个样本数据，代码和数据如下：company=["A","B","C"]

2020-12-31 00:09:35 2434 1

原创 pandas基础操作（1）

pandas1.表格数据操作；【增删改查】2.实现多个表格的处理；3.数据清洗操作：缺失值，重复值，异常值，数据标准化，数据转换的操作；4.实现excel的特殊操作：生成透视表，交叉表；5.完成统计分析；import pandas as pdimport numpy as np一、构建dataframe创建方法一：df = pd.DataFrame(data=[['ss',20, '男','0831'],['lx',20, '女','0830'],['lx',22, '女','083

2020-12-29 21:23:54 648

原创给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。

给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。你可以假设数组中无重复元素。示例 1:输入: [1,3,5,6], 5输出: 2示例 2:输入: [1,3,5,6], 2输出: 1示例 3:输入: [1,3,5,6], 7输出: 4示例 4:输入: [1,3,5,6], 0输出: 0class Solution: def searchInsert(self, nums: List[int], targ

2020-12-29 21:08:41 2725 1

用python进行数据分析(老鼠书)python_for_data_analysis

空空如也