- 博客(78)
- 资源 (5)
- 收藏
- 关注
原创 【python Tips】那些事半功倍的数据结构和内置函数 TIPS
1. 排序相关列表排序输出对应的索引heights = [2,1,5,6,2,3]s = sorted(range(len(heights)), key=lambda k: heights[k])sOut[5]: [1, 0, 4, 5, 2, 3]
2021-10-27 22:47:39
242
原创 【python Tips】那些事半功倍的标准库(4-collections)
1. 模块:collections1.1 模块方法汇总['AsyncGenerator', 'AsyncIterable', 'AsyncIterator', 'Awaitable', 'ByteString', 'Callable', 'ChainMap', 'Collection', 'Container', 'Coroutine', 'Counter', 'Generator', 'Hashable', 'ItemsView', 'Iterable', 'Iterator', 'KeysVie
2021-10-08 22:49:32
280
原创 【mysql】 表的数据去重且保留id最小的行
查询重复数据中id最小的行:-- 去重,保留Id最小的select * FROM ntid_source_mdns_dataWHERE value IN (SELECT value FROM ntid_source_mdns_data GROUP BY value HAVING count(value) > 1)AND id NOT IN (SELECT min(id) FROM ntid_source_mdns_data GROUP BY value HAVING count(valu..
2021-09-14 16:49:28
391
原创 【python Tips】那些事半功倍的标准库(3-heapq)
1. 模块:heapq1.1 模块方法汇总__all__ = ['heappush', 'heappop', 'heapify', 'heapreplace', 'merge', 'nlargest', 'nsmallest', 'heappushpop']"""heappush: Push item onto heap, maintaining the heap invariant.heappop: Pop the smallest item off the heap,
2021-09-12 20:43:36
182
原创 【python Tips】那些事半功倍的标准库(1-itertools)
1. 模块:itertools1.1 模块方法汇总"""Functional tools for creating and using iterators.>>> Infinite iterators: count(start=0, step=1) --> start, start+step, start+2*step, ... cycle(p) --> p0, p1, ... plast, p0, p1, ... repeat(elem [,n]) -->
2021-09-10 23:31:21
135
原创 python各对象排序汇总
numpy数组排序np.argpartitionaarray([ 8, 10, 3, 2, 14, 9, 7, 11, 0, 13, 6, 1, 5, 4, 12, 15])c[(0, 8), (1, 10), (2, 3), (3, 2), (4, 14), (5, 9), (6, 7), (7, 11), (8, 0), (9, 13), (10, 6), (11, 1), (12, 5), (13, 4), (14, 12), (15, 15)]np.argpart
2021-09-07 10:54:33
512
原创 python多维list不同方式排序
# 索引1升序,索引2降序,索引3升序b = a.copy()b.sort(key=lambda x: (x[1], -x[2], x[3]))bOut[84]: [[3, 50, 40, 3], [3, 50, 30, 2], [3, 60, 20, 6], [3, 60, 10, 7]]# 索引1 2 3升序b = a.copy()b.sort(key=lambda x: (x[1], x[2], x[3]))
2021-09-06 09:40:37
512
原创 数组 array 转化为占比
需要用np.newaxisaOut[62]: array([[2, 2, 3, 1, 4], [5, 2, 3, 1, 5], [2, 2, 3, 3, 1]])a.sum(axis=1)Out[63]: array([12, 16, 11])a.sum(axis=1)[:,np.newaxis]Out[65]: array([[12], [16], [11]])# 转化为百分比ddd = a / a.sum(axis=1.
2021-05-21 16:33:52
405
原创 python标准库二分查找 bisect
bisect模块:bisect(list,item,[low,[high]]):返回要插入item点的索引,如果item在列表中了,则返回该条目的右边索引bisect_right(list,iten,[left,[right]]) :同上bisect_left(list,item,[left,[right]])返回要插入item点的索引,如果item在列表中了,则返回该条目的左边索引insort(list,item,[left,[right]])不返回索引,直接插入进去,如果有重复的item
2021-03-21 23:30:38
515
原创 shell字符串操作
提取mac:#!/bin/bashword="wireless_Wavlink_WL-WN688A2__fc-1b-d1-84-8b-20.pcap"mac_suf=${word#*__}mac_org=${mac_suf:0:17}mac=${mac_org//-/}echo $mac
2021-03-03 09:45:48
110
原创 linux拆分csv文件为多个小文件
拆分脚本:split_file_to_part_based_on_line.sh#!/bin/bash:<<!参数说明:$0 脚本文件名$1 待拆分文件名$2 拆分后的文件的行数$3 拆分后的文件的前缀!echo "---- start ----"echo "FILE_NAME: $1"total_lines=`cat $1 | wc -l`floor=`echo "scale=0;$total_lines/$2"|bc -l
2021-03-02 16:05:32
1710
原创 DataFrame按列的unique值划分源数据为unique个子数据DataFrame
dataframe按某一列的distinct值将源数据划分成多个子数据dataframe,并分别将子数据保存为csv# -*- coding: utf-8 -*-# @Author : Administrator# @DateTime : 2020/6/29 22:35# @FileName : subdata.py# @SoftWare : PyCharmimport numpy as npimport osimport pandas as pdfrom config.featu
2020-06-29 23:49:28
4787
原创 anaconda历史版本链接及python版本对应关系
anaconda历史版本anaconda所有版本链接:https://repo.continuum.io/archive/清华大学开源软件镜像站:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/版本与python对应关系(部分):https://blog.youkuaiyun.com/yuejisuo1948/article/details/81043823...
2020-06-08 22:49:19
1434
原创 fork后保持与源仓的同步
fork后保持与源仓的同步1、查看远程仓地址$ git remote -v2、添加上游仓库远程地址(一次性操作即可)$ git remote add upstream ssh://xxxxxxxxxxxxxxxx.git$ git remote -v3、fetch上游仓内容$ git fetch upstream4、合并上游仓内容到本地仓$ git merge upstream/master5、推送合并后的内容到自己的远程仓$ git push origin master
2020-05-30 10:55:25
218
原创 通用进制转换工具
通用进制转换工具# -*- coding: utf-8 -*-# @Author : Administrator# @DateTime : 2020/5/23 16:48# @FileName : sysconvert.py# @SoftWare : PyCharm"""进制转换通用工具: bin_oct_hex_convert思路: 进制基base: 整数除 + 取余数 ---> 进制转换 余数 总是 小于 进制基base"""def bin_oct_h
2020-05-23 17:14:21
572
原创 pycharm快捷键
pycharm快捷键sublime text3在墙内使用经常出现问题,试了下pycharm,好像还不错(使用过程中慢慢更新)>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>...
2020-05-06 00:01:23
285
原创 重复字符最长串(python版本)
算法题题目:给定一串字符,里面有些字符有连续出现的特点,请寻找这些连续出现字符中最长的串,如果最长的串有多个,请输出字符ASCII码最小的那一串。例如:输入aaabbbbbcccccccczzzzzzzz,输出cccccccc。思路:采用反向遍历的思路反向遍历长度(len - len(set(arr)) + 1)遍历set(arr)如果:当set(arr)遍历完一遍之后出现 ...
2020-04-05 22:51:03
1519
原创 机器学习sklearn管线Pipeline, 样本生成器,特征选择器
# -*- coding: utf-8 -*-"""Created on Fri Aug 3 10:04:14 2018@author: Administrator"""import numpy as npimport sklearn.datasets as sdimport sklearn.feature_selection as fsimport sklearn.ense...
2020-02-25 23:03:17
251
原创 机器学习sklearn支持向量机分类 ---- 预测事件是否发生(event / nonevent)
# -*- coding: utf-8 -*-"""Created on Wed Aug 1 16:23:11 2018@author: Administrator"""'''SVM应用案例:分类'''import numpy as npimport sklearn.preprocessing as spimport sklearn.model_selection as ..
2020-02-25 23:02:11
168
原创 机器学习笔记汇总1
1. 机器学习基本类型有监督学习:根据已知的输入和输出,建立联系它们的模型,根据该模型对未知输出的输入进行判断。1)回归:以无限连续域的形式表示输出2)分类:以有限离散域的形式表示输出无监督学习:在一组没有已知输出(标签)的输入中,根据数据的内部特征和练习,找到某种规则,进行族群的划分— 聚类半监督学习:从一个相对有限的已知结构中利用有监督学习的方法,构建基本模型,通过...
2018-10-25 08:39:28
383
原创 逻辑回归基础和SVM基础
Logistic Regression Model是一种有监督学习方法,主要用于二元分类,也可以进行多远分类。其本质上是一种符合二项分布的线性回归模型(Linear Regression Model),不同之处就在于逻辑回归是将连续域的输出通过逻辑函数映射为离散域。逻辑函数为sigmoid函数,线性输出作为逻辑函数的输入,映射为[0,1]的离散域。当z趋于-∞时,结果趋于0;当z趋...
2018-10-25 08:37:13
612
原创 Bayes、KNN、PCA和异常检测基础
Bayes已知样本的某些特性,求解该样本属于某个类别的后验概率P(Y|X=x)先验概率、条件概率、后验概率先验概率:是指根据以往经验和分析得到的概率.后验概率:事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小贝叶斯定理:P(A|B)= P(A) * P(B|A) / P(B)理解:朴素贝叶斯是有训练数据学习联合概率分布P(X,Y),然后求得后验概率...
2018-10-25 08:36:43
3011
原创 boxcox变换python实现
boxcox1p变换参数lambda估算方法:极大似然估计 或者 贝叶斯估计 (原理略)极大似然估计:设总体中含有待估参数theta, 可以取很多值。已知样本观察值,求使该样本值出现概率最大的theta值作为theta的估计值,称之为极大似然估计。参考:极大似然估计思想的最简单解释python代码:for i,lam in enumerate(lam_range): llf...
2018-10-12 12:10:36
18333
5
原创 pandas基础属性方法随机整理(七):applymap, map, replace
pandas的DataFrame和Series分别有自己的矢量化函数pandas.DataFrame.applymap()pandas.Series.map()两个函数的params不同:map(self, arg, na_action=None):参数有三种类型选择 arg : function, dict, or Seriesx = pd.Series([1,2,3]...
2018-08-29 18:05:33
856
原创 机器学习sklearn利用GridSearchCV进行超参数优化后的SVM分类
# -*- coding: utf-8 -*-'''SVM分类:最优超参数GridSearchCV优化后的SVM分类'''import numpy as npimport sklearn.model_selection as msimport sklearn.svm as svmimport sklearn.metrics as smimport matplotlib.pyplo...
2018-08-14 20:12:44
9364
1
原创 机器学习sklearn朴素贝叶斯分类器----工资收入等级评估
# -*- coding: utf-8 -*-"""Created on Wed Aug 1 14:54:59 2018@author: Administrator"""'''朴素贝叶斯分类器:预测工资收入等级'''import numpy as npimport sklearn.preprocessing as spimport sklearn.model_select..
2018-08-14 12:17:44
687
原创 机器学习sklearn模块(线性回归LinearRegression模型、岭回归Ridge模型、基于LinearRegression的多项式回归模型)
对比利用多项式定义进行多项式拟合:笔记代码:多项式拟合和极值点连接线性回归sklearn.linear_model.LinearRegression() --&amp;amp;amp;gt; return:线性回归器 线性回归器.fit(输入样本,输出标签) # 训练数据 线性回归器.predict(输入...
2018-08-13 16:03:01
4252
1
原创 机器学习之数据预处理(均值移除、范围缩放、归一化、二值化、独热编码、标签编码)
# -*- coding: utf-8 -*-'''数据预处理:'''import numpy as npimport sklearn.preprocessing as spimport matplotlib.pyplot as plt# 数据源1raw_samples = np.array([ [3, -1.5, 2, -5.4], [0,...
2018-08-13 14:00:38
6583
2
原创 Redis简明教程
Redisredis是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库特点Redis支持数据的持久化。` 可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用。支持多种数据类型储存。 Redis不仅仅支持简单的key-value类型的数据,同时还提供list,set,zset,hash等数据结构的存储。Redis支持数据...
2018-08-11 10:28:35
191
原创 机器学习sklearn基础(2):基于KNN分类器的有监督分类模型 (数组去重方法np.unique()以及色级构建说明plt.get_cmap(..)(..))
# -*- coding: utf-8 -*-"""Created on Fri Aug 3 14:05:33 2018@author: Administrator"""'''基于KNN的有监督分类'''import numpy as npimport sklearn.neighbors as snimport matplotlib.pyplot as plttrai..
2018-08-06 19:53:58
2586
原创 matplotlib基础4:常见图形绘制(matplotlib.patches模块对象)
# -*- coding: utf-8 -*-'''绘制常见图形对象如:Rectangle, ellipse, circle, polygon...'''import matplotlib.pyplot as pltimport matplotlib.patches as mpplt.figure()'''矩形:mp/plt.Rectangle((左下方点坐标), 长, 宽,...
2018-08-05 20:25:01
17482
原创 机器学习sklearn基础(1):多元逻辑回归分类器 (pcolormesh说明及绘图)
# -*- coding: utf-8 -*-'''多元分类:逻辑回归分类器 并绘制pcolormesh伪彩图sklearn.linear_model.LogisticRegression( solver='liblinear', C=正则强度)'''# pcolormesh(x, y, c=d, cmap='jet') cmap:渐变色映射plt....
2018-08-03 13:37:38
3989
原创 numpy基础属性方法随机整理(10):间接联合排序函数np.lexsort和复数直接排序函数np.sort_complex
间接联合排序函数:np.lexsort((scores, ages)) 复数直接排序函数:np.sort_complex(c).real获取array数组的下标:np.where() 通过下标数组返回数组中的元素集:np.take()np.where(namesComplexSorted == 'Kity') 返回值:(array([1], dtype=int64),) t...
2018-07-30 13:05:38
998
原创 matplotlib基础3:散点图scatter图形和polar坐标图绘制及方法属性简述(希腊字母表示方法 r'$ name_ $')
1、散点图scatter: NOTE: plt.scatter(… c=d, cmap='bwr_r'…)c=d, cmap='jet': 渐变颜色映射cmap_list元素后面加'_r'表示逆向渐变,如 bwr蓝白红 ---&amp;amp;amp;amp;amp;amp;amp;gt; bwr_r 红白蓝渐变颜色映射表链接:color example code: colormaps_reference.py# -*- coding...
2018-07-28 15:42:58
3911
原创 numpy基础属性方法随机整理(9):专用函数-- np.lexsort() / np.sort_complex两种方法实现间接联合排序
间接联合排序: 间接获取排序样本的下标 原始数列:8 2 3 1 7 4 6 5 9 直接排序:1 2 3 4 5 6 7 8 9 间接排序:3 1 2 5 7 6 4 0 8 (原始序列元素的下标) 姓名:张三 李四 王五 赵六 陈七 成绩:90 70 50 80 60 下标:0 1 2 3 4 成绩升序对应的下标...
2018-07-27 19:03:17
1210
原创 python基础12:python矢量运算map函数和numpy矢量运算函数(np.vectorize(fun)(A, B) 和np.frompyfunc(chu,2,1)(a, b))
NOTE: 1)numpy中几乎所有的算术和关系运算符都被numpy借助ufunc实现为可对数组 操作的矢量化运算符.如np.array, np.mat都可以自动进行矢量化运算2)对list等不能直接进行矢量化运算的数据类型而言,可采用numpy的矢量化函数 list的两种矢量化运算函数:(1) np.vectorize(chu)(a, b)(2) np.frompyfu...
2018-07-27 17:20:10
5273
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人