- 博客(127)
- 资源 (3)
- 收藏
- 关注
原创 探索型数据分析 EDA 小结
一般流程读取数据了解整体数据情况,包括但不限于:1).数据字典,也就是字段,明确分析维度;2). 数据类型;object、int643).有无空值、缺失值数量或者缺失率;isnull()、info()4).特征中具体有哪些分类;nunique()、unique()5).描述性统计;describe()6).数据集是否是平衡数据集;直方图、饼图数据处理1).空值与缺失值处理 a). 不做处理 b). 全部缺失值删除、删除高于阈值的缺失值或者删除与其他特征高度关联的缺失值特征
2020-11-03 14:50:48
252
原创 申请评分卡的特征衍生
常用的特征衍生计数:过去1年内申请贷款的总次数求和:过去1年内的网店消费总额比例:贷款申请额度与年收入的占比时间差:第一次开户距今时长波动率:过去3年内每份工作的时间的标准差特征的分箱分箱的定义:将连续变量离散化,如收入将多状态的离散变量合并成少状态,如职业分箱的重要性:稳定性:避免特征中无意义的波动对评分带来的波动健壮性:避免了极端值的影响分箱的优势:可以将缺失值作为独立的一个箱带入模型中将所有变量换到相似的尺度上分箱的限制:计算量大分箱后需要编码
2020-11-03 10:56:14
375
原创 pandas连接MySQL数据库的两种方式
read_sql(sql, con, index_col=None, coerce_float=True, params=None, parse_dates=None, columns=None, chunksize=None)参数的意义:sql: 为可执行的sql语句con: 数据库的连接index_col: 选择某一列作为indexcoerce_float: 将数字形式的字符串直接以float型读入params: 返回传递参数的查询字符串parse_dates: 将某一列日期型字符串转换
2020-08-12 13:23:54
2747
原创 创建DataFrame对象——pd.Dataframe([])和pd.DataFrame()
# 有一个Series对象如下type_series=pd.Series(data=[8944510,559132,291657,199147], index=['pv','cart','fav','buy'])"""pv 8944510cart 559132fav 291657buy 199147Name: type, dtype: int64"""Pandas库里面DataFrame的介绍这里type
2020-08-11 00:04:33
2680
原创 网格搜索最优参数
from sklearn.linear_model import LogisticRegression # 逻辑回归from sklearn.neighbors import KNeighborsClassifier # K近邻from sklearn.svm import SVC # 支持向量机from sklearn.tree import DecisionTreeClassifier # 决策树from sklearn.ensemble
2020-07-30 18:44:26
1162
1
原创 【牛客-在线编程】数据库SQL实战61题
查找最晚入职员工的所有信息在这里插入代码片查找入职员工时间排名倒数第三的员工所有信息在这里插入代码片查找各个部门当前领导当前薪水详情以及其对应部门编号dept_no在这里插入代码片在这里插入代码片在这里插入代码片在这里插入代码片在这里插入代码片在这里插入代码片在这里插入代码片在这里插入...
2020-07-06 22:39:22
275
原创 【PTA】【数据结构与算法题目集】(Python实现)7-4 是否同一棵二叉搜索树
class TreeNode: def __init__(self,val,left=None,right=None): self.val = val self.left = left self.right = right self.flag = 0def insert(root,val): if not root: root = TreeNode(val) else: if val&g
2020-06-01 21:35:38
285
原创 【PTA】【数据结构与算法题目集】(Python实现)7-3 树的同构
有一个测试点没通过,不知道哪出问题了。。class TreeNode: def __init__(self,val,left=None,right=None,parent=None): self.val = val self.leftChild = left self.rightChild = rightdef generateTree(n): if n==0:return TreeNode(None),-1 nodeList =
2020-05-30 16:52:08
369
原创 【PTA】【数据结构与算法题目集】(Python实现)7-2 一元多项式的乘法与加法运算
这一题卡在第四个测试点上好久。。“输入有零多项式和常数多项式”,就是最后添加的几个if…else。。就通过了class ListNode: def __init__(self,coef,exp): self.coef = coef self.exp = exp self.next = Nonedef list2LinkList(lst): if lst[0]==0: return 0 head = ListNod
2020-05-28 22:30:47
799
原创 【PTA】【数据结构与算法题目集】(Python实现)7-1 最大子列和问题
n = int(input())nums = list(map(int,input().split()))def maxSubArray(nums): MaxSum = nums[0] ThisSum = 0 for i in range(len(nums)): if ThisSum>=0: ThisSum = ThisSum + nums[i] else: ThisSum = nums[i]
2020-05-28 22:21:47
321
原创 【mooc北大数据结构】【数据结构与算法Python】第四周作业
先讲收获:的地方再上代码1.有序队列思路:# 超出内存限制了class Queue: def __init__(self): self.items = [] def isEmpty(self): return self.items == [] def enqueue(self, item): self.i...
2020-05-03 17:10:24
390
2
原创 b站三节课互联网商业数据分析实战-SQL案例
案例:了解用户近期产品使用情况需求列表业务价值近一周日活跃用户数监控产品健康程度近一周的次日留存率用户粘性如何?近3天被浏览最多的内容种类top3哪种内容更受用户欢迎需求解决流程:明确指标定义找到存储所需信息的数据表写SQL语句数据整理和呈现近一周日活跃用户数指标定义日活跃用户数:每天打开应用的用户数所需信息每天打开...
2020-05-02 11:48:11
1834
原创 TexLive2020+TexStudio下载与安装
鉴于之前安装过出错了这次再安装有所记录,在正式下载安装之前把之前似乎有印象犯过的错先捋一遍;1.之前如果winedt+ctex全套安装不成功的话,要卸载干净;2.miktex+texstudio的组合似乎容易报错;(这个不记得原因是miktex加载宏包要自己一个一个手动添加还是怎么,似乎是操作比较麻烦,对小白不是很友好)3.texlive和texstudio的安装顺序最好先texlive再安...
2020-05-02 00:23:45
34436
19
原创 b站三节课互联网商业数据分析实战-SQL在数据分析中的应用
SQL核心语句——数据过滤与查询-最常用8个核心语句-练习-8个核心语句背后的执行逻辑SQL核心语句组成: ① select 列名/聚合函数 as 别名 (select必选,as可选) ② from 表名(必选) ③ where 限制条件(可选) ④ group by 列名(可选) ⑤ having 限制条件(可选) ⑥ order by 列名 asc/desc(可选) ⑦...
2020-04-30 23:41:15
1666
原创 MySQL Workbench 8.0.20下载与安装
下载在官网MySQL Workbench 8.0.20点击Download下载安装选择安装路径新手建议选择complete安装一直next到最后安装完成使用打开workbench界面,按下图操作可以连接数据库,这里我连接本地数据库按上述操作后弹出窗口表明连接成功打开数据库在Schemas里面可以看到数据库也可以在Schemas框的空白地方右键选择Create...
2020-04-30 14:36:30
4768
原创 第六章 7-8 *输出全排列
python中编程技巧,要巧妙运用字符串类型输入的数字创建数字字符串列表全排列利用递归来做,每次去掉一个,对其他的做全排列然后在在前面加上去掉的那个数字字符def perm(num): rs = [] if len(num) <= 1: rs.append(num) return rs else: for i ...
2020-04-29 22:48:33
1200
原创 第六章 7-7 找出总分最高的学生
n=int(input())info=[]s=[]for i in range(n): stu_info = input().split() info.append(stu_info) total_s = int(stu_info[-1])+int(stu_info[-2])+int(stu_info[-3]) s.append(total_s)max_s ...
2020-04-29 22:42:44
1622
原创 第六章 7-6 求指定层的元素个数 (40分)
def func(li,n,cnt): if n == cnt: return len([i for i in li if type(i)!=list]) else: return sum([func(i,n,cnt+1) for i in li if type(i) == list])li = eval(input())n = int(inpu...
2020-04-29 22:42:10
487
1
原创 第六章 7-5 列表元素个数的加权和(1)
li=eval(input())def flatten(item,level): s=0 for i in item: if isinstance(i,int): s += 1*level if isinstance(i,list): s += flatten(i,level+1) retur...
2020-04-29 22:41:30
665
原创 第六章 7-4 列表数字元素加权和(1)
"""li=eval(input())def flatten(items,level): s=0 for i in items: if isinstance(i,int): s += i * level elif isinstance(i,list): s += flatten(i,level+1)...
2020-04-29 22:40:06
431
原创 第六章 7-3 列表或元组的数字元素求和
li=eval(input())def flatten(items): lst=[] for x in items: if isinstance(x,(list,tuple)) and not isinstance(x,str): for element in flatten(x): lst.append(e...
2020-04-29 22:38:39
507
原创 第六章 7-2 一帮一 (15分)
"""N=int(input())girl=[]boy=[]for i in range(N): sex, name=input().split() if sex=='0': girl.append([name,i]) elif sex=='1': boy.append([name,i])lst = list(zip(girl,bo...
2020-04-29 22:37:44
1059
原创 【mooc北大数据结构】【数据结构与算法python】第三周作业
前几次运行不通过原因:栈的定义这个没有放进去,自己在编写程序的时候由于是下载了老师提供的资源,然后在程序一开始就导入了Stack,因此自己测试的时候没有问题,oj上会出现程序异常;from pythonds.basic.stack import Stack【网页提交注意点】:提交的时候要把用到的数据结构的定义先放上去1.有效的括号思路:class Stack: def __i...
2020-04-23 18:36:25
484
原创 第五章 7-11 字典合并
# 字典键的类型不同# 打印时要注意整型的1和字符型的'1'打印出来是一样的,但是程序过程中非常非常要注意,容易看走眼d1=eval(input())d2=eval(input())d_str={}d_digit={}for k,v in d1.items(): if k in d2.keys(): d2[k] += d1[k] else: ...
2020-04-01 20:17:41
1368
原创 第五章 7-10 两数之和
li=list(map(int,input().split(',')))n=int(input())dic={}flag=0for index,v in enumerate(li): dic[v]=indexfor k,v in dic.items(): if n-k in dic.keys(): flag=1 print(dic[k],d...
2020-04-01 20:15:44
363
原创 第五章 7-9 求矩阵鞍点的个数
这题跟第四章那个几乎一样,一个求坐标一个求数字n=int(input())a=[list(map(int,input().split())) for i in range(n)]c=[]d=[]for i in range(n): maxa=max(int(a[i][j]) for j in range(n)) mina=min(int(a[k][i]) for k i...
2020-04-01 20:15:05
1096
原创 第五章 7-8 能被3,5和7整除的数的个数(用集合实现)
m, n = input().split()m, n = int(m), int(n)set3 = set()set5 = set()set7 = set()res_set = set()for i in range(m, n + 1): if (i % 3 == 0): set3.add(i) if (i % 5 == 0): set5...
2020-04-01 20:14:01
654
原创 第五章 7-7 列表去重
li=eval(input())li2=[]for i in li: if i not in li2: li2.append(i)print(' '.join(list(map(str,li2))))
2020-04-01 20:13:25
407
原创 第五章 7-6 统计工龄
N=int(input())li=input().split()dic={}for i in li: if i not in dic: dic[i] = 1 else: dic[i] += 1sorted_dic=sorted(dic.items(),key=lambda x:int(x[0]))for k in sorted_dic: ...
2020-04-01 20:12:47
792
原创 第五章 7-5 统计字符出现次数
string=input()dic={}for i in string: if i not in dic: dic[i] = 1 else: dic[i] += 1try: c=input() print(dic[c]) except: print(0)
2020-04-01 20:12:07
1045
原创 第五章 7-4 分析活动投票情况
li=set(input().split(','))steam=['6','7','8','9','10']r=[i for i in li if i in steam]rs=[k for k in steam if k not in r]print(' '.join(rs))
2020-04-01 20:11:23
681
原创 第五章 7-3 四则运算(用字典实现)
m=int(input())s=input()n=int(input())sd={'+':'m+n','-':'m-n','*':'m*n','/':'m/n'}if n==0: print('divided by zero')else: rs=eval(sd.get(s)) print('%.2f'%rs)
2020-04-01 20:10:45
1564
1
原创 第五章 7-2 图的字典表示
n=int(input())dic={}for i in range(n): d_i=eval(input()) dic.update(d_i)v=set()e=set()s=0for key,value in dic.items(): v.add(key) if type(value)==dict: for key1,v1 in va...
2020-04-01 20:10:12
643
原创 第五章 7-1 输出星期名缩写
calendar = {'1':'Mon','2':'Tue','3':'Wed','4':'Thu','5':'Fri','6':'Sat','7':'Sun'}n = input()print(calendar.get(n))
2020-04-01 15:09:12
903
原创 第四章 7-29 找完数
import mathm,n=map(int,input().split())flag=0for k in range(m,n+1): li=[1] for i in range(2,int(math.sqrt(k))+1): if k%i == 0: li.append(i) li.append(int(k/i...
2020-03-31 23:32:40
214
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人