
python
文章平均质量分 72
ju22
这个作者很懒,什么都没留下…
展开
-
python中 merage函数与concat函数的用法
每次都不能很好的使用merge和concat这两个函数,本次做一个搬运工从前人那边搬来一些信息,希望自己熟练掌握其使用方法一、meragepandas提供了一个类似于关系数据库的连接(join)操作的方法<Strong>merage</Strong>,可以根据一个或多个键将不同DataFrame中的行连接起来,语法如下: 1 2 3 ...原创 2020-02-25 17:57:31 · 4156 阅读 · 0 评论 -
pandas 一些常用的数据分析技巧
数据类型: 查看数据中各个变量的列名和它们的数据类型:df.dtypes 获得每个数据类型的列数:df.get_dtype_counts() 数据缺失与重复 统计缺失占比:df.isna().sum()/len(df) 缺失填补:df.fillna(method='各种方法') 查找重复行,删除重复行:df.duplicated() ; df.drop_duplicates(...原创 2020-02-25 17:39:18 · 435 阅读 · 0 评论 -
python中字符串和文本的处理技巧
python字符串原创 2020-02-25 12:33:02 · 444 阅读 · 0 评论 -
python 中字典使用的一些小技巧
本文简单的记录了 python中 字典使用的一些技巧一、从字典中提取子集prices = {'ACME': 45.23,'AAPL': 612.78,'IBM': 205.55,'HPQ': 37.20,'FB': 10.75}##下面使用字典推导式来取 值大于200或者键在一个列表中的子集## Make a dictionary of all prices ove...原创 2020-02-24 17:40:18 · 359 阅读 · 0 评论 -
《Hands-on Machine Learning with Scikit-Learn and TensorFlow》 读书笔记
import pandas as pdimport numpy as npimport matplotlib.pyplot as plthousing=pd.read_csv('D:\\pythondata\\housing.csv') housing.plot(kind="scatter", x="longitude", y="latitude")housing.plot(ki原创 2018-01-18 14:58:44 · 3516 阅读 · 1 评论 -
python进阶学习笔记(一)——高阶函数
filter():filter()函数接收一个函数 f 和一个list,这个函数 f 的作用是对每个元素进行判断,返回 True或 False,filter()根据判断结果自动过滤掉不符合条件的元素,返回由符合条件元素组成的新list。例如,要从一个list [1, 4, 6, 7, 9, 12, 17]中删除偶数,保留奇数,首先,要编写一个判断奇数的函数:转载 2018-01-16 09:53:53 · 286 阅读 · 0 评论 -
python—pandas中DataFrame类型数据操作函数
Python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数。 1)查看DataFrame数据及属性df_obj = DataFrame() #创建DataFrame对象 df_obj.dtypes #查看各行的数据格式 df_obj[‘列名’].astype(int)#转换某列的转载 2017-08-07 11:34:35 · 903 阅读 · 0 评论 -
集成学习原理小结
本文转自刘建平Pinard 原文链接http://www.cnblogs.com/pinard/p/6131423.html集成学习(ensemble learning)可以说是现在非常火爆的机器学习方法了。它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成学习可以用于分类问题集成,回归问题集成,特征选转载 2017-08-31 10:54:25 · 292 阅读 · 0 评论 -
集成学习之Adaboost算法原理小结
本文转自 刘建平Pinard 原文链接http://www.cnblogs.com/pinard/p/6133937.html 在集成学习原理小结中,我们讲到了集成学习按照个体学习器之间是否存在依赖关系可以分为两类,第一个是个体学习器之间存在强依赖关系,另一类是个体学习器之间不存在强依赖关系。前者的代表算法就是是boosting系列算法。在boosting系列算法中, Ad转载 2017-08-31 10:58:24 · 3163 阅读 · 0 评论 -
scikit-learn Adaboost类库使用小结
本文系转载,原文链接为 http://www.cnblogs.com/pinard/p/6136914.html 在集成学习之Adaboost算法原理小结中,我们对Adaboost的算法原理做了一个总结。这里我们就从实用的角度对scikit-learn中Adaboost类库的使用做一个小结,重点对调参的注意事项做一个总结。1. Adaboost类库概述转载 2017-08-31 11:03:26 · 1030 阅读 · 0 评论 -
scikit-learn 梯度提升树(GBDT)调参小结
原文网址 http://www.cnblogs.com/pinard/p/6143927.html 在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点。1. scikit-learn GBDT类库概述 在sacikit-learn中,GradientBoo转载 2017-08-31 11:13:46 · 2374 阅读 · 0 评论 -
python简单的笔记
# append方法用于在列表末尾追加新的对象lst=[1,2,3]lst.append(4)# extend方法可以在列表的末尾一次性追加另一个序列中的多个值。即可以用新列表扩展原有的列表a=[1,2,3]b=[4,5,6]a.extend(b)# pop 方法会移除列表中的一个元素(默认是最后一个),并且返回该元素的值x=[1,2,3]x.pop(原创 2017-09-22 14:02:39 · 251 阅读 · 0 评论 -
经典排序算法总结与实现
原文地址:http://wuchong.me/blog/2014/02/09/algorithm-sort-summary/经典排序算法在面试中占有很大的比重,也是基础,为了未雨绸缪,在寒假里整理并用Python实现了七大经典排序算法,包括冒泡排序,插入排序,选择排序,希尔排序,归并排序,快速排序,堆排序。希望能帮助到有需要的同学。之所以用Python实现,主要是因为它更接近伪转载 2017-11-15 16:32:29 · 252 阅读 · 0 评论 -
初识python中的类与对象
原文链接:http://www.cnblogs.com/Eva-J/p/5009377.html这篇博客的路线是由深入浅,所以尽管图画的花花绿绿的很好看,但是请先关注我的文字,因为初接触类的小伙伴直接看类的实现可能会觉得难度大,只要耐着性子看下去,就会有一种“拨开迷雾看未来”的感觉了。一、python中类和对象的概念 首先,我们先来说说什么是类。看了很转载 2017-11-17 10:31:03 · 660 阅读 · 0 评论 -
平均数编码:针对高基数定性特征(类别特征)的数据预处理/特征工程
文章原网址: https://zhuanlan.zhihu.com/p/26308272前言读完sklearn.preprocessing所有函数的API文档之后,基础的特征工程就可以算是入门了。然而,进阶的特征工程往往依赖于数据分析师的直觉与经验,而且与具体的数据有密切的联系,比较难找到系统性的“最好”的特征工程方法。在这里,我希望能向大家分享一种极其有效转载 2017-11-20 13:39:36 · 12177 阅读 · 3 评论 -
Python pandas 数据框的str列内置的方法详解
原文地址:http://www.datastudy.cc/article/6ba9ae82e0fb2fbc2eb3d57cb68e22a2?from=csdn 在使用pandas框架的DataFrame的过程中,如果需要处理一些字符串的特性,例如判断某列是否包含一些关键字,某列的字符长度是否小于3等等这种需求,如果掌握str列内置的方法,处理起来会方便很多。转载 2017-11-30 15:09:39 · 9819 阅读 · 0 评论 -
pandas中的groupby函数的分组结果怎么保存成DataFrame
在使用pandas进行数据统计分析时,作为一个小白纠结了好久如何保存groupby函数的分组结果,本打算放弃了,一个偶然的机会看前人分享的代码才发现了可以通过reset_index()函数将groupby()的分组结果转换成DataFrame对象。代码举例:total = df.groupby(['al_m6_id_notbank_allnum'])['target_cpd']原创 2017-12-06 11:17:08 · 48158 阅读 · 4 评论 -
python中的import,reload,以及__import__
在执行代码时对模块进行修改后再次import,还是会报错,最终发现重复import 并不会更新原文件,要用reload()函数重新加载,为了纪录,转载了这篇文章。原文地址:http://blog.youkuaiyun.com/turkeyzhou/article/details/8846527import作用:导入/引入一个python标准模块,其中包括.py文件、带有__init__转载 2017-12-07 17:08:59 · 801 阅读 · 0 评论 -
Python数据分析之pandas学习
Python数据分析之pandas学习原文链接:https://www.cnblogs.com/nxld/p/6058591.htmlPython中的pandas模块进行数据分析。接下来pandas介绍中将学习到如下8块内容:1、数据结构简介:DataFrame和Series2、数据索引index3、利用pandas查询数据4、利用pandas的转载 2017-11-16 10:02:21 · 763 阅读 · 0 评论