
pandas学习
文章平均质量分 86
以实际工作中遇到的问题,分享用pandas解决的思路。
帅帅的Python
python爱好者,高级数据分析师
展开
-
23万条数据集,可以用来区分钓鱼网站!
是一份大小为100M左右的csv文件,我们可以用pandas来读取数据。PhiUSI IL网络钓鱼URL数据集是一个由134,850个合法和100,945个网络钓鱼URL组成的实质性数据集,我们在构建数据集时分析的大部分URL都是最新的URL,特征是从网页和URL的源代码中提取的,Char连续率、URL标题匹配分数、URL Char Prob和TLD合法Prob等特征是从现有特征中派生出来的。原创 2024-03-14 10:49:05 · 2598 阅读 · 2 评论 -
Python数据分析实战【十三】:用pandas将数据划分区间【文末源码地址】
用来将数据划分为不同的区间x:array型数据(DataFrame的每一列数据都是array型数据)bins:传入int型数据,表示划分的区间个数,传入list型数据,表示自定义的区间labels:传入与bins对应区间的标签list型数据(默认为None)retbins:True表示返回划分的区间,False表示不返回划分的区间(默认为False)right:True表示左开右闭,False表示左闭右开(默认为True)x对应所在的区间,array类型。原创 2023-05-04 14:42:52 · 2017 阅读 · 0 评论 -
Python数据分析实战【七】:用Python实现对Excel文件中的数据进行md5加密【文末源码地址】
> 1. 使用 pandas 中的 to_excel 生成 excel 数据> 2. 使用 pandas 中的 read_excel 读取 excel数据> 3. 使用 pandas 中的 map 函数加密手机号的身份证号> 4. 使用 hashlib 库对数据进行 md5、sha加密原创 2022-08-25 17:32:32 · 1932 阅读 · 3 评论 -
Python数据分析实战【五】:用Python分析商品退单数据并找出异常商品【文末附源码地址】
使用 pandas 中的 read_sql 读取 sqlite 中的数据获取指定的日期的周一和周日使用 groupby+agg 方法统计每周的商品总销量和总退单量使用 value_counts 方法统计商品的退单数据使用 merge 方法合并数据原创 2022-02-21 09:31:47 · 1917 阅读 · 0 评论 -
Python数据分析实战【四】:用Python对用户的评论数据进行情感倾向分析【文末源码地址】
使用 pandas 中的 read_sql 读取 sqlite 中的数据使用飞浆模型 senta_bilstm 对评论数据进行情感分析使用飞浆模型 lac 对评论数据进行分词使用 groupby+agg 方法统计评论主题中消极和积极用户分布使用 value_counts 方法统计整体评论分布情况使用 pyecharts 绘制柱状图、词云图原创 2022-01-19 21:20:50 · 14477 阅读 · 0 评论 -
用Python中的hashlib实现md5和sha加密
第一章:详解用Python实现数据md5、sha加密本文分享知识:pandas读取Excel数据 read_excel()使用Python的加密库 hashlibpandas中map方法使用pandas写入Excel数据 to_excel()代码均在 jupyter 环境下运行,公众号《帅帅的Python》回复《数据加密》获取源码我这里有一份客户的Excel数据,里面有客户的手机号和身份证号信息,这些信息不能泄露,你加密一下发给我。面对经理紧急安排的任务,小凡不敢懈怠,暂时放下手中原创 2021-11-22 21:37:01 · 1646 阅读 · 1 评论 -
pandas中的groupby使用方法及案例分析
GroupBy():官网地址:https://pandas.pydata.org/docs/reference/groupby.htmlpandas中对数据进行分组操作的方法,官方有很详细的教程。下面的案例是真实遇到的问题,看一看用pandas是如何解决的。构造数据:import pandas as pdimport numpy as npdf = pd.DataFrame(data={ "boss":["A"]*3+["B"]*3+["C"]*4, "owner":["A1"原创 2020-11-27 16:59:48 · 963 阅读 · 4 评论 -
pandas数据划分区间
用pandas将数据划分区间在数据分析的过程中,经常会遇到:年龄,收入,价格以及类似的数据,在数据分析前,需要将这些数据划分到一系列区间中,再将区间进行不同的编码,对编码后的数据进行分析。在pandas中可以使用pandas.cut()方法实现对数据的区间划分,以及对区间进行标记。案例数据以name,age,score为例,使用pandas.cut()方法对age、score进行区间划分。import pandas as pdimport numpy as npdf = pd.DataF原创 2020-11-12 14:25:14 · 17257 阅读 · 4 评论 -
pandas获取数据的缺失占比
获取数据的缺失占比案例分析在数据建模前,需要查看每一列数据的缺失情况,当缺失值的占比超过一定阈值,就需要考虑,这一列数据(或者这一个变量)是否需要参与建模。一般选用的阈值在0.9,即:当某一个变量的缺失值占比达到90%以上,就需要删除。这里选用pandas作为主要的数据分析工具,感兴趣的同学可以去pandas官网逛逛,下面开始介绍,如何用pandas查看每一个变量的缺失占比情况,以及绘制出变量缺失分布的柱状图。一、导包import pandas as pdimport numpy as np原创 2020-11-11 14:30:10 · 3349 阅读 · 0 评论 -
pandas分组排序取第二大的数据
Python用来做数据分析很方便,网上很多关于找数据中第二大的方法,但是大多数都是关于SQL的,于是我挑战一下用Python来做这件事(主要是SQL写的不好>_<),上代码。1、数据我是自己编的,在实际工作中应该从数据库中导入数据,如何从数据库导出数据,我之后会补充。import pandas as pddf = pd.DataFrame([ {"class...原创 2019-11-08 11:53:10 · 3952 阅读 · 1 评论 -
pandas中配置SQL Server引擎
import pandas as pdfrom sqlalchemy import create_engineUSER = ""PASSWORD = ""HOST = ""DATABASE = ""def sql_engine(): engine_str = "mssql+pyodbc://" + USER + ":" + PASSWORD + "@" + HOST + "/...原创 2019-07-17 17:27:28 · 984 阅读 · 0 评论 -
pandas中的dataframe一些总结
2019年7月10日 pandas中DataFrame的使用pandas连接SQL serverimport pymssqlimport pandas as pdconn = pymssql = ( host="", port=1433, user="", password="", database="")df = pd.read_sql(...原创 2019-07-11 17:43:52 · 1103 阅读 · 0 评论