- 博客(35)
- 收藏
- 关注
原创 pandas数据过滤
Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。创建一个包含 Name, Age, Score 的 DataFrame,并筛选出 Age 大于 30 的行。使用布尔索引筛选出 Name 为 ‘David’ 或 ‘Eva’ 的行。方法筛选出 Score 大于 85 且 Age 小于 30 的行。方法筛选 Name 中包含字母 ‘e’ 的行。方法允许使用 SQL 风格的语法进行筛选。可以使用布尔索引来根据条件过滤行。方法用于筛选列中包含特定值的行。来筛选包含缺失值或非缺失值的行。
2024-09-08 23:46:25
502
原创 【无标题】
使用df.plot()方法可以轻松绘制多种类型的图表。常用的图表类型包括折线图、柱状图、饼图、散点图等。可以通过设置kind参数选择图表类型。结合seaborn可以绘制更复杂的图表,如热图和散点图矩阵。这些操作可以帮助您有效地可视化数据,以便进行分析和决策。以下是20个使用Pandas绘制图表的案例,包括虚拟数据和相应的代码示例。
2024-09-02 01:26:02
957
原创 多步多变量时间序列问题
这样的问题很常见,例如预测未来几天的温度、湿度、降雨概率等变量。要解决这类问题,需要建立能同时捕捉多个变量之间相互依赖关系的模型。
2023-09-06 16:03:41
452
原创 (1)强化学习基本概念
智能体选择动作的策略或行为准则。既可以是确定性策略,也可以是概率分布策略。智能体生存和行动的外部世界,可以是真实物理世界,也可以是虚拟环境。在环境中进行观察,作出决策并执行动作的主体,其目标最大化累计奖励。例如:国际象棋中棋盘状态,包括每个棋子所在为位置。–环境具体例子:棋盘、迷宫、游戏场景等都是环境。例如:吃掉一个棋子获得1分,被吃得-1分。与环境交互后,对智能体给予的评价反馈。例如:下棋程序、机器人等都是智能体。智能体可以在环境执行的可操作行为。描述只智能体和环境的配置信息。
2023-08-28 18:26:07
286
原创 batchsize对loss下降影响
降低批量大小(batch size)可能会导致训练的某些方面在第一个epoch中产生更快的下降,尤其是当模型在较大的批量中遇到了一些难以收敛的样本或模式时。
2023-08-11 10:00:51
636
原创 特征选择方法
皮尔逊相关系数是一种最简单的,能帮助理解特征和相应变量之间关系的方法,衡量变量之间的线性相关性,结果取值区间为[-1,1]。缺点,它只对线性关系敏感,两个变量之间具有相对应关系。如果协方差结果为正,说明变量之间同向变化,越大说明同向程度越高;原理:先使用算法模型进行训练,得到各个特征的权值系数(通过模型训练出来的),对权值系数从小到达排序,选择特征。注:Pearson是协方差的标准化计算方式,其消除了两个变量之间变化幅度的影响。原理:根据目标函数,每次选择若干特征,或排除若干特征。Pearson相关系数。
2023-05-12 14:46:37
200
原创 特征工程之特征衍生
单变量特征衍生解释:只需要带入单独一个变量进行组合常用方法数据重编码连续变量数据重编码.标准化:0-1标准化/z-score标准化.离散化:等距分箱 、等频分箱 、聚类分箱离散变量数据重编码.自然数编码、字典编码.独热编码高阶多项式该列数据,二次方到高次方等双变量特征衍生1.要点:两两特征进行组合衍生2.常用方法(1)四则运算特征衍生根据对业务字段理解,取部分两字段,这些字段对多数为连续型字段进行四则运算。(2)交叉组合交叉组合类似于逻辑判断条件的与或非的逻
2023-05-11 10:28:30
690
原创 数据处理之缺失值处理
(1.2)分层均值,众数、分位数填补(分层需要聚类,需要对聚类方法进行评估)(1.1)利用均值、众数、分位数填补(需要查看填补后,数据分布是否一致)拟合插补(KNN,随机森林),多重插补(miceforest)2.niceforest多重插补。分层均值,众数,最近邻插值法。均值,中位数,随机插值法。(2.2)最近邻插补。(2.3)序贯插补法。
2023-05-10 17:38:26
529
原创 window下conda创建虚拟环境,安装torch,jupyter加载虚拟环境
window下conda创建虚拟环境,安装torch、tensorflow,jupyter加载虚拟环境
2023-01-15 00:13:51
1739
原创 【知识图谱】
2.根据头尾实体添加关系,因为书籍内容存在比较明显关系,主要关系:参考值;2.ORC工具生成文档数据,直接导入到Typora,然后导入数据设定不同类型标题,设定标题根据抽取数据结构而定,具体下图2所示。1.根据正则表达式处理后,可以获得数据格式 “头实体|尾实体”,下面主需要做一下简单拆分,就可以分别获得头尾实体。3.将Typora中数据导出html格式,此时数据将是网页数据,便于后续数据利用正则表达式进行处理。1.利用正则表达式对DataFrame格式每一列数据进行处理,抽取我们希望抽取的实体。
2022-11-09 21:26:25
1103
原创 2021-01-04
python的all() 函数all(iterable)床底all()是一个迭代对象,迭代对象全是True,返回结果才为True。否侧为false。if all(abs(val_arr2-val_arr1) > d for val_arr2 in arr2 ):class Solution: def findTheDistanceValue(self, arr1: List[int], arr2: List[int], d: int) -> int: res
2021-01-04 13:49:38
80
转载 2020-12-22
pandas 索引1.表的索引 列索引是最常见的索引形式,一般通过 [] 来实现。通过 [列名] 可以从 DataFrame 中取出相应的列,返回值为 Series ,例如从表中取出姓名一列:In [3]: df = pd.read_csv('data/learn_pandas.csv', ...: usecols = ['School', 'Grade', 'Name', 'Gender', ...:
2020-12-22 20:40:30
436
转载 2020-12-20
复杂数据库的查询1.如何创建视图1.创建视图的基本语法如下:其中SELECT 语句需要书写在 AS 关键字之后。 SELECT 语句中列的排列顺序和视图中列的排列顺序相同, SELECT 语句中的第 1 列就是视图中的第 1 列, SELECT 语句中的第 2 列就是视图中的第 2 列,以此类推。而且视图的列名是在视图名称之后的列表中定义的。需要注意的是视图名在数据库中需要是唯一的,不能与其他视图和表重名。视图不仅可以基于真实表,我们也可以在视图的基础上继续创建视图。虽然在视图上继续创建视图
2020-12-20 20:51:45
131
转载 2020-12-19
Pandas基础一、文件读取pandas可以读取文件格式有很多种,但需要熟练使用三种df_csv = pd.read_csv( ‘data.csv’)df_table = pd.read_table(‘table.txt’)df_excel = pd.read_excel(‘excel.xlsx’)注意:读取时,由于文件数据索引或列名问题,常常需要设置 header = None 第一行不做列名。inde_col 设置想要列为索引。nrows 设置读取行数。In [10]: pd.read_t
2020-12-19 17:35:54
210
1
转载 2020-12-17
Task 02:基础查询与排序 **一、从数据库的表中选取数据** 1.select语句 select <列名> from <表名>; 从指定表中选出指定列的数据。 2.选取符合条件数据 select <列名> ,.... from <表名> where <条件表达式>;
2020-12-17 21:17:58
116
原创 2020-12-15
python基础知识 一 Pyhton 基础 1.使用单个for 循环生成列表 list = [ i for i in range(5) ] #使用循环表达式生成列表 2.使用多个for循环生成列表 list = [m +'_'+n for m in [ 'a ', 'b'] for n in [ 'c','d']] 3.匿名函数方法 [ la
2020-12-16 20:47:36
152
1
原创 xyh
初识数据库1.1初识数据库数据库,简单理解就是用来存数据。复杂点理解,就是对存储数据进行增、删、改、查的仓库,方便计算机进行调用的集合。这个数据集合称为数据库(Database,DB)。而用来管理数据库的计算机系统称为数据库管理系统(Database Management System,DBMS)1.1.1 DBMS的类别依据DBMS保存格式可以分为5类1.Oracle Database :甲骨文的关系型数据库2.SQL Server :微软的关系型数据库3.DB2 : IBM的关系型数据库
2020-12-15 17:11:01
189
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人