R语言data.table分组求最小值速度太慢

最新推荐文章于 2024-11-07 15:59:42 发布

原创最新推荐文章于 2024-11-07 15:59:42 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #R语言 #数据分组

数据分析专栏收录该内容

1 篇文章

订阅专栏

本文介绍了一种在处理大数据集时的高效分组方法。通过对沈阳地铁站数据的分析，提出了先提取关键列再进行分组求最小值的策略，显著提高了处理速度。

使用的数据：

使用的数据是沈阳某天地铁站的数据，共一百万行左右，数据结构如下：

遇到的问题：

有一个步骤是需要按照属性a(card.id)和属性b(M5.in)分组，求属性c(duration)的最小值，我一开始的做法是直接分组，并求最小值，如下：

trade.metro.in.out <- inner_join(trade.metro.in, trade.metro.out, by = "card.id")

但使用这种方法，足足算了20分钟没有算出来，通过和同学讨论，发现可能是因为使用的数据列数太多导致排序过慢，所以就先把这三个属性取出来，在小数据集上进行分组，如下：

data_min <- trade.metro.in.out[, list(card.id, M5.in, duration)]
data_min <- data_min[, duration_min := min(duration), by = list(card.id, M5.in)]

发现猜想果然正确，使用这种办法瞬间就分好组了，分组结果：

然后在将分好组的数据与原数据合并便得到了想要的效果，代码如下：

trade.metro.in.out <- merge(trade.metro.in.out, data_min, all.x = TRUE, all.y = FALSE)

总结

在只针对于大数据中的几列数据操作时，如果速度太慢，应该把这几列取出来，在小数据集上操作，最后在进行合并，效果会很好。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

stable_阿甘

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

R语言计算data.table数据中指定分组变量下的计数值最小的分组（分组计数值最小）

statistics+insight+vista+power

07-08

406

R语言计算data.table数据中指定分组变量下的计数值最小的分组（分组计数值最小）

R语言进行数据分组聚合统计变换（Aggregating transforms）、计算dataframe数据的分组最小值（min）

statistics+insight+vista+power

09-11

370

R语言进行数据分组聚合统计变换（Aggregating transforms）、计算dataframe数据的分组最小值（min）

参与评论您还未登录，请先登录后发表或查看评论

R语言dplyr包进行数据分组聚合统计变换（Aggregating transforms）、计算dataframe数据的分组最小值(min)

statistics+insight+vista+power

03-07

401

R语言dplyr包进行数据分组聚合统计变换（Aggregating transforms）、计算dataframe数据的分组最小值(min)

R语言——分组求值

weixin_42437924的博客

01-06

989

R语言——分组求值分组求值的两种方法求iris数据集中的三个物种的Sepal.Length属性的平均值： aggregate > aggregate(Sepal.Length~Species,data = iris,mean) Species Sepal.Length 1 setosa 5.006 2 versicolor 5.936 3 virginica 6.588 group_by > library(tidyve

R语言计算data.table双变量分组下指定数据变量的统计值（最大值、最小值、均值）

statistics+insight+vista+power

05-27

826

R语言计算data.table双变量分组下指定数据变量的统计值（最大值、最小值、均值）

R语言 GSE文件解析

momentmobile的专栏

09-03

1257

R语言 GSE文件解析输入：GSE和GPL文件处理： 1、多个GSE文件缺失值处理 2、去批次处理 3、log2处理 4、normal处理输出：表达矩阵和批次处理前后对比图

R语言基础入门安装环境搭建装包作图基本操作

chenbeijun的博客

03-10

2395

R语言基础

hive: 优化配置及bug查询路径

皮皮blog

02-07

2368

mapper数量与输入文件的split数息息相关，在Hadoop源码org.apache.hadoop.mapreduce.lib.input.FileInputFormat类中可以看到split划分的具体逻辑。如果想增大mapper数，除了降低mapred.min.split.size之外，也可以调高mapred.map.tasks。参数mapred.min.split.size（默认值1B）和mapred.max.split.size（默认值64MB）分别用来指定split的最小和最大大小。

【R语言数据分析】基础代码查询表

小猪课堂的博客

05-10

2629

咸鱼翻身的第1天写于：北京记录：今天：2020年5月10日，也是母亲节，母亲节快乐~ 前言：由于工作的需要，我已经学习了几天的R语言了，我的工作是数据分析，有时候会用到一些计算机语言，比如Python，SQL，SAS和R语言，因为不同公司要求也是不一样的，还是那句话人为刀俎我为鱼肉，学习没有亏吃。以后我会在这篇博客下更新一些我自己在学习R语言的时候的基本函数以及我知道的技巧，如果喜欢的朋友可以关注我，喜欢的可以收藏，有问题的话给我留言一起学习~共同进步前段时间看了B站上的一个up主，她的格言很好

Vue2 - 详细实现虚拟列表前端虚拟滚动列表解决方案，支持列表动态高度不固定高度及图片视频图文异步请求加载问题，vue长列表优化之虚拟列表，解决列表DOM大量数据同时加载渲染卡顿太慢及下滑列表闪烁！

热门推荐

🏆 前端领域优质创作者

11-07

1万+

vue2，nuxt2，vue虚拟列表，用vue实现一个虚拟列表，虚拟列表每个项的高度不确定，可动态改变高度，vue虚拟滚动列表，页面数据太多加载很慢怎么办，vue长列表优化之虚拟列表实现，vue虚拟列表高度不固定，用vue实现一个虚拟列表，vue2实现不定高的虚拟列表，定高和不定高，虚拟列表非固定高度，长列表高度不一致如何实现虚拟滚动加载列表，虚拟列表有图片视频，图文列表，上万条数据同时渲染解决，长列表dom渲染太卡，列表滚动条加载超多数据，瀑布流，在Vue中如何实现列表的虚拟滚动，虚拟列表滑动白屏闪烁闪一

R语言基础：排序，平均值、最大值、最小值、求和

weixin_43520450的博客

04-03

7557

>w(list = ls()) #生成一个100元素的[-100,100]间的随机数向量，种子为23 >set.seed(23) >a<-runif(100,-100,100) #求其平均值、最大值、最小值、和 >mean(a) >max(a) >min(a) >sum(a) #对其进行排序输出 #函数及参数:sort(x,decreaing=Fal...

扫描DataTable的速度测试

jiawuxian的专栏

05-03

590

近日要做了两个小项目,都是针对大数据表(mssql 一般在千W以上)进行扫描,收集信息. 自我感觉对于全表扫描也有了小小的感觉.现将其总结于下. 功能介绍:假设内存中加载了1000条数据,仅有字段UrlPath (varchar),实现的功能等于sql语句:select urlpath,count(urlpath) from urldata group by urlpath ,勿喷,向下看.

R语言-data.table包用来加速大型数据集的加载和运算

Norah 的技术博客

07-07

2063

R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，最大的特点是快。它内部处理的步骤进行了程序上的优化，使用多线程，还有很多C编写的函数，大大加快数据运行速度。尤其当对一两百万甚至更大数据集进行修改或运算时，由于data.table直接对数据本身做运算，不创建副本，因此相较于基本的data.frame格式，data.table在面对大型数据集时，进行聚合排序以及分组运算的性能非常高！............

学习笔记（29):R语言入门基础-计算最大值与最小值

weixin_49657468的博客

11-16

2552

本课程旨在帮助学习者快速入门R语言：课程系统详细地介绍了使用R语言进行数据处理的基本思路和方法。课程能够帮助初学者快速入门数据处理。课程通过大量的案例详细地介绍了如何使用R语言进行数据分析和处理课程操作实际案例教学，通过编写代码演示R语言的基本使用方法和技巧 ...

R语言使用for语句实现循环结构、使用in关键字枚举字符串向量中的内容

omhdxgb的博客

03-03

1570

R语言使用for语句实现循环结构、使用in关键字枚举字符串向量中的内容

R语言使用max函数和min函数计算dataframe中特定两列中的最大值和最小值

statistics+insight+vista+power

05-10

1993

R语言使用max函数和min函数计算dataframe中特定两列中的最大值和最小值

使用R语言中的`min_rank()`函数计算数据框中分组数据中指定数据列最大值所在的数据行

TechRoar的博客

08-27

490

在R语言中，我们经常需要对数据进行分组和聚合操作。其中，找到每个分组中指定数据列的最大值所在的数据行是一个常见的需求。假设我们有一个包含学生姓名、科目和成绩的数据框，我们想要找到每个科目中成绩最高的学生所在的数据行。通过以上代码，我们成功找到了每个科目中成绩最高的学生所在的数据行。函数找到排名为1的数据行，即每个科目中成绩最高的学生所在的数据行。函数来找到每个科目中成绩最高的学生所在的数据行。函数计算数据框中分组数据中指定数据列最大值所在的数据行。函数可以方便地在R语言中进行分组数据的计算和筛选操作。

计算数据帧中分组的最大值（使用R语言）

TechGlide的博客

08-28

492

然后，使用summarise()函数计算每个分组的最大值，并将结果存储在max_values变量中。通过使用dplyr库中的group_by()和summarise()函数，我们可以轻松地对数据进行分组并计算每个分组的最大值。在本文中，我们将介绍如何使用R语言计算数据帧中分组的最大值，并提供相应的源代码示例。现在，我们可以使用dplyr库中的group_by()和summarise()函数来计算每个分组的最大值。group列包含分组的标识符，而max_value列包含相应分组的最大值。

在R语言中计算最大值

CyberXZ的博客

08-26

1559

在R语言中，我们经常需要计算一组数据的最大值。在本文中，我们将介绍如何使用这些函数来计算最大值，并提供相应的源代码示例。根据你的具体需求，选择合适的方法来计算最大值。无论是单个向量还是矩阵中的最大值，R语言提供了简单而强大的函数来满足你的需求。然后，我们使用pmax()函数计算了这两个向量的最大值，并将结果保存在变量。最后，我们使用print()函数打印出最大值。最后，我们使用print()函数打印出最大值。在上面的代码中，我们首先创建了一个2行3列的矩阵。的每列的最大值，并将结果保存在变量。

用matlab软件解决下列问题：设X1,X2,X3…X90全部为自变量。这90个自变量的取值范围都是0，1，2，3，4…将Excel表格11中的第1列的30个数据与X1,X2,X3…X30一一相乘，将表格11中的第3列的30个数据与X31,X32,X33…X60一一相乘，将Excel表格11中的第5列的30个数据与X61,X62,X63…X90一一相乘，并将这三个乘积相加得出目标和。用这个目标和乘以第2列的数据所得为目标价值。把第1行至第30行的目标价值相加为总目标价值。在目标和的最小值大于等于1时并且在总目标价值最大时，求所有自变量的取值。最后将这90个自变量的值输出到表格7中。用readtable解决问题，同时注意满足matlab语言

最新发布

10-20

<think>我们面对的是一个整数规划问题，需要最大化总目标价值，同时满足约束条件。问题描述： 1. 从Excel表格11中读取数据。表格包含5列，我们关注第1、2、3、5列（注意：第4列没有用到？）。 2. 自变量：90个，记为X1到X90，取值为非负整数（0,1,2,...）。 3. 计算过程： a. 对于每一行i（i从1到30）：目标和_i = (第i行第1列的值 * X_i) + (第i行第3列的值 * X_{30+i}) + (第i行第5列的值 * X_{60+i}) b. 目标价值_i = 目标和_i * (第i行第2列的值) c. 总目标价值 = 所有行（1到30行）的目标价值_i之和 4. 约束条件：对于每一行i，目标和_i >= 1 5. 目标：最大化总目标价值因此，数学模型为： max sum_{i=1}^{30} [ (A_i * X_i + B_i * X_{31+i-1} + C_i * X_{61+i-1}) * D_i ] 其中，A_i = 表格11中第i行第1列的值，B_i = 第i行第3列的值，C_i =第i行第5列的值，D_i =第i行第2列的值。约束条件：对于每个i，A_i * X_i + B_i * X_{31+i-1} + C_i * X_{61+i-1} >= 1 且自变量X_j (j=1,...,90)为非负整数。注意：由于自变量数量较多（90个），且为整数规划问题，我们可以使用MATLAB的优化工具箱，特别是intlinprog函数（用于混合整数线性规划）。但是，注意目标函数和约束条件都是线性的，因此可以建模为整数线性规划问题。然而，目标函数是二次的（因为包含自变量的乘积：目标和_i * D_i，而目标和_i是线性组合，再乘以D_i（常数）后，整体是线性的？实际上，目标价值_i = (A_i*X_i + ...)*D_i，而D_i是常数，所以目标函数关于自变量是线性的。约束条件也是线性的。因此，我们可以将问题写成线性整数规划的形式。步骤： 1. 读取Excel表格11的数据，使用readtable函数。 2. 提取需要的数据列：第1列（A）、第2列（D）、第3列（B）、第5列（C）。 3. 构建优化模型的目标函数系数向量f。由于总目标价值是各目标价值_i的和，而目标价值_i = D_i * (A_i*X_i + B_i*X_{31+i-1} + C_i*X_{61+i-1})。将目标函数按自变量展开： f = [A_1*D_1, A_2*D_2, ..., A_30*D_30, 0,...,0, B_1*D_1, B_2*D_2, ..., B_30*D_30, 0,...,0, C_1*D_1, C_2*D_2, ..., C_30*D_30] 注意：90个自变量的顺序是X1,...,X90。其中，X1到X30的系数：A_i * D_i (i=1..30) X31到X60的系数：B_i * D_i (i=1..30) 但是注意这里X31对应i=1，所以位置在31，系数为B_1*D_1，而X32对应i=2，系数为B_2*D_2，...，X60对应i=30，系数为B_30*D_30 X61到X90的系数：C_i * D_i (i=1..30) 同理。因此，我们可以构造一个长度为90的向量f，其中： f(1:30) = A .* D; % A和D都是30维向量，逐元素相乘 f(31:60) = B .* D; f(61:90) = C .* D; 注意：这里我们要求最大化总目标价值，而intlinprog默认是求最小化。因此，我们需要将目标函数取负，即求min -f'*x。 4. 约束条件：对于每一行i，要求：A_i*X_i + B_i*X_{31+i-1} + C_i*X_{61+i-1} >= 1 写成矩阵形式：共有30个不等式约束。约束矩阵Aineq：30行90列。对于第i行约束： Aineq(i, i) = A_i （对应X_i） Aineq(i, 30+i) = B_i （对应X_{31+i-1}，即X_{30+i}，注意i从1到30，所以30+i范围是31到60） Aineq(i, 60+i) = C_i （对应X_{61+i-1}，即X_{60+i}，范围61到90）其余元素为0。因此，我们可以构建Aineq（30×90）和bineq（30×1，每个元素都是1），并且是不等式约束（>=1），在MATLAB中表示为Aineq*x <= bineq？注意：我们需要的是>=1，所以可以转化为：-Aineq*x <= -1。也可以直接使用Aineq*x >= bineq，但在intlinprog中只支持Aineq*x <= bineq，所以我们需要写成：-Aineq*x <= -1。 5. 自变量的上下界：由于取值为非负整数，所以下界为0（没有上界，但实际我们可以设置一个较大的上界，比如10000，或者不设置，用空矩阵表示无上界）。 6. 整数约束：所有90个自变量都是整数，因此intcon=1:90。 7. 使用intlinprog求解： [x, fval, exitflag] = intlinprog(f, intcon, Aineq, bineq, Aeq, beq, lb, ub) 其中，f是目标函数系数（注意我们要求最小化，所以传入的是负的目标系数，即-f？不对，我们要求最大化f'*x，等价于最小化-f'*x。因此，我们实际传入的目标函数系数为-f。具体参数设置： f: 传入 -f_vector （因为要求最大化，所以取负） intcon: 1:90 Aineq: 负的约束矩阵（因为约束是Aineq*x>=1，等价于 -Aineq*x<=-1），所以Aineq参数设置为 -Aineq_matrix（即负的原始约束矩阵），bineq设置为 -ones(30,1) （即-1）或者：我们也可以构建Aineq_matrix，然后设置Aineq=-Aineq_matrix, bineq=-ones(30,1) Aeq, beq: 等式约束，这里没有，用空矩阵[] lb: 长度为90的零向量 ub: []（表示无上界，或者可以设置为inf(90,1)） 8. 求解后，将得到的自变量值写入Excel表格7。注意：由于自变量数量多，整数规划可能求解时间较长。如果问题规模太大，可能需要考虑启发式算法（如遗传算法），但这里我们先用整数规划。步骤代码框架： 1. 读取数据 data = readtable('表格11.xlsx'); % 假设文件在当前目录，注意工作表名称为'Sheet11'？需要确认表格名称。这里假设文件名是'data.xlsx'，工作表名称为'Sheet1'（根据实际情况调整） % 提取列：第1列、第2列、第3列、第5列 A = data.(1); % 或者根据列名，比如如果第一列列名为'Col1'，则用data.Col1 D = data.(2); B = data.(3); C = data.(5); 2. 构建目标函数系数向量f_vector f1 = A .* D; % 对应X1到X30 f2 = B .* D; % 对应X31到X60 f3 = C .* D; % 对应X61到X90 f_vector = [f1; f2; f3]; % 注意：f1,f2,f3都是列向量，所以垂直拼接 3. 构建约束矩阵Aineq_matrix（30×90） Aineq_matrix = zeros(30, 90); for i = 1:30 Aineq_matrix(i, i) = A(i); % X_i的系数 Aineq_matrix(i, 30+i) = B(i); % X_{30+i}的系数 Aineq_matrix(i, 60+i) = C(i); % X_{60+i}的系数 end 4. 设置约束：Aineq_matrix * x >= 1 等价于 -Aineq_matrix * x <= -1 Aineq = -Aineq_matrix; bineq = -ones(30,1); 5. 自变量设置 intcon = 1:90; lb = zeros(90,1); ub = []; % 无上界 6. 调用intlinprog options = optimoptions('intlinprog', 'Display', 'off'); % 不显示求解过程 [x, fval, exitflag] = intlinprog(-f_vector, intcon, Aineq, bineq, [], [], lb, ub, options); 注意：由于我们取负，所以最终的最大总目标价值为 -fval（如果求解成功）。 7. 检查exitflag，若大于0则表示找到最优解。将解向量x（90维）写入Excel表格7。 8. 写入Excel % 创建一个90行1列的数据，或者按需要组织 result_table = table(x); writetable(result_table, '表格7.xlsx', 'Sheet', 'Sheet7'); % 假设输出到表格7的工作表Sheet7 注意：如果工作表不存在，可能需要先创建。或者使用xlswrite（旧版本）或writetable（新版本）会自动创建。但是，我们输出的x是一个90×1的列向量，而题目要求输出90个自变量的取值。所以直接输出即可。可能的问题：如果数据量较大，整数规划求解可能较慢。如果求解时间过长，可以考虑设置一个较小的上界（比如根据实际情况，自变量不会超过某个值），或者使用启发式算法（如遗传算法ga，但ga可能不能保证最优解）。另外，注意检查数据中是否有负数。因为如果数据有负数，可能会影响约束条件和目标函数。根据问题描述，数据应该都是非负的（因为第1、3、5列是系数，第2列是乘以目标和的，如果为负则目标价值可能为负，但约束条件要求目标和>=1，所以第2列即使是负的，模型也成立，但目标函数最大化时，由于目标价值_i可能是负的，我们就会希望这些负的目标价值_i尽可能大（即绝对值尽可能小），但注意约束条件必须满足。不过，问题没有说明数据的正负，我们假设数据都是非负的。如果数据有负数，上述模型仍然成立，但整数规划可能没有可行解（比如某个约束条件中，A_i, B_i, C_i都是负数，那么目标和_i>=1就不可能满足，因为自变量非负，乘积为负）。所以需要确保数据满足存在可行解。下面给出完整代码，假设数据文件名为'data.xlsx'，工作表名为'Sheet11'（根据实际调整） </think>### MATLAB整数规划求解Excel数据优化问题我将使用`readtable`读取Excel数据，构建整数规划模型，使用`intlinprog`求解，并将结果写入指定表格。以下是完整解决方案： #### 1. **数据准备与读取** ```matlab % 读取Excel表格11的数据（假设文件名为data.xlsx） data = readtable('data.xlsx', 'Sheet', 'Sheet11'); % 提取所需列数据 col1 = data{1:30, 1}; % 第1列30个数据 col2 = data{1:30, 2}; % 第2列30个数据 col3 = data{1:30, 3}; % 第3列30个数据 col5 = data{1:30, 5}; % 第5列30个数据 ``` #### 2. **构建优化模型** ```matlab %% 目标函数系数 (最大化总价值 → 最小化负价值) f = -[col1.*col2; % X1-X30系数 (A_i*D_i) col3.*col2; % X31-X60系数 (B_i*D_i) col5.*col2]; % X61-X90系数 (C_i*D_i) %% 约束条件: 每行目标和 ≥ 1 Aineq = -[diag(col1), zeros(30), zeros(30); % X1-X30约束 zeros(30), diag(col3), zeros(30); % X31-X60约束 zeros(30), zeros(30), diag(col5)]; % X61-X90约束 bineq = -ones(90, 1); % 90个不等式约束右侧项 %% 变量设置 intcon = 1:90; % 所有变量为整数 lb = zeros(90, 1); % 下限为0 ub = []; % 无上限 ``` #### 3. **求解整数规划** ```matlab options = optimoptions('intlinprog', 'Display', 'final'); [x, fval, exitflag] = intlinprog(... f, intcon, Aineq, bineq, [], [], lb, ub, options); if exitflag > 0 disp('找到最优解!'); total_value = -fval; % 转换回最大化问题的值 fprintf('总目标价值: %.2f\n', total_value); else error('未找到可行解'); end ``` #### 4. **结果输出到Excel表格7** ```matlab % 将解向量转换为表格 result_table = table(x, 'VariableNames', {'自变量取值'}); % 写入Excel writetable(result_table, 'data.xlsx', ... 'Sheet', 'Sheet7', ... 'WriteMode', 'overwritesheet'); disp('结果已写入表格7'); ``` ### 关键数学模型说明 1. **目标函数** 最大化总价值： $$\text{max} \sum_{i=1}^{30} \left[ (A_i X_i + B_i X_{30+i} + C_i X_{60+i}) \cdot D_i \right]$$ 等价于最小化： $$\text{min} -\sum_{i=1}^{30} \left[ (A_i D_i) X_i + (B_i D_i) X_{30+i} + (C_i D_i) X_{60+i} \right]$$ 2. **约束条件** 对每个$i\in[1,30]$： $$A_i X_i + B_i X_{30+i} + C_i X_{60+i} \geq 1$$ 其中$A_i, B_i, C_i$为数据列，$D_i$为权重列[^1] 3. **整数约束** $$X_j \in \mathbb{Z}^+ \quad (j=1,2,...,90)$$ ### 注意事项 1. **数据验证**：确认Excel中`Sheet11`包含至少5列数据 2. **求解时间**：90变量整数规划可能耗时较长，可设置上界加速： ```matlab ub = 10*ones(90,1); % 假设最大值不超过10 ``` 3. **异常处理**：添加数据校验避免负系数导致无解 ```matlab if any(col1<0) || any(col3<0) || any(col5<0) error('存在负系数，可能导致无可行解'); end ``` > 💡 **技巧**：使用`optimoptions('intlinprog','Heuristics','advanced')`可加速大规模整数规划求解[^4]