python数据切割归并算法

最新推荐文章于 2024-05-30 10:17:04 发布

原创

最新推荐文章于 2024-05-30 10:17:04 发布 · 1.7k 阅读

9 ·

CC 4.0 BY-SA版权

本文介绍了如何处理大型.txt文件的排序问题，通过数据切割和归并排序策略。首先获取文件总行数，接着按需求切割数据，再对每个数据块进行排序，最后使用归并排序算法整合所有已排序的数据。

当一个 .txt 文件的数据过于庞大，此时想要对数据进行排序就需要先将数据进行切割，然后通过归并排序，最终实现对整体数据的排序。要实现这个过程我们需要进行以下几步：获取总数据行数；根据行数按照自己的需要对数据进行切割；对每组数据进行排序最后对所有数据进行归并排序。

下面我们就来实现这整个过程：

一：获取总数据的行

def get_file_lines(file_path):
    # 目标文件的路径
    file_path = str(file_path)
    with open(file_path, 'rb') as file:
        # 定义行数
        i = 0
        while True:
            # 一次读取一行数据
            line = file.readline()
            if not line :
                break
            else:
                # 每读一行，行数加一
                i += 1
            #设置进度条，每当i读取1000000行时打印一次i
            #  每当读取1000000的整数倍行时，打印行数（进度条）
            if i % 1000000 == 0:
                print(i)
        # 打印总行数
        print(i)
        return i

二：对数据进行切割

# 定义均等切割函数，num是待切割的文件的行数的值，n为切割份数,file_path是待切割的文件，file_dir是切割好的文件写入的目录
def evg_split(num, n, file_path, file_dir):
    last

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

body_builder

关注关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

4.Python高频函数—数据分割split()

rojyang的博客

06-07

1540

这里是针对dataframe 的数据的列中的字符串进行分割、分列，首先需要先用.str将这一列转换为类似字符串的格式，然后再使用split()方法。根据分隔符或正则表达式对字符串进行拆分；返回数据框（DataFrame）或者复杂索引（MultiIndel）。需求：将Anno 这一列进行拆分成：Gene Transcript Exon。4.Python高频函数—数据分割split()dataframe 数据分割split()

chatgpt赋能python：Python分割数据的完全指南

suimodina的博客

06-02

400

数据分割是将数据集划分为多个部分（通常是训练和测试数据）的过程。训练数据用于构建模型，而测试数据用于评估该模型的性能。帮助我们更好地理解数据避免过拟合确保我们创建的模型的准确性让我们能够更好地评估模型的性能本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的ChatGPT，应该选择拥抱而不是抗拒，未来属于“会用”AI的人。

参与评论您还未登录，请先登录后发表或查看评论

数据分割python

07-30

主要用于把 rawdata 随机分为train data 和test data 比例可以自己设定，简单易用。

python数据切割

hanwanbing的博客

10-02

723

数据切割

python 切割长数据，分别存入以key命名的文件，

a987929281的博客

08-15

391

content = "很长的数据在文章末尾" li = content.split('-') import time # enumerate() 会调用 id和值 1代表id从几开始 for idx, item in enumerate(li, 1): if item.strip().startswith('symbol'): # 判断以symbol开头 fil...

对python数据切割归并算法的实例讲解

12-24

Python 数据切割归并算法是一种处理大量数据的有效方法，尤其在面对无法一次性加载进内存的大文件时。本实例讲解了如何通过切割文件、对每部分数据排序，最后使用归并排序合并排序结果，以达到对整个大数据集进行...

常用数据结构和算法（python实现版）

weixin_41783242的博客

04-04

1606

【代码】常用数据结构和算法（python实现版）

python实现基数排序算法代码

最新发布

11-30

基数排序算法是一种非比较型整数排序算法，其原理是将整数按位数切割成不同的数字，然后按每个位数分别比较。具体实现时，从最低位开始，也就是个位数，然后是十位、百位等等，直到最高位。在每一趟排序中，使用的是...

chatgpt赋能python：Python分割数据

sc17332889342的博客

05-26

587

数据分割是将大型数据集分成多个较小的数据块的过程，以方便处理。数据分割可以按照不同的标准进行，如按行、按列、按文件大小等。本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的ChatGPT，应该选择拥抱而不是抗拒，未来属于“会用”AI的人。🧡AI职场汇报智能办公文案写作效率提升教程 🧡专注于AI+职场+办公方向。下图是课程的整体大纲下图是。

python列表归并教程_对python数据切割归并算法的实例讲解

weixin_34385935的博客

02-03

171

当一个 .txt 文件的数据过于庞大，此时想要对数据进行排序就需要先将数据进行切割，然后通过归并排序，最终实现对整体数据的排序。要实现这个过程我们需要进行以下几步：获取总数据行数；根据行数按照自己的需要对数据进行切割；对每组数据进行排序最后对所有数据进行归并排序。下面我们就来实现这整个过程：一：获取总数据的行def get_file_lines(file_path):# 目标文件的路径file_...

Python文件操作及多路归并排序

05-05

文本文件内容排序功能：每行是一条记录，每行可以有多列，列间按预定义的分隔符分隔；可以按单列或多列组合排序，每列的顺序可以设置为反序或者正序；列的数据类型可以是字符串、整数、浮点数，比较排序时按指定的数据类型比较大小；排序算法可以单线程执行（适用于小文件），也可以多线程执行（适用于大文件，分隔排序后再归并）；使用了如下技术要点：命令行参数面向对象字符串解析文件读取，写入多线程、线程池、队列、线程同步文件归并排序命令行说明： sort.py -i -o [-d ] [-c ] [-s ] [-t ] -i 输入源文件名 -o 输出目标文件名，如果未指定，则结果覆盖到源文件 -d 可选项，文件文本行的列分隔符，默认是空格 -c 可选项，相关排序列信息，包括列号（从1开始，按出现顺序优先级排序）、数据类型（i：整数，f：浮点数，默认：字符串）、是否反序（r），默认按第一列字符串类型正序（升序）排序 -s 可选项，源文件分段最大行数，如果不指定则单线程执行，否则多线程执行排序 -t 可选项，线程数，指定-s参数时生效，默认值：2

python使用pandas实现数据分割实例代码

12-25

本文研究的主要是Python编程通过pandas将数据分割成时间跨度相等的数据块的相关内容，具体如下。先上数据，有如下dataframe格式的数据，列名分别为date、ip，我需要统计每5s内出现的ip，以及这些ip出现的频数。 ip date 0 127.0.0.21 15/Jul/2017:18:22:16 1 127.0.0.13 15/Jul/2017:18:22:16 2 127.0.0.11 15/Jul/2017:18:22:17 3 127.0.0.11 15/Jul/2017:18:22:20 4 127.0.0.21 15/Jul/2017:18:22:21 5

【python-数据分析-numpy】叠加&切割&数组转置

一拳Marx

10-24

2351

【python-数据分析】叠加垂直叠加水平叠加叠加垂直叠加水平叠加

杜凯杰教学数据分析：python 数据提取及拆分

热门推荐

weixin_44528048的博客

06-15

2万+

K线数据提取依据原有数据集格式，按要求生成新表: 1、每分钟的close数据的第一条、最后一条、最大值及最小值， 2、每分钟vol数据的增长量（每分钟vol的最后一条数据减第一条数据） 3、汇总这些信息生成一个新表（字段名：[‘time’,‘open’,‘close’,‘high’,‘low’,‘vol’]） import pandas as pd import time start=...

Python实现文件分割功能

Aimmon

05-30

1886

效果图。

python剪辑_python实现剪切功能

weixin_39877581的博客

12-08

483

本文实例为大家分享了python实现剪切功能的具体代码，供大家参考，具体内容如下#!/usr/bin/env python#coding: utf8import sysmystr = []def inputstr():item = raw_input('Please input your string:')mystr[:] = [] #清空列表mystr.extend(item) #将输入的字符串...

使用python为POST报文做属性，属性值分割

u014608575的专栏

05-14

599

最近正在疯狂的弄python，boss最近疯狂的怼我什么语言用的熟，我说没有，全靠百度爸爸施舍些代码。boss意味深长的一笑....咳咳，又说废话了，不多说，最近在搞POST报文，这奇奇怪怪的格神奇的学会了regular expression,python的字符串各种函数和字典数据结构。以下代码就搞了一件事：输入：POST //images/pp.phpContent-Length:143输出：P...

python分割_关于算法：在python中拆分和分离

weixin_39551366的博客

11-24

391

我是Python新手，我想知道如何用逗号(,)和冒号(:)进行分割。我正在尝试加油站问题，我想从这样构建的文本文件中读取：11:1,2:2,3:3,4:4,5:5,6:6,7:7,8:8我还想打开并从文件中读取此数据并将其存储在链接列表中。到目前为止，我做到了：123456789101112131415def GasStation(strArr):strArr = []f = open('Det...

Python排序算法详细解析与汇总

基数排序是一种非比较型整数排序算法，其原理是将整数按位数切割成不同的数字，然后按每个位数分别比较。通常使用LSD（Least significant digital）进行排序，即从最低位开始进行排序。文档的【描述】和【标签】都...