- 博客(14)
- 资源 (1)
- 收藏
- 关注
原创 office文档元数据分析与获取实践
1、关于office元数据,百度了一圈,资料比较散,最后找到了《MSOffice系列办公文档取证分析研究》这篇文章,和我找的资料相符,这里就引用一下这篇文章里涉及的内容。2、xlsx文件的元数据比较简单,右键选择用压缩软件打开xlsx文件,在docProcs目录下可以找到core.xml文件使用python的xml库解析core.xml文件,就能获取到最后一次保存的日期import zipfileimport xml.dom.minidom as xdomimport datet.
2022-05-01 22:07:26
3139
原创 pyinstaller打包提示filenotfounderror解决方案
今天用pyinstaller打包后,执行exe提示filenotfounderror,看了一下,程序里用到了一个第三方的cpca包,缺少的是cpca包下的一个csv文件,百度了一下,找了几个方案都没有解决,最后有提到是因为pyinstaller打包时缺失文件,需要手动hook,尝试了一遍,终于成功。首先,定位到运行环境下pyinstaller目录下的hooks目录,因为我缺失的是cpca包,所以新建一个“hook-cpca.py”文件;然后,在文件下输入以下内容,第二行不加的话会提示moduleno
2022-01-23 16:31:16
2584
原创 NTFS学习笔记(2):文件记录头
$MFT是NTFS文件系统中最重要的原文件,它是NTFS文件系统中所有文件和文件夹记录的集合,在NTFS文件系统中存储的每一个文件或文件夹在$MFT元文件中都至少有1条文件记录。$MFT元文件包含的文件记录中,前16条为文件系统元文件的文件记录,17-23条为系统预留,从第24条开始才是用户文件的记录。文件记录的大小固定为1024字节,占据2个扇区。每条文件记录由记录头和若干属性组成,每条属性则又由属性头和属性体组成,并以0XFFFF作为1条文件记录的结束标志。本篇将介绍文件记录头的结构,下图是我电脑中1个
2021-12-10 09:10:47
4768
1
原创 NTFS学习笔记(1):DBR
与MBR在FAT文件系统中的作用相同,DBR在NTFS文件系统中也起着定义分区参数和引导系统的作用,本篇将介绍DBR中几个重要的参数,下图是我电脑上虚拟分区的DBR:1、0X03-0X0A,OEM标志,但是在Windows系统中一般都为0X4E544653,ASCII码显示的话就是NTFS。2、0X0B-0X0C,定义了分区中每个扇区的字节数,图示为0X0002,由于采用的是little endian,所以实际上是0x0200,转换为十进制就是512,所以图示NTFS分区的每扇区字节数就是.
2021-12-10 09:09:32
5406
原创 巧用聚合函数实现跨行数据的合并
前几天做能力验证的题,有道题要求把网页上的数据导出到csv中,实际操作过程中,把网页数据复制到Excel之后,有一列数据出现了跨行的情况,最后颇费了一点周折总算解决了,今天就在这里做一个分享。如下图,我们看到在详细信息这一列数据里,有部分数据有跨行的情况。首先我们用ffill函数,对“通道/所属账号”这一列里的数据做向下填充df1['通道/所属账号'] = df1['通道/所属账号'].ffill()然后用groupby函数把数据按“通道/所属账号”列的数据分组,和sum函数将同一组的
2021-06-24 14:49:09
259
原创 vlookup函数的Python实现
工作中,我们经常会用到vlookup函数来实现数据对碰,但是窃以为vlookup的使用体验极差,首先数据量一多的话,Excel就会死机,第二使用过程中经常会因为设置不当而出不来需要的结果,譬如绝对引用的设置...
2021-06-07 16:11:27
5663
1
原创 用to_datetime函数实现时间格式的转化
工作中,我们经常需要对Excel表格中的时间格式进行转化,但是各家YYS和YH的格式总是五花八门,用Excel进行转化总是不得心应手,可能是我不太会用吧,所以想到能不能编个python小程序实现不同
2021-06-05 14:20:22
7256
原创 Python实现130w+张图片的检索
任务说明:130w+张图片,8张excel表里记录了需要检索图片的文件名,现在需要找出对应的图片,将找出的图片按不同的excel分别保存,并且在excel里能够直接打开图片。任务分析:如果数据量不大的话,可以直接读取excel表里的文件名进行搜索保存,但这次的任务显然不合适,因为图片实在太多,所以考虑后按照以下步骤:1、遍历图片文件夹,读取文件名和文件路径,写入到csv文件中;2、使用pandas的merge函数,实现8张原始excel表与csv文件根据图片文件名的对碰;3、使用sh
2021-03-10 10:57:00
6285
20
原创 「百度飞桨领航团图像分类零基础速成营」学习笔记
一、准备数据1、建立样本数据读取路径与样本标签之间的关系。2、构造读取器与数据预处理。自定义数据读取器,继承PaddlePaddle2.0的dataset类,在__getitem__方法中把自定义的预处理方法加载进去。二、建立模型先选用比较成熟的基础模型,看看基础模型所能够达到的准确度。之后再试试模型融合,准确度是否有提升。三、应用高阶API训练模型1、定义输入数据形状大小和数据类型。2、实例化模型。如果要用高阶API,需要用Paddle.Model()对模型进行封装,如mode
2021-03-10 10:05:01
558
原创 【飞桨团】Python编程巩固——第一天预习作业
问题1编写一个程序,查找所有此类数字,这些数字可以被7整除,但不能是5的倍数,介于2000和3200之间(均包括在内)。所获得的数字应以逗号分隔的顺序打印在一行上。num_list = [num for num in range(2000, 3001) if num % 5 != 0 and num % 7 == 0]print(num_list)问题2编写一个程序,可以计算给定数字的阶乘。结果应以逗号分隔的顺序打印在一行上。num = int(input("请输入一个整数:\n"
2021-02-23 22:09:11
725
1
原创 [百度飞桨领航团零基础Python速成营]作业六易错点分析
第一题数据如下:stu1.txt 孙同学,2020-5-21,20,'男',77,56,77,76,92,58,-91,84,69,-91 stu2.txt 赵同学,2020-11-3,24,'女',65,68,72,95,-81,71,86,91,57,91 stu3.txt 王同学,2021-8-7,25,'男',87,78,90,-76,88,47,100,65,69,100 stu4.txt 李同学,2021-8-10,29,'男',92,54,85,71,-91,68,77,68,
2021-02-15 22:41:36
573
原创 [百度飞桨领航团零基础Python速成营]学习心得
有幸参加了百度飞桨领航团零基础Python速成营,也算认真地完成了每天的作业。作为一个已经毕业了十多年的中年人,并且一直以来从事的工作与编程也没啥关系,重新捡起编程,也是因为自己的爱好,或者说在工作中我发现有些工作用程序来实现更方便。之所以选了python来学,就是因为python轮子多,不需要自己造轮子,不过调包调得多了,基础就有点不牢了。我是19年年底开始自学的,断断续续地看了《Python编程快速上手——让繁琐工作自动化》和《利用python镜像数据分析》,在工作中自己也编了一些小程序来解决问题。总的
2021-02-09 14:39:30
710
原创 正则表达式在java中的一个简单应用实例
import java.io.*;import java.util.regex.*;public class Printer { public static void main(String[] args) { System.out.println("/nPlease enter the input string:/n"); BufferedReader re
2004-09-28 00:09:00
1167
原创 读完《Borland传奇》的一点感想
《Borland传奇》大概是最近读得最快的一本书了,一方面是书实在写得不错,另一方面读的时候有一种欲罢不能的感觉,迫使我一口气读了下来。读完大概有3点感受:首先,这本书写的是borland20多年的历史,其中的成功或是失败,或多或少都会给现在的我们一些启示;其次,因为borland一直致力于技术的研发,因而borland的历史也是最近20年来技术发展的历史一点反映,我个人以为通过这本书可以了解到技
2004-08-28 21:47:00
1919
10
Learning Android Forensics
2018-11-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人