
公司年报文件自动化处理
年度报告、招股说明书等公告财务数据的爬取、转化、整理等。
圣道寺
方今之节,纯艳无界。她是年少的红玫瑰,也是时光的白莲花,盛开在你最得意也是最伤心的日月同辉里。一朵如此,千万朵亦如是,你弯腰既无法成为花匠,便为她寻那肥沃的土壤。如微风拂过脸庞,将心事带向远方。
比起阴暗潮湿脏乱的出租屋和压在她身上满嘴烟味的臭男人,干净整洁的校园是唯一让人感到童话和梦想还存在的地方,同一张皮遮住了多少的不同,你和我都是舞台上的笑容。
心中有千万人,虽一人前行,亦有如千万人同往。
躲天意,避因果,诸般枷锁困真我;顺天意,承因果,今日方知我是我;一朝悟道见真我,何惧昔日旧枷锁,世间枷锁本是梦,无形无相亦无我。
我观观音观自在,我见真武见真我。解开昔日旧枷锁,今日方知我是我。
展开
-
python-docx:将excel爬取题库转化为word格式便于浏览
新的改变代码实例。原创 2023-07-03 14:46:28 · 1061 阅读 · 0 评论 -
正则匹配提取文档各级标题--标题提取
从政府报告等文档中直接提取标题复制到xmind思维导图中。exec内的赋值是局部变量。修改list勾选标题格式。中文标点需要单独转码匹配。原创 2023-05-18 17:14:37 · 814 阅读 · 0 评论 -
巨潮PDF年报下载02——迅雷API批量下载
目录说明代码说明下载路径分开保存的一种方法:如何使用python批量下载-用Python调用迅雷实现后台批量下载还是要手动确认保存感觉有点不够方便代码from win32com.client import Dispatch#pip install win32compat#pip install pywin32import osimport reimport openpyxlimport timedef xunlei(url, downpath,filename): #运行之前原创 2022-04-14 12:20:16 · 2157 阅读 · 0 评论 -
巨潮PDF年报下载01——python request库
【代码】巨潮PDF年报下载01——python request库。原创 2022-04-16 20:03:01 · 3841 阅读 · 0 评论 -
python文件处理日志
python日志:去掉noteexpress导出参考文献题录的空格原创 2022-01-13 13:44:39 · 248 阅读 · 0 评论 -
Python:使用wps缓存值保存excel公式值
data_only==True 返回None值由于excel公式计算规则复杂,因而第三方无法独立计算公式生成的值,需要有缓存数据,这之前需要用excel或者wps等软件打开再保存会有缓存值。安装pywin32调用wps报错,安装调用excel更好一些,然而运行时打开的文件在wps中闪现似乎匪夷所思。import osimport openpyxlimport refrom win32com.client import Dispatchdef just_open(filename):#解决值丢原创 2021-12-24 19:19:49 · 1000 阅读 · 0 评论 -
UIbot学习笔记:通过分隔符拆解实现按行读取txt文件
Dim sRet//sRet = File.Read('''C:\Users\huang\Desktop\搜索关键字.txt''',"utf-8")Function file_readline(path,nline,sCharset='utf-8') Try Dim sText= File.Read(path,sCharset) dim arrText = Split(sText,"\n") Dim nLines = UBound(arrText原创 2021-12-19 14:48:33 · 1303 阅读 · 0 评论 -
uibot小作业:检测并输出在科创板审核网站无法搜索到有关公司的证券简称
目录知识点代码块知识点1、txt文件读取,分行遍历2、浏览器调用3、JS调用:获取对象及其文本Tips:console测试JS;源代码中不含动态元素;代码块function(){x=document.getElementById("zeroRecordDiv_stock_list")if (x!=null){return x.textContent}else{return null}}//sRet = File.Read('''C:\Users\huang\Desktop\搜索原创 2021-12-19 23:23:46 · 188 阅读 · 0 评论 -
年报文本分析:jieba词频统计
目录添词、计数特定章节选取添词、计数import osimport reimport timeimport mathimport openpyxlimport fitzimport jiebaimport jieba.analysefrom collections import Counter'''使用Python操作PDF:常用PDF库总结 - 知乎https://zhuanlan.zhihu.com/p/352722932'''def pdr_reader(file):原创 2022-05-18 13:38:01 · 2044 阅读 · 0 评论 -
正则匹配:用Python将复制到txt中的stata结果保存到Excel中
待解决的问题1、re.match,re.findall 不可用2、迭代变量第二次循环没有被执行import osimport openpyxlimport reinput= r'D:\Users\Desktop'os.chdir(input)output='表单.xlsx'if output in set(os.listdir()): os.remove(output)file='新建文本文档.txt'f=open(file,'r')mybook = openpyxl.Wor原创 2022-01-04 00:26:07 · 711 阅读 · 0 评论 -
(连载)用python在excel中对财务报表项目进行提取和计算
目录作者的话代码示例作者的话基本思路:用name代表科目名称,后面贴一个数字代表不同年份,因为需要截取的数据不同,后缀的年份长度有变化。exec()语句不同于宏定义,在自定义函数内使用会报错,所以这里只用了一个循环语句。反思:这里提交的代码是半成品,没有准确和完整实现要求,但是基本方法成型;我觉得需要人工浏览并且修改和统一每一张报表的格式便于代码操作,这是不可省略的努力,否则代码的错误只会使人更加心疲。代码示例import osimport openpyxlimport reinput=原创 2021-12-14 11:35:41 · 2626 阅读 · 0 评论 -
(连载1.2)招股说明书提取报表的可行方法
目录背景说明代码实现背景说明承接上一篇用直接从pdf提取的论文,运行后发现pdf文件处理时间过长且有些文件提取错误。各公司文本内容形式和文件格式的可转化性各不相同,同一代码外推适用性较差。改进思路:用acrobat的pdf格式转换是最佳选择。结合使用按键精灵脚本,依次用home,end,pageup,pagedown作为快捷键调用,每个pdf分五六步人工半自动操作对报表部分进行页面提取单独保存。运用按键精灵全自动操作讲pdf通过acrobat转化为word文档。对word文档进行代码转换的效率比较原创 2021-12-13 08:43:18 · 918 阅读 · 0 评论 -
(连载0.1)实践报告:在深度系统用Python3对上市公司年度报告财务报表进行提取
一些必要的前期工作上市公司的年度报告在证交所网页下载pdf(厉害的同学可以尝试使用爬虫)使用Acrobat R``eader DC进行pdf格式转化(在Windows虚拟机环境下)打开word(Ctrl+H查询命令定位“合并资产负债表”,Ctrl+Shift+Home选中删除前面部分,Ctrl+Shift+End选中后面部分Delete删除)安装docx、openpyxl模块运行代码s...原创 2020-01-04 19:33:59 · 2970 阅读 · 0 评论 -
(连载0.2)加强版Python提取上市公司年报报告中财务报表
新的改变我的开篇博客给出了需要更多手动操作的简化版:续篇的重要改进主要有:采用了函数的形式,便于参数的输入以及反复调用;考虑到不同公司财务报表第一行标题的差异,建立了一个集合用于判断;新的改变在之后的文章里,将会上传提供一系列财务分析指标,企业估值,资本成本计算等一站式服务的Excel模板以及相应数据录入和处理的代码。"""TabFromDocx上市公司财务报表提取"""imp...原创 2020-01-08 23:47:41 · 7229 阅读 · 6 评论 -
(连载1.1)从招股说明书pdf文件中批量提取财务报表数据
这里写自定义目录标题背景说明阅读代码时注意点背景说明本文选取的是当前日期上交所科创板所有的上市公司样本。用八爪鱼从上交所公告页面爬取公告下载链接,使用迅雷批量下载。阅读代码时注意点流程思路:1、通过文本识别锁定报表页码区间。2、提取该区间所有表格保存在sheet表中。3、继续依靠表尾文本识别,分割sheet表保存到三个表页中。注意点:1、由于同一张报表跨页所以含“项目”的表头出现了不止一次,通过条件筛选直接跳过这一行的输出。2、PyPDF2对中文支持不好,所以选用了pdfplumber原创 2021-12-11 12:39:49 · 2562 阅读 · 0 评论