
python学习——金融大数据挖掘与分析
围绕金融主题进行python相关内容学习
Ama_tor
python金融方向
展开
-
Python学习笔记(37)——用xlwings库生成excel
老规矩先pip入xlwings库。原创 2024-04-15 23:40:37 · 858 阅读 · 1 评论 -
Python学习笔记(36)——python创建‘肥兔子字符图案’Word文档
1、python-docx库的安装pip安装法:python-docx-1 · PyPI(python-docx库的官方文档网址为:python-docx — python-docx 0.8.11 documentation)2、代码练习:import docxfile=docx.Document()file.add_paragraph('◢███◣。。。。。。◢███◣')file.add_paragraph('▇▇□▇▇。。。。▇▇□▇▇')file.add_parag原创 2022-02-16 22:03:49 · 596 阅读 · 0 评论 -
python学习笔记(34)——网站文件、图片、表格的获取
运行出错小插曲:RequestsDependencyWarning:requests库版本不匹配RequestsDependencyWarning: urllib3 (1.26.8) or chardet (3.0.4) doesn't match a supported version!解决方案:1、查看requests库的版本:pip list2、卸载旧版本:pip uninstall requests3、下载最新版本:pip instsall requestsSearch res.原创 2022-02-15 21:17:39 · 755 阅读 · 1 评论 -
python学习笔记(32)——Schedule库实现每天定时喊小明吃饭
1、安装schedule库:schedule · PyPI2、代码练习:import schedule#引入schedule库import time#引入time库def eating():#定义一个执行的任务 print('你妈喊你回家吃饭')def AA(name):#定义一个执行的任务 print(name+'it is time up')name='小明'schedule.every(5).seconds.do(AA,name)#定义隔5秒运行一次代码s原创 2022-02-15 15:45:28 · 680 阅读 · 0 评论 -
PYTHON学习笔记(31)——关于smtplib库MIMEText和MIMEMultipart类的应用之自动发送邮件(html格式,有正文,有链接,有附件)
科普:MIME(Multipurpose Internet Mail Extensions)MIME(Multipurpose Internet Mail Extensions)多用途互联网邮件扩展类型。是设定某种扩展名的文件用一种应用程序来打开的方式类型,当该扩展名文件被访问的时候,浏览器会自动使用指定应用程序来打开。多用于指定一些客户端自定义的文件名,以及一些媒体文件打开方式。它是一个互联网标准,扩展了电子邮件标准,使其能够支持:非ASCII字符文本;非文本格式附件(二进制、声音、图像等);原创 2022-02-14 23:09:07 · 13749 阅读 · 2 评论 -
Python学习笔记(30)——smt库应用之自动发送邮件
1、进入邮箱开启‘POP3/SMTP’服务,并获取授权码TIPS:IMAP和POP3的区别,此处用POP3进行练习内容截取来自:IMAP和POP3有什么区别?-163邮箱常见问题2、代码练习:获取smt库自动发送邮件import smtplib#引用控制邮箱发送邮件的库from email.mime.text import MIMETextuser='##@qq.com'#定义发件人邮箱pwd='写你自己的'#QQ邮箱POP3/SMTP的授权码to='...原创 2022-02-14 17:04:31 · 737 阅读 · 0 评论 -
Python学习笔记(29)——OS库应用之遍历文件夹的pdf文件,批量解析然后归档
1、遍历文件夹的pdf文件代码练习1:获取文件夹的所有文件名import os#引用os库file_dir=r'文件夹路径'#遍历的文件夹路径for files in os.walk(file_dir):#用OS库的walk()函数遍历指定文件夹下的所有文件信息 print(files[2])#打印母文件和子文件里的各个文件信息(files[1]:子文件夹信息,files[0]:母文件夹信息)运行结果:代码练习2:进阶——仅获取pdf文件,并加入路径格式,方便下一步调取.原创 2022-02-13 19:55:07 · 3208 阅读 · 0 评论 -
Python学习笔记(28)——replace()函数遇到None值需要做特殊处理(续27提取到的表格数据做后续处理)
代码练习:import pdfplumber#引进pdfplumber库import pandas as pd#引进pandas库pdf=pdfplumber.open('绝对地址或者相对地址')#打开PDF文件pages=pdf.pages#pages属性获取所有页内容page=pages[2]#提取第三页,因为表格在第三页tables=page.extract_tables()#extract_tables()函数提取该页所有表格table=tables[0]#取第一个表格pd.se原创 2022-02-13 15:13:48 · 636 阅读 · 0 评论 -
python学习笔记(27)——pdfplumber库提取文本及表格内容基础操作
pdfplumber库安装地址:Search results · PyPI安装后pip安装即可1、提取文本:extract_text()解析文本代码练习:import pdfplumber#引进pdfplumber库#print(pdfplumber.__version__)#通过测试证明pdfplumber库安装成功pdf=pdfplumber.open('F:\\XX公告.PDF')#打开pdf文件,路径之间符号用\\pages=pdf.pages#通过pages属性获取所有页.原创 2022-02-12 22:05:58 · 6546 阅读 · 0 评论 -
python学习笔记(26)——selenium批量下载2022年理财公告pdf文件
代码练习:from selenium import webdriver#引进selinium库import timeimport re#引入re库#定义函数def cninfo(keyword): #selenium库模拟浏览器 url='http://www.cninfo.com.cn/new/fulltextSearch?notautosubmit=&keyWord='+keyword#找规律,定义网址 chrome_options=webdriver.Ch原创 2022-02-11 22:20:29 · 518 阅读 · 0 评论 -
python学习笔记(25)——cninfo网下载多页关键字公告(selenium应用)
代码练习:啰嗦解释版本from selenium import webdriver#引进selinium库import timeimport re#引入re库#定义函数def cninfo(keyword): #selenium库模拟浏览器 url='http://www.cninfo.com.cn/new/fulltextSearch?notautosubmit=&keyWord='+keyword#找规律,定义网址 chrome_options=webdri原创 2022-02-11 00:09:07 · 393 阅读 · 0 评论 -
Python学习笔记(24)——Greatchao资讯网理财公告信息的selenium挖掘
代码练习:from selenium import webdriver#引进selinium库import re#引入re库#定义函数def greatchao(keyword): #selenium库模拟浏览器 url='http://www.cninfo.com.cn/new/fulltextSearch?notautosubmit=&keyWord='+keyword chrome_options=webdriver.ChromeOptions()原创 2022-02-10 19:46:45 · 300 阅读 · 0 评论 -
python学习笔记(23)——自动化测试工具selenium库的安装及入门
1、查看自己谷歌浏览器的版本号2、安装chromedriver到python安装包的scripts文件夹里并解压cmd>>chromedriver,显示如下信息则安装成功http://chromedriver.storage.googleapis.com/index.htmlhttp://chromedriver.storage.googleapis.com/index.html3、selenium库的安装selenium · PyPIcmd>>.原创 2022-02-09 07:00:00 · 435 阅读 · 0 评论 -
python学习笔记(22)——皮尔逊相关系数运用(SciPy库)
皮尔逊相关系数:pearson correlation coefficient,也称皮尔逊积矩相关系数:pearson product-moment correlation coefficient,用来反映两个变量之间线型相关程度强弱的统计量,r的绝对值越大,相关性越强(D(x)和D(y)分别为变量X和Y的方差,COV(X,Y)为变量X和Y的协方差)python中所用到的库是SciPy库pip 安装scipy库scipy · PyPI和pearsonrSearch results · PyP原创 2022-02-08 17:12:50 · 5087 阅读 · 1 评论 -
python学习笔记(20)——数据可视化基础(matplotlib可视化库的安装及应用)
首先测试下matplotlib的版本,如果显示找不到指定模块则要重新安装,如果直接使用库,会报错没有相关模块模块版本测试代码:import matplotlibprint(matplotlib.__version__)运行结果:如果出现以下问题则根据以下情况进行安装操作根据以下情况重新安装后,重新打开pycharm或其他编辑软件重新输入测试代码,直至测试到版本则表示安装成功matplotlib库的安装:情况1:如果是anaconda安装的python,但是...原创 2022-02-08 13:57:00 · 1669 阅读 · 0 评论 -
python学习笔记(18)——Tushare库的安装及基本用法
——Tushare是一个免费、开源的python财经数据接口包:可获取即时财经新闻,类型包括国内财经、证券、外汇、期货、港股和美股等新闻信息,详情可前往官方网址TuShare -财经数据接口包toshare安装前提:安装Python 安装pandas pip install lxml pip install tushare或者pip install tushare --upgrade(一般成功) 如果行不通则卸载后再官方访问tushare · PyPI下载安装,pip uninstall t原创 2022-02-07 23:20:49 · 7245 阅读 · 1 评论 -
Python学习笔记(16)——pandas库的高级功能之数据表的拼接
1、merge()函数——根据一个或多个列将不同数据表中的行连接起来代码练习:import pandas as pd#引入pandas库df1=pd.DataFrame({'公司':['万科','阿里','百度'],'分数':[90,50,85]})df2=pd.DataFrame({'公司':['万科','阿里','京东'],'股价':[20,180,30]})#merge()函数:根据一个或多个列将不同数据表中的行连接起来df3=pd.merge(df1,df2,on='公司')原创 2022-02-07 19:12:42 · 1415 阅读 · 0 评论 -
Python学习笔记(15)——数据分析利器:numpy和pandas库的应用之Excel工作簿等文件的读取与写入、数据的读取与编辑等基本操作
代码练习:import pandas as pdimport numpy as np#文件的写入#data=pd.DataFrame([[1,2],[3,4],[5,6]],columns=['A列','B列'])#先创建一个DataFrame#data.to_excel('data01.xlsx')#将DataFrame中的数据写入Excel工作簿(已运行成功,重复运行会出错)#data.to_excel('data02.xlsx',columns=['A列'],index=False)(原创 2022-02-07 17:03:06 · 2157 阅读 · 0 评论 -
Python学习笔记(14)——Pandas库基础之二维数据表格DataFrame的创建与索引的修改
代码练习:import pandas as pdimport numpy as np#方法一:列表创建dataframea=pd.DataFrame([[1,2],[3,4],[5,6]],columns=['date','score'],index=['A','B','C'])print(a)#方法二:通过列表创建dataframeb=pd.DataFrame()#创建一个空dataFramedate01=[1,3,5]#定义列表date01score01=[2,4,6]#定义列原创 2022-02-06 22:43:26 · 3685 阅读 · 1 评论 -
python学习笔记(13)——numpy创建数组的几种方式
练习代码:import numpy as npb=np.array([1,2,3,4])print(b)#列表的展现形式print(type(b))#b的类型为数组print(b[1])#数组索引print(b[0:2])#数组的切片a=b*2#数组的数学运算print(a)c=np.array([[1,2],[3,4],[5,6]])#方式一创建二维数组print(c)e=np.arange(5)#方式二创建一维数组f=np.arange(5,10)g=np.arange(5原创 2022-02-06 16:02:47 · 2213 阅读 · 0 评论 -
Python学习笔记(12)——numpy库的安装与简单运行
先直达网址安装适合版本的numpy库numpy下载链接:numpy · PyPICMD>>F:(切换安装盘)>>切换python库的安装文件夹>>F:\python\Lib\site-packages>>pip install numpy==1.21.5(由于我的python是3.7所以不能安装最新版本)>>安装成功代码运行:import numpy as np#用np代替numpy,让代码简洁a=[1,2,3,4]b=.原创 2022-02-06 01:49:40 · 1907 阅读 · 0 评论 -
Python学习笔记(10)——舆情数据评分系统搭建
python学习笔记(10)——舆情数据评分系统搭建网络舆情是以网络为载体,以事件为核心,是广大网民情感、态度、意见、观点的表达,传播与互动,以及后续影响力的集合。 带有广大网民的主观性,未经媒体验证和包装,直接通过多种形式发布于互联网上。(来自网络百科)对于进一步筛选新闻,爬取更有用的信息,【舆情数据评分系统】是一个有用的工具文章目录python学习笔记(10)——舆情数据评分系统搭建一、舆情数据评分系统1.0——根据标题评分二、舆情数据评分系统2.0——根据正文评分三、舆情数据评分系统3.0——原创 2022-02-04 18:07:01 · 3017 阅读 · 1 评论 -
python学习笔记(9)——数据乱码的处理之重新编码和解码
代码练习:import requestsurl='https://www.baidu.com'code=requests.get(url).encoding#获取网页源代码的编码方式为ISO-8859-1res=requests.get(url).text#print(code):此时可以先运行,得出通过python获得网页源码的编码方式为:ISO-8859-1print('直接获取:'+res)try:#以下为通用代码,不够简介 res=res.encode('ISO-8859原创 2022-02-03 21:26:40 · 1492 阅读 · 0 评论 -
python学习笔记(8)——python与my SQL数据库交互の把金融数据存入数据库实操
代码练习①——爬取【阿里巴巴】一家公司的信息,并存入数据库import requests #引用requests库import re#引用re库import pymysql#引用PyMySQL库headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'}#模拟浏览器访问强求,在谷歌原创 2022-02-02 22:39:25 · 1001 阅读 · 0 评论 -
python学习笔记(7)——python与mySQL数据库的交互之用python存储数据到数据库
代码练习:#预定义变量company='阿里巴巴0202'title='测试标题0202'href='测试链接0202'source='测试来源0202'date='测试日期0202'#链接数据库import pymysqldb=pymysql.connect(host='localhost',port=3306,user='root',password='',database='pachong',charset='utf8')#通过pymysql.connect函数链接数据库,写自原创 2022-02-02 21:10:49 · 982 阅读 · 0 评论 -
python学习笔记(6)——5家公司新浪新闻挖掘练习
代码练习:import requests #引用requests库import re#引用re库headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'}#{思路4、定义函数}def sina(company): url = 'https://search.sina.原创 2022-02-02 00:20:19 · 212 阅读 · 0 评论 -
python学习笔记(4)——7家公司百度新闻5页爬取自动生成文本(运行跳过报错点,直至运行完毕)
代码练习:import requests #引用requests库import re#引用re库headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'}#模拟浏览器访问强求,在谷歌浏览器输入about:version即可获取#自定义函数,设置网址和代理def baidu(原创 2022-02-01 21:05:09 · 505 阅读 · 0 评论 -
python学习笔记(3)——24小时实时爬取数据并自动处理异常
代码练习:import requests #引用requests库import re#引用re库import time#引用time库headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'}#模拟浏览器访问强求,在谷歌浏览器输入about:version即可获取url='原创 2022-02-01 18:11:14 · 909 阅读 · 0 评论 -
python学习笔记(2)——获取多家公司的百度新闻并自动生成数据报告文本
代码练习:import requests #引用requests库import re#引用re库headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'}#模拟浏览器访问强求,在谷歌浏览器输入about:version即可获取url='https://www.baidu.co原创 2022-02-01 18:06:18 · 755 阅读 · 1 评论 -
Python学习笔记(1)——提取百度新闻标题、网址、日期和来源
1、获取网页源代码import requests #引用requests库headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'}#模拟浏览器访问强求,在谷歌浏览器输入about:version即可获取url='https://www.baidu.com/s?rtt=1&原创 2022-01-27 23:23:40 · 2801 阅读 · 1 评论 -
python学习笔记(5)——搜狗资讯数据挖掘练习
import requests #引用requests库import re#引用re库headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'}url = 'https://www.sogou.com/sogou?&interation=1728053249&qu.原创 2022-02-01 17:49:28 · 835 阅读 · 0 评论