
python
python
w.ang.jie
“在广袤的空间和无限的时间中,能与你共享同一颗行星和同一段时光是我的荣幸。”——卡尔.萨根《宇宙》
展开
-
PYTHON pdf根据指定页数生成新文件
from PyPDF2 import PdfFileReader ,PdfFileWriter# 提取PDF文件if __name__ == "__main__": pdffile=test.pdf' reader=PdfFileReader(pdffile) writer=PdfFileWriter() # 开始和结束的页面号 start=134 stop=260 # 生成新的pdf文件 with open('new.pdf','wb')原创 2021-06-23 16:16:43 · 512 阅读 · 0 评论 -
python转换doc文档为docx格式后,提取文档段落内容后保存
python转换doc文档为docx格式后,提取文档段落内容后保存#导入所需库from docx import Documentimport osimport docximport win32com.client as wc #文件地址后的/不能省略filePath = "C:/Users/现有数据字典/"word = wc.Dispatch("Word.Application")os.chdir(filePath)for root, dirs, files in os.walk(r原创 2021-05-10 16:04:05 · 466 阅读 · 0 评论 -
python词频统计(re和jieba模块的使用),获取词频TOP50的词组
参考https://www.jianshu.com/p/28718ba04bc9?from=groupmessagehttps://blog.youkuaiyun.com/qq_32392597/article/details/96147620爬虫内容对应于代码# -*- coding: utf-8 -*-# import requestsimport refrom bs4 import BeautifulSoupfrom urllib.request import urlopenimpor原创 2021-03-15 17:20:09 · 1391 阅读 · 2 评论 -
python安装django-auth-ldap报错fatal error: sasl/sasl.h: No such file or directory
python安装django-auth-ldap报错内容:根据报错提示,应该要安装python-ldap;安装python-ldap还是报错:参考:apt-get install libsasl2-dev安装libsasl2-dev,再安装python-ldap,最后安装django-auth-ldap,成功。原创 2021-01-02 11:16:23 · 1384 阅读 · 0 评论 -
pycharm 出现 Try to run this command from the system terminal. Make sure that you use the correct vers
在pycharm上install模块时,报错由于我配置的是远程服务器接口,根据网上的方法在~/.pip/pip.conf文件上添加镜像源,然并。。。没啥用。后来在file–settings–project–project interpreter中修改下载repository...原创 2021-01-01 16:20:55 · 2224 阅读 · 0 评论 -
Oracle 数据的导入导出(数据泵&EXPDP&IMPDP、python脚本&sqlldr)
文章目录数据泵导出导入EXPDP导出导出表导出方案中的对象导出表空间导出整个数据库导出对象中的数据条件导出IMPDP数据导入导入schema所有对象导入表空间所有对象导入全数据库数据泵导出导入EXPDP导出数据:将数据库对象的表、用户方案、表空间、空间数据导出到转储文件中。EXPDP是服务端工具,客户端无法使用。IMPDP导入工具:将转储文件中的元数据及其数据导入到Oracle数据中...原创 2020-08-21 10:07:27 · 1193 阅读 · 0 评论 -
EXCEL文件导入Oracle(python脚本导入)
直接上代码# encoding=gbkimport cx_Oracleimport csvimport xlrdimport osimport reclass ImportOracle(object): def inoracle(self): pass def ConnOracle(self): conn = cx_Oracle.connect('user/password@orcl') cursor = conn.curso原创 2020-08-10 23:14:13 · 1415 阅读 · 0 评论 -
python爬虫《向往的生活》豆瓣短评,来看看Henry大华的路人评价变化~
文章目录1 接口请求1.1 确定接口地址1.2 封装接口请求1.3 循环调用接口2.处理数据2.1 解析网页返回结果2.2 保存数据2.2.1 保存至 txt文件2.2.2 保存至 csv文件2.2.3 保存至MySQL数据库1 接口请求1.1 确定接口地址因为只有四个接口需要访问,且无规律,直接找到写入templateurl数组中#获取url templateurl = ['https://movie.douban.com/subject/26873657/comments?start原创 2020-05-09 17:53:54 · 824 阅读 · 0 评论 -
python数据清洗之学习总结--目录
1. 数据获取,使用read_csv或者read_excel2. 数据探索,使用shape,describe或者info函数3. 行列操作,使用loc或者Iloc函数4. 数据整合5. 数据类型转换6. 分组汇总,对数据进行各个维度计算7. 处理重复值、缺失值、异常值,数据离散化原创 2020-03-23 00:23:24 · 1025 阅读 · 0 评论 -
python数据清洗之学习总结(六、数据清洗之数据预处理)
文章目录1.重复值处理1.重复值处理数据清洗一般先从重复值和缺失值开始处理重复值一般采取删除法来处理 但有些重复值不能删除,例如订单明细数据或交易明细数据等...原创 2020-03-10 23:04:31 · 2181 阅读 · 0 评论 -
python数据清洗之学习总结(五、数据清洗之数据统计)
文章目录1.数据分组运算2. 聚合函数使用3. 分组对象与apply函数4. 透视图与交叉表透视图交叉表用于计算分组频率1.数据分组运算使用groupby方法进行分组计算,得到分组对象GroupBy语法为df.groupby(by=)分组对象GroupBy可以运用描述性统计方法, 如count、mean 、 median、 max和min等2. 聚合函数使用对分组对象使用agg...原创 2020-03-01 23:15:12 · 1212 阅读 · 0 评论 -
python数据清洗之学习总结(四、数据清洗之数据转换)
文章目录1.日期格式数据处理2.高阶函数数据处理3. 字符串数据处理1.日期格式数据处理Pandas中使用to_datetime()方法将文本格式转换为日期格式dataframe数据类型如果为 datetime64/timedelta64,可以使用dt方法取出年月日等对于时间差数据,可以使用timedelta函数将其转换为指定时间单位的数值时间差数据,可以使用dt方法访问其常用属性...原创 2020-03-01 16:51:21 · 830 阅读 · 0 评论 -
python数据清洗之学习总结(三、数据清洗之数据表处理)
文章目录1.数据常用筛选方法2.在数据中,直接添加列3. 数据的修改和查找4. 数据整理4.1 pd.concat4.2 pd.merge5.层次化索引1.数据常用筛选方法在数据中,选择需要的行或者列基础索引方式,就是直接引用ioc [行索引名称或者条件,列索引名称或者标签]iloc [行索引位置,列索引位置] 注意, 区分loc和iloc2.在数据中,直接添加列使用df...原创 2020-02-22 12:26:20 · 955 阅读 · 0 评论 -
python数据清洗之学习总结(二、数据清洗之文件读写)
二、数据清洗之文件读写csv文件读写excel文件读写数据库文件读写查询数据库写入数据库csv文件读写pandas内置了10多种数据源读取函数,常见的就是CSV和EXCEL使用read_csv方法读取,结果为dataframe格式在读取csv文件时,文件名称尽量是英文参数较多,可以自行控制,但很多时候用默认参数读取csv时,注意编码,常用编码为utf-8、gbk 、gbk2312和g...原创 2020-02-20 22:35:02 · 638 阅读 · 0 评论 -
python数据清洗之学习总结(一、数据预处理之常用工具)
数据预处理之常用工具数据清洗常用工具NumpyNumpy常用数据结构Numpy常用方法数据访问方法Numpy常用清洗函数PandasPandas常用数据结构series和方法Pandas常用数据结构dataframe和方法series和dataframe常用方法如下数据清洗常用工具目前在Python中, numpy和pandas是最主流的工具Numpy中的向量化运算使得数据处理变得高效P...原创 2020-02-19 16:12:06 · 3115 阅读 · 0 评论 -
PYTHON通过高德API实现城市地址与经纬度批量转换(每十个一组查询)
最近爬虫了一堆新冠病的数据,想要通过FineBI在地图上展示出来,但是需要自行提供经纬度,网上倒是有部分现成的,比如[《Python版中国省市经纬度》](https://www.jb51.net/article/180129.htm),需要可自取。当然还是建议自己爬取,一通百通。原创 2020-02-13 13:41:41 · 6348 阅读 · 9 评论 -
python中引入json文件报错:json.decoder.JSONDecodeError: Expecting ',' delimiter: line 1 column 1780 (char 17
昨天还可以正常运行的python文件今天突然报错,十分心累之,检查完后发现是爬虫的网页代码变了引起。需要配合修改之前的正则,好歹改完成功运行了原创 2020-02-09 22:52:44 · 27779 阅读 · 3 评论 -
python连接mongo数据库的一些片段测试和错误记录
Mongo数据库操作:#!/user/bin/env python3# -*- coding: utf-8 -*-from pymongo import MongoClientCOLSIZ = 10FIELDS = ('login', 'userid', 'projid')cxn = MongoClient(host='192.168.1.30',port=27017)db = c...原创 2019-06-13 15:29:27 · 405 阅读 · 0 评论 -
python执行os.rename 报错:WindowsError: [Error 2]
学习python的批量重命名文件原始代码如下:#!/user/bin/env python3# -*- coding: utf-8 -*-import ospath = 'C:/Users/Administrator/Desktop/1'#路径是我自己的添加的Windows本机路径old_dir = os.listdir(path)print("原始文件名称为 %s " %old_...原创 2019-06-11 11:00:55 · 6268 阅读 · 2 评论 -
python连接mongodb数据库对于指定时间范围内的数据进行查询统计
mongodb查询语句:db.service_call_log.aggregate([ { $match: { "startTime": { "$gte": ISODate("2018-01-06 23:54:50"), "$lt": ISODate("2018-01-06 2...原创 2019-06-21 10:22:33 · 9828 阅读 · 1 评论 -
python3爬虫中文乱码问题
python3爬虫中文乱码问题一开始直接输出获取到的数据,显示为b'<title>\xc3\xc0\xb9\xc9\xca\xb5\xca\xb1\xd0\xd0\xc7\xe9_\xd0\xc2\xc0\xcb\xb2\xc6\xbe\xad_\xd0\xc2\xc0\xcb\xcd\xf8</title>\n'看了下网页内容的头部,发现编码格式应该为gb2312b...原创 2019-07-07 23:18:55 · 2130 阅读 · 0 评论 -
visual studio code 编译c程序报错 no complier found
安装了C/C++ for Visual Studio Code插件想编译下刚写好的c代码,直接提示我 no complier found,插件找不到系统内安装的编译器,按照提示需要安装mingw,我的是win64位系统,具体安装包在https://sourceforge.net/projects/mingw-w64/内下载即可。我的vscode设置文件是在C:\Users\Adminis...原创 2019-07-09 11:48:15 · 1984 阅读 · 0 评论 -
引入 Python 环境中的 C 函数报错 undefined reference to 'XXXX'
引入 Python 环境中的 C 函数报错 undefined reference to ‘XXXX’Terminal will be reused by tasks, press any key to close it.> Executing task: D:/mingw-w64/i686-8.1.0-posix-dwarf-rt_v6-rev0/mingw32/bin/gcc.ex...原创 2019-07-09 17:20:26 · 3065 阅读 · 0 评论 -
Python --去掉文档前面6位数字重命名
Python --去掉文档前面6位数字进行重命名新下载了一些文档,但是部分文档前面下载后添加了6位数字,决定用python将它去掉,首先文档如下代码如下:#!/user/bin/env python3# -*- coding: utf-8 -*-import osimport repath='F:/新建文件夹'#文件存储位置old_dir = os.listdir(path)#获...原创 2019-07-04 17:07:57 · 1187 阅读 · 0 评论 -
read_csv()报错: 'utf-8' codec can't decode byte 0xca in position 0: invalid continuation byte最新解决办法
pandas read_csv()读取csv文件报错:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xca in position 0: invalid continuation byte,用office软件或vscode即可解决原创 2019-07-15 10:02:07 · 11400 阅读 · 3 评论 -
python爬虫猫眼电影评论评分,用正则表达式匹配HTML元素值并输出成柱状图
python爬虫猫眼电影评论评分,用正则表达式匹配HTML元素值并输出原创 2019-07-16 16:21:06 · 1232 阅读 · 0 评论 -
使用python爬取猫眼评论并用pyecharts进行数据可视化分析--bar,geo
使用python爬取猫眼评论并用pyecharts进行数据可视化分析--bar,geo;pyecharts最新版本V1,pythonV3.7原创 2019-07-22 21:49:16 · 3496 阅读 · 4 评论 -
python 报错 IndentationError: unexpected unindent
这种报错一般是格式错误,但是我使用的编辑器没有定位标红错误代码检查代码发现在报错代码块之前有try缺少与之匹配的except语句块加上空的except后运行不再报错...原创 2019-05-22 14:35:26 · 4819 阅读 · 1 评论