不想上学的小菜鸟-优快云博客

原创 python合并PDF文档

【代码】python合并PDF文档。

2024-07-08 22:25:08 131

原创 python更换源

每次装python设置源都要百度一下代码和网址，还是记录一下，方便使用。

2023-10-21 22:44:38 458

原创发现了一个python满足不了的功能

经过一番尝试，竟然发现exec()传递参数有限，exec()仅支持string和code object参数，尽管可以把传递的df转成其他格式成功赋值，但是后面我用的时候还是得转回来，还不如直接读取呢？🤷‍♀️如果有其他方法的小伙伴欢迎分享~但是文件较多，想减少一点代码量，我想用for循环定义多个变量并赋值。

2023-08-25 16:57:13 187

原创 python链接数据库

但是新版的链接方式会对sql语句中的%比较敏感，读取sql是会把他当成转义符处理，因此需要修改为%%。这种链接方式可以使用但是会报Warning。需要更改新版的链接方式，如下。

2023-08-10 15:28:18 563

在用python处理数据处理的时候有时候会碰到较大的数据集，可能会出现Memory Error 的问题，经过我的尝试，总结如下几个方案：1. 修改数据类型的长度修改数据类型的长度，可以对数据进行内存压缩，从而减少内存的占用。import time# 对数据进行内存压缩def reduce_mem_usage(df): starttime = time.time() numerics = ['int16', 'int32', 'int64', 'float16', 'floa

2021-10-31 19:05:58 23975 1

原创 SQL相关问题小结

记录一些工作中遇到的问题，主要用的是presto查询，有一些跟hive语法的差异也会记录下来。1.两表join时查询时条件放在on后与where后的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。在使用left jion时，on和where条件的区别如下：on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。where条件是在临时表生成好后，再对临时表进行过滤的条件。这时已经没有left join的含义（必须

2021-06-10 15:20:14 341

原创 linux灵活设置定时任务

linux的定时任务通常使用crontab来设置crontab命令：crontab [-u username]　　　　//省略用户表表示操作当前用户的crontab -e (编辑工作表) -l (列出工作表里的命令) &

2021-02-18 17:21:31 181

原创 Presto查询问题总结

presto常见问题总结：1.提升性能优化方法Exceeded max (local) memory 错误Presto会跟踪每个查询的内存使用情况.可用内存的多少是根据你的查询计划变动的,所以在大多数情况下可以从写查询语句来达到优化内存使用的目的.下面列出来的就是内存密集型的语句块:districtUNIONORDER BYGROUP BY (许多字段的情况)joins (各种JOIN)解决方法：count（distinct x）可以用approx_distinct(x)代替，

2021-01-29 11:57:29 1880 2

原创 dataframe的object类型

首先，我们构造一个dataframe来看一下它的数据类型：　　实际上dtype对象来自NumPy，它描述了ndarray中元素的类型。ndarray中的每个元素的字节大小必须相同。对于int64和float64，它们是8字节。所以col2和col3系统可以自动识别出来是float和int类型的，但是对于col4中，既有布尔类型也有数值类型的，系统无法给出一个统一的类型，因此显示的是object。此外对于col1这种字符类型的数据，由于字符串的类型长度也是不定的，因此Pandas没有直接在ndarray中

2020-11-26 11:23:44 5583

原创 python读取表数据

在用pandas读csv文件时报错：ParserError: Error tokenizing data. C error: Expected 52 fields in line 349255, saw 54.打开文件一看，349255行52列数据中含有逗号因为csv文件本身是逗号分割，如果数据中含有逗号，在读的时候pandas不知该如何处理。解决方法有两种，第一个就是把数据处理，把数据中的逗号删去或者换成其他字符代替；第二种就是用read_csv方法中设置error_bad_lines=False

2020-09-29 11:22:00 1337

原创部署一个docker镜像

#创建宿主机目录，运行文件txt_to_csv.py和数据文件combineTextbk2020-08-24.0.zip拷贝到/app中，/data中保存结果文件mkdir -m 777 /projects#添加执行权限chmod a+x txt_to_csv.py#解压容器镜像gzip -d python-3.6.2-centos-setup.tar.gz#加载容器镜像docker load -i python-3.6.2-centos-setup.tar#docker images |

2020-08-31 09:46:26 191 1

原创 vox后缀音频格式修改为wav后缀

from glob import globfrom multiprocessing import Poolimport osimport sysvox_source_path = './voxtest/*.vox'wav_save_path = './voxtest/'if not os.path.exists(wav_save_path): os.makedirs(wav_save_path)vox_files = glob(vox_source_path)def trans

2020-08-06 16:18:57 1252

原创 python小功能之文件批量转码

import osfrom glob import globfiles = glob(r"D:\\project data\\APP\\data\\APP_user.csv")count = 0for file in files: print(file) newf = 'D:\\project data\\APP\\data\\utf8\\' + os.path.basename(file) + '.csv' print(newf) f1 = open(newf, "

2020-07-31 17:43:31 331

转载 Linux的文本编辑和文本内容查看命令

Linux的文本编辑和文本内容查看命令 Linux的文本编辑和文本内容查看命令1、文本编辑命令vi:用于编辑文本文件，基本上可以分为三种模式，分别是一般模式、编辑模式、命令行模式。一般模式：当编辑一个文件时，刚进入文件就是一般模式。编辑模式：在一般模式下，是不可以编辑文本内容的，需要按i、l、a、A、o、O中的任意一个键进入编辑模式（此时频幕最下方会出现“INSERT”或“REPLACE”），从编辑模式回到一般模式需要按键盘左...

2020-07-30 11:26:45 465

原创 Linux常用命令

Linux命令太容易忘记了，而且非常多，先记录点自己常用的，后面慢慢扩充。切换用户sudo su -：切换root用户su username：切换普通用户文件和目录pwd：查看当前目录ls：列出文件cd：打开目录mkdir/rmdir xxx：创建/删除空目录touch/rm xxx：创建/删除文件tar zcvf xxx.tgz ：压缩文件tar xvf xxx.tar：解压文件chmod 777 xxx：给文件设置权限：常用的权限设置：444 r–r--r–

2020-07-29 16:22:36 201

原创 python之Pandas中map，applymap和apply的区别

map()map()是Series对象的一个函数，DataFrame中没有map()，map()的功能是将一个自定义函数作用于Series对象的每个元素。 apply()apply只是整个dataframe上任意一列或多列，或者一行或多行，即可在任意轴操作。在一列使用apply时，跟map效果一样。..

2020-07-27 16:22:20 1434

原创 cocoNLP安装及使用问题小结

看似平平无奇的cocoNLP，pip install也完全不会有什么问题，万万没想到在使用的时候能让人崩溃，出现的错误完全让人摸不着头脑。1.JSONDecodeError raise JSONDecodeError("Expecting value", s, err.value) from Nonejson.decoder.JSONDecodeError: Expecting value:...

2020-07-22 09:39:42 1484

原创 SnowNLP包情感分析

情感分析（Sentiment Analysis）是自然语言处理里面比较高阶的任务之一。维基百科上的定义是：文本情感分析（也称为意见挖掘）是指用自然语言处理、文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息。听着很高大上，是吧？如果说得具体一点呢？给你一段文本，你就可以用情感分析的自动化方法获得这一段内容里包含的情感色彩是什么。神奇吧？情感分析不是炫技工具。它是闷声发大财的方法。早在...

2020-04-08 11:15:27 2957

原创 python之计算文本相似度

1.安装包pip install python-Levenshtein2.demoimport Levenshteina='abc'b='abcd'wer=Levenshtein.distance(a,b)/len(a)corr=(1-wer)print(corr)result：0.6666666666666667Process finished with exit c...

2020-04-08 11:07:17 696

原创 python之替换函数

1. replace()语法：str.replace(old, new, max)参数：old – 将被替换的子字符串。new – 新字符串，用于替换old子字符串。max – 可选字符串, 替换不超过 max 次。（默认替换全部）示例：# 这个用起来最简单str = 'abc abc aaa abcde 12345'print(str.replace('abc','OK'))...

2020-03-12 14:45:22 6289 1

原创 conda常用命令小结

1.配置虚拟环境1.1 创建环境conda create -n myenv python==3.61.2 激活环境activate myenv1.3 删除环境conda remove -n myenv --all1.4 查看已有环境conda info -e2.配置镜像源2.1 查看镜像源conda config --show channels2.2 添加镜像c...

2019-12-06 15:19:25 213

原创 python之DataFrame篇

DataFrame是python中Pandas库中的一种数据结构，类似excel，是一种二维表。DataFrame的单元格可以存放数值，字符串等类型数据。python在处理excel数据时通常都会用DataFrame来读。1.读数据%%timeimport pandas as pddf = pd.read_excel('2019-2.xlsx',sheet_name=None)%%ti......

2019-12-02 14:39:52 23106

原创 python error系列之tensorflow篇

1 from google.protobuf.pyext import _messageImportError: DLL load failed: 找不到指定的程序。没有装protobuf或者是tensorflow和protobuf版本不对应。tensorflow对protobuf的版本要求很严格，编译tensorflow的Ｃ库时，没有找到具体的版本参考，bazel的版本官网上有详细...

2019-11-20 16:20:56 642

原创《tensorflow》实战学习笔记（二）——实现Word2Vec

1 Word2Vec简介 2013年，Google开源了一款用于词向量计算的工具——word2vec，引起了工业界和学术界的关注。首先，word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练；其次，该工具得到的训练结果——词向量（word embedding），可以很好地度量词与词之间的相似性。进而可...

2019-11-05 17:21:10 375

原创《tensorflow》实战学习笔记（一）——实现自编码器

欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：全新的界面设计，将会带来全新的写作体...

2019-11-04 11:26:53 238

原创 python之去除文本标点符号

今天做一个文本相似度的小任务，利用python的“Levenshtein”包可对比两个文本的相似度。为了消除标点符号的影响，需要去除标点，python的string模块下的punctuation包含所有的英文标点符号。所以用replace()一下就可以去除：Example 1:import stri...

2019-11-01 18:30:28 10790 2

原创 python之glob模块以及根据路径获取文件名

一. glob模块 glob是python中用来查找符合特定规则的文件路径名的函数，类似于windows下的文件搜索。可使用匹配符进行文件查找。例如查找某文件夹下的以‘10’开头且后缀为‘.jpg’的所有图片。Example 1：from glob import globimg_files = g...

2019-10-31 17:03:07 9396 2

原创 python做图片裁剪

引言 python切割图片有两种方法，分别是Pillow和OpenCV，因为我这部分的处理是基于我之前的python提取xml文件中的坐标点（labelimg标记文档）结果的前提下，将所有标注出来的小图都截取出来，labelimg标注的坐标格式跟pillow方法中的格式一致。因此本文基于Pi...

2019-10-24 16:59:38 1363 1

原创 Python爬虫豆瓣影评

Python爬取豆瓣影评并生成词云，网上很多案例，我参考的这一篇 Python爬虫实战，具体步骤这篇文章讲解的很详细了，不过我在复现的过程中也遇到了很多问题，所以记录一下。#coding:utf-8import warningswarnings.filterwarnings("ign...

2019-10-23 11:57:41 1951

转载 CTPN论文翻译——中文版

Detecting Text in Natural Image with Connectionist Text Prop...

2019-10-14 14:46:24 312

转载 python提取PDF文档中的图片

1、安装第三方类库pymupdf：pip install pymupdf2、安装完成后直接上代码，代码如下：import fitzimport timeimport reimport osdef pdf2pic(path, pic_path): t0 = time.clock() # 生成图片初始时间 checkXO =...

2019-10-14 14:24:25 1638 1

原创 python提取xml文件中的坐标点（labelimg标记文档）

LabelImg是深度学习中用来标注图片中物体位置与名称的工具，LabelImg标记数据的xml文档也比较简洁明了。标记图片：保存后生成的xml文件： Python提取文档中的标记信息（坐标信息&文字信息）：import xml.etree.ElementTree as ETimport sysxml_...

2019-10-14 11:54:22 4747 3

原创卷积神经网络的概念理解和简单实现

卷积神经网络的（convolutional neural network，CNN）是一种专门用来处理具有类似网络结构的数据的神经网络。卷积是一种特殊的线性运算。本文总结了卷积和池化的深入理解，以及一个简单的卷积神经网络的实现。1.卷积通常形式中，卷积是对两个实变函数的一种数学运算。表示为： s(t)=(x∗w)(t)s(t)=(x*w)(t)s(...

2019-09-30 12:01:50 461

原创一道有趣的概率题（Penney's game）

一道有趣的概率题最近看到一个有意思的概率题：甲乙两人玩掷硬币的游戏。两人连续抛掷硬币，如果最近三次硬币的抛掷结果为“正反反”，则甲胜；如果是“反反正”，则乙胜。问：谁胜的概率更高？可能大多数人和我一样，第一反应就是不都是1/8(1/2的三次方)的概率嘛。单纯看掷三次硬币的结果好像确实是这样。来，我们做个小实验验证一下，用python来模拟一下（python代码如下）：import ran...

2019-08-27 17:58:25 3388 2

原创 Python做数据可视化—折线图

Python中的折线图可用于分析类似温度，市场等数据的变化趋势等。本人做的小练习是分析一段数据中各任务的运行时长，检测出异常数据（运行时间超出正常时间范围的任务）。自学可在网上下载一些数据作分析。import csvfrom matplotlib import pyplot as pltfilename = 'run.csv'with open(filename) as f: rea...

2018-12-26 22:04:42 3306 1

原创 Python绘制随机漫步图

最近开始学习Python，由于是在jupyter在线练习，所以创建类和可视化操作都放在同一文件中运行。　　　　需要注意的是，Python中单下划线和双下划线的使用区别以及格式的对齐，Python是根据对齐方式自动区分代码块的，我个人在运行过程中主要出现的问题就是这两个方面。代码：import matplotlib.pyplot as plt from random import cho...

2018-12-24 23:29:00 537

原创 matlab生成随机数小结

matlab生成随机数的方法： 1.rand()：rand()函数一般用来生成0-1之间的随机矩阵，我们也可以利用它来生成我们想要的任意大小的随机整数。例：round(rand(1,k)*n)：生成0-n之间的k个随机数。不过这个方法生成的随机数会有重复的现象，如果想生成不重复的随机数序列，可以用下面这个方法。 2.randperm()：randperm(n)表示生成1-n之间的不重

2017-12-26 16:34:42 9241

python-3.6.2-centos-setup.tar.gz

一个python3的docker镜像，包含pandas，requests，glob，zipfile，tqdm等包，部署可参考：https://blog.youkuaiyun.com/qq_36151472/article/details/108315453。

2020-08-31

masking.tgz

对文本中的用户个人信息五要素：姓名，地址，邮箱，身份证号，手机号进行脱敏处理，为减少信息损失，可对需隐藏的关键词用#NAME#，#ADDRESS#等来代替。运行环境配置可参考：https://blog.youkuaiyun.com/qq_36151472/article/details/105293636

2020-07-28

关联规则分析-python

根据Orange3包对数据进行关联规则分析，生成“规则”，“项集出现的数目”，“置信度”，“覆盖度”，“力度”，“提升度”，“利用度”记录并返回到excel表中。

2020-06-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

python-3.6.2-centos-setup.tar.gz

masking.tgz

推荐系统实践学习代码.zip

关联规则分析-python

空空如也