
Python
文章平均质量分 60
不想上学的小菜鸟
-
展开
-
python链接数据库
但是新版的链接方式会对sql语句中的%比较敏感,读取sql是会把他当成转义符处理,因此需要修改为%%。这种链接方式可以使用但是会报Warning。需要更改新版的链接方式,如下。原创 2023-08-10 15:28:18 · 569 阅读 · 0 评论 -
jupyter连数据库
jupyter连数据库原创 2023-01-03 17:09:23 · 912 阅读 · 0 评论 -
python Memory Error的解决方法
在用python处理数据处理的时候有时候会碰到较大的数据集,可能会出现Memory Error 的问题,经过我的尝试,总结如下几个方案:1. 修改数据类型的长度 修改数据类型的长度,可以对数据进行内存压缩,从而减少内存的占用。import time# 对数据进行内存压缩def reduce_mem_usage(df): starttime = time.time() numerics = ['int16', 'int32', 'int64', 'float16', 'floa原创 2021-10-31 19:05:58 · 24118 阅读 · 1 评论 -
dataframe的object类型
首先,我们构造一个dataframe来看一下它的数据类型: 实际上dtype对象来自NumPy,它描述了ndarray中元素的类型。ndarray中的每个元素的字节大小必须相同。对于int64和float64,它们是8字节。所以col2和col3系统可以自动识别出来是float和int类型的,但是对于col4中,既有布尔类型也有数值类型的,系统无法给出一个统一的类型,因此显示的是object。此外对于col1这种字符类型的数据,由于字符串的类型长度也是不定的,因此Pandas没有直接在ndarray中原创 2020-11-26 11:23:44 · 5603 阅读 · 0 评论 -
python读取表数据
在用pandas读csv文件时报错:ParserError: Error tokenizing data. C error: Expected 52 fields in line 349255, saw 54.打开文件一看,349255行52列数据中含有逗号因为csv文件本身是逗号分割,如果数据中含有逗号,在读的时候pandas不知该如何处理。解决方法有两种,第一个就是把数据处理,把数据中的逗号删去或者换成其他字符代替;第二种就是用read_csv方法中设置error_bad_lines=False原创 2020-09-29 11:22:00 · 1346 阅读 · 0 评论 -
python小功能之文件批量转码
import osfrom glob import globfiles = glob(r"D:\\project data\\APP\\data\\APP_user.csv")count = 0for file in files: print(file) newf = 'D:\\project data\\APP\\data\\utf8\\' + os.path.basename(file) + '.csv' print(newf) f1 = open(newf, "原创 2020-07-31 17:43:31 · 334 阅读 · 0 评论 -
python之Pandas中map,applymap和apply的区别
map()map()是Series对象的一个函数,DataFrame中没有map(),map()的功能是将一个自定义函数作用于Series对象的每个元素。 apply()apply只是整个dataframe上任意一列或多列,或者一行或多行, 即可在任意轴操作。 在一列使用apply时,跟map效果一样。..原创 2020-07-27 16:22:20 · 1447 阅读 · 0 评论 -
cocoNLP安装及使用问题小结
看似平平无奇的cocoNLP,pip install也完全不会有什么问题,万万没想到在使用的时候能让人崩溃,出现的错误完全让人摸不着头脑。1.JSONDecodeError raise JSONDecodeError("Expecting value", s, err.value) from Nonejson.decoder.JSONDecodeError: Expecting value:...原创 2020-07-22 09:39:42 · 1496 阅读 · 0 评论 -
SnowNLP包情感分析
情感分析(Sentiment Analysis)是自然语言处理里面比较高阶的任务之一。维基百科上的定义是:文本情感分析(也称为意见挖掘)是指用自然语言处理、文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息。听着很高大上,是吧?如果说得具体一点呢?给你一段文本,你就可以用情感分析的自动化方法获得这一段内容里包含的情感色彩是什么。神奇吧?情感分析不是炫技工具。它是闷声发大财的方法。早在...原创 2020-04-08 11:15:27 · 2980 阅读 · 0 评论 -
python之计算文本相似度
1.安装包pip install python-Levenshtein2.demoimport Levenshteina='abc'b='abcd'wer=Levenshtein.distance(a,b)/len(a)corr=(1-wer)print(corr)result:0.6666666666666667Process finished with exit c...原创 2020-04-08 11:07:17 · 702 阅读 · 0 评论 -
python之替换函数
1. replace()语法:str.replace(old, new, max)参数:old – 将被替换的子字符串。new – 新字符串,用于替换old子字符串。max – 可选字符串, 替换不超过 max 次。(默认替换全部)示例:# 这个用起来最简单str = 'abc abc aaa abcde 12345'print(str.replace('abc','OK'))...原创 2020-03-12 14:45:22 · 6296 阅读 · 1 评论 -
conda常用命令小结
1.配置虚拟环境1.1 创建环境conda create -n myenv python==3.61.2 激活环境activate myenv1.3 删除环境conda remove -n myenv --all1.4 查看已有环境conda info -e2.配置镜像源2.1 查看镜像源conda config --show channels2.2 添加镜像c...原创 2019-12-06 15:19:25 · 214 阅读 · 0 评论 -
python之DataFrame篇
DataFrame是python中Pandas库中的一种数据结构,类似excel,是一种二维表。DataFrame的单元格可以存放数值,字符串等类型数据。python在处理excel数据时通常都会用DataFrame来读。1.读数据%%timeimport pandas as pddf = pd.read_excel('2019-2.xlsx',sheet_name=None)%%ti......原创 2019-12-02 14:39:52 · 23123 阅读 · 0 评论 -
python error系列之tensorflow篇
1 from google.protobuf.pyext import _messageImportError: DLL load failed: 找不到指定的程序。没有装protobuf或者是tensorflow和protobuf版本不对应。tensorflow对protobuf的版本要求很严格,编译tensorflow的C库时,没有找到具体的版本参考,bazel的版本官网上有详细...原创 2019-11-20 16:20:56 · 656 阅读 · 0 评论 -
python之去除文本标点符号
今天做一个文本相似度的小任务,利用python的“Levenshtein”包可对比两个文本的相似度。为了消除标点符号的影响,需要去除标点,python的string模块下的punctuation包含所有的英文标点符号。所以用replace()一下就可以去除:Example 1:import stri...原创 2019-11-01 18:30:28 · 10800 阅读 · 2 评论 -
python之glob模块以及根据路径获取文件名
一. glob模块 glob是python中用来查找符合特定规则的文件路径名的函数,类似于windows下的文件搜索。可使用匹配符进行文件查找。例如查找某文件夹下的以‘10’开头且后缀为‘.jpg’的所有图片。Example 1:from glob import globimg_files = g...原创 2019-10-31 17:03:07 · 9448 阅读 · 1 评论 -
Python爬虫豆瓣影评
Python爬取豆瓣影评并生成词云,网上很多案例,我参考的这一篇 Python爬虫实战,具体步骤这篇文章讲解的很详细了,不过我在复现的过程中也遇到了很多问题,所以记录一下。#coding:utf-8import warningswarnings.filterwarnings("ign...原创 2019-10-23 11:57:41 · 1958 阅读 · 0 评论 -
Python做数据可视化—折线图
Python中的折线图可用于分析类似温度,市场等数据的变化趋势等。本人做的小练习是分析一段数据中各任务的运行时长,检测出异常数据(运行时间超出正常时间范围的任务)。自学可在网上下载一些数据作分析。import csvfrom matplotlib import pyplot as pltfilename = 'run.csv'with open(filename) as f: rea...原创 2018-12-26 22:04:42 · 3317 阅读 · 1 评论 -
Python绘制随机漫步图
最近开始学习Python,由于是在jupyter在线练习,所以创建类和可视化操作都放在同一文件中运行。 需要注意的是,Python中单下划线和双下划线的使用区别以及格式的对齐,Python是根据对齐方式自动区分代码块的,我个人在运行过程中主要出现的问题就是这两个方面。代码:import matplotlib.pyplot as plt from random import cho...原创 2018-12-24 23:29:00 · 544 阅读 · 0 评论 -
一道有趣的概率题(Penney's game)
一道有趣的概率题最近看到一个有意思的概率题:甲乙两人玩掷硬币的游戏。两人连续抛掷硬币,如果最近三次硬币的抛掷结果为“正反反”,则甲胜;如果是“反反正”,则乙胜。问:谁胜的概率更高?可能大多数人和我一样,第一反应就是不都是1/8(1/2的三次方)的概率嘛。单纯看掷三次硬币的结果好像确实是这样。来,我们做个小实验验证一下,用python来模拟一下(python代码如下):import ran...原创 2019-08-27 17:58:25 · 3424 阅读 · 1 评论