
python
kunAUGUST
这个作者很懒,什么都没留下…
展开
-
pycharm editConfiguration运行参数配置
相当于命令行下python meta_Books.json review_Books.json首先看路径1.项目名2.文件夹script目标.py文件meta_Books.json按上述路径,在目标py文件配置路径 应该是…/表示上层目录(项目目录下)因此应为:多个参数使用空格分割...原创 2021-04-02 16:10:26 · 1956 阅读 · 0 评论 -
python sorted和lambda
sorted:sorted 可以对所有可迭代的对象进行排序操作.内建函数 sorted 方法返回的是一个新的 list,而不是在原来的基础上进行的操作。首先传入参数需要是可迭代的:print(sorted(range(5))) # [0, 1, 2, 3, 4]encoded = [[1, 2, 3, 4], [1, 2], [1, 2, 3, 4, 5]]print(sorted(encoded)) # [[1, 2], [1, 2, 3, 4]原创 2020-07-06 18:57:12 · 508 阅读 · 0 评论 -
python按行读取数据时加read和不加read区别
场景:机器翻译,每行一个样本,包括中文句子和英文句子,中间由制表符(’\t’)分割def load_data(file): with open(file, 'r', encoding='utf-8') as f: text = f.read() print(type(text)) # <class 'str'> # for line in text: # line = line.strip().split('\t原创 2020-07-06 11:51:29 · 668 阅读 · 0 评论 -
使用Counter构建词汇表
这里只记录两种情况:1 数据集是一段连续的文本,所有词汇放在一个list中(一维的)text:此时Counter(text),text可以是一个list,统计该list中所有元素出现的次数并返回一个dict原创 2020-06-21 15:24:59 · 884 阅读 · 0 评论 -
win10 Python读取文件 编码问题
UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xaf in position 34: illegal multibyte sequence原始读取代码: with open(file, 'r') as f: for line in f: line = line.strip().split("\t") en.append(["BOS"] + nltk.word_tokenize(l原创 2020-06-21 10:56:41 · 1143 阅读 · 0 评论 -
spacy和en安装
安装spacy en_core_web_sm报错raise ConnectionError(e, request=request)requests.exceptions.ConnectionError: HTTPSConnectionPool(host=‘raw.githubusercontent.com’, port=443): Max retries exceeded with url: /explosion/spacy-models/master/shortcuts-v2.json (Caused原创 2020-06-18 20:35:37 · 4277 阅读 · 3 评论 -
np.multiply(*data.size()) 的含义(*的含义)
data是一个tensor看一下data.size():*data.size():所以np.multiply(*data.size()) = np.multiply(50, 32)参考:https://www.cnblogs.com/mo-nian/p/11842422.html原创 2020-06-16 17:26:01 · 761 阅读 · 1 评论 -
pandas修改某一列的值并覆盖原来的列
需求:将每一列进行归一化,并用归一化后的结果替换原来的值x是原来的dataframecolumns = x.columns.tolist()x = x.copy()for c in columns: max = x[c].max() min = x[c].min() x[c] = x[c].map(lambda x: (x - min) / (max - min))...原创 2020-06-16 16:28:30 · 5918 阅读 · 0 评论 -
python打印生成器的内容(不使用for循环)
<generator object at 0x0000014C5AB7B5C8>什么是生成器?一边循环一边计算形如:TEXT.vocab.itos[i] for i in batch.text[:, 0].data]i for i in df.iloc[:, 0:2].indexw for w in word_tokenize(text.lower())print(TEXT.vocab.itos[i] for i in batch.text[:, 0].data])的结果:原创 2020-06-15 15:12:20 · 1247 阅读 · 0 评论 -
pytorch 自定义Dataset出现raise NotImplementedError
找了半天发现,类里面必须有的def __init__(self):def __len__(self):def __getitem__(self, idx):我的getitem__右边少了两个下划线。。。如果你print(next(iter(dataloader))报这个错的话,一定是定义的Dataset类有问题,仔细找就完了,错误往往意想不到。。。另外我定义的Pytorch模型里,forward也加上了下划线,也报了这个错误...原创 2020-06-14 16:30:07 · 2377 阅读 · 1 评论 -
pandas查看数据是dataframe还是series类型
1 seriesprint(type(X_train))2 dataframeprint(type(df))series也是带有索引的,如果打印结果会是两列!!可以理解为dataframe是series的容器注:如果输入数据是dataframe或者series的话,输出没有特殊说明,类型不变,比如train_test_split输入为series或dataframe,输出还是series或者dataframe区别tpye(df) 和series和dtype dtypes 和datafr原创 2020-05-30 17:17:24 · 5042 阅读 · 0 评论 -
Python pickle和os.path
pickle用于在训练模型后将模型保存下来,避免重复运行,可以节省时间,还可以把训练好的模型直接导入其他文件模型保存tfidf_path = 'tfidf.pkl'with open(tfidf_path, 'wb') as in_data: pickle.dump(clf_tfidf, in_data, pickle.HIGHEST_PROTOCOL) print("tfidf model saved:" + tfidf_path)wb: 以二进制格式打开一个文件只用于写入原创 2020-05-30 10:22:35 · 245 阅读 · 0 评论 -
global和return
参考这篇文章,直接指路:https://blog.youkuaiyun.com/qq_35636311/article/details/78248389global是干什么的呢~x=1def func(): x=2 func()print(x)输出结果:1因为x不是全局变量,所以并不能改变值那如果加了return是不是就可以了呢~x=1def func(): glo...原创 2020-04-23 22:32:29 · 458 阅读 · 0 评论 -
anaconda虚拟环境管理
记录几个常用的:查看当前已有的虚拟环境:conda env listconda info -e创建虚拟环境:conda create -n env1 python==3.6复制虚拟环境:conda create -n env2 --clone env1参考:https://blog.youkuaiyun.com/weixin_42668123/article/details/8239062...原创 2020-04-15 12:44:38 · 152 阅读 · 0 评论 -
数据清洗练习问题汇总
1介绍源数据集包括四个文件:其中第一个压缩文件解压后是tsv格式文件labeledTrainData - The labeled training set. The file is tab-delimited and has a header row followed by 25,000 rows containing an id, sentiment, and text for each...原创 2020-04-06 11:44:54 · 1231 阅读 · 1 评论 -
解决 Cannot open D:\Program Files\Anaconda3\Scripts\pip-script.py
我的anaconda重装过,是从直接的envs环境下直接复制了文件夹过去的,后来再次更新pip的时候,把原来的版本删除,新版本下载失败。所以导致我的环境里没有pip1.先看看自己有没有安装pipconda install pip装好后是9.0.1版本2.更新easy_install pip会等很久,我试了镜像源是没用的,参考https://blog.youkuaiyun.com/Chris_z...原创 2020-03-13 20:25:18 · 1199 阅读 · 0 评论 -
修改jupyter notebook默认路径
1 打开anaconda prompt2 输入jupyter notebook --generate-config运行后,会显示C盘里这个.py文件的路径,打开,找到第214行。在jupyter_notebook_config.py中修改如下配置项 #c.NotebookApp.notebook_dir = ''填入你的路径,我的是 #c.NotebookApp.notebook_...原创 2020-02-29 11:00:58 · 321 阅读 · 0 评论 -
Python安装包或者更新包因为网速过慢下载失败解决办法
今天安装pyinstaller遇到了以pandas为例pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas就好了。另外python网络问题报错的方式有以下两种:一种是报错末尾有timeout一种是:ERROR: THESE PACKAGES DO NOT MATCH THE HASHES FROM THE REQU...原创 2020-02-19 17:11:30 · 1178 阅读 · 0 评论