python_水果翻炒数据的博客-优快云博客

python

关注

文章平均质量分 64

关注数：文章数：5 文章阅读量：3992 文章收藏量：7

作者: 水果翻炒数据

厚积薄发，简约至上

展开

专栏收录文章

01文本文件读取和CSV文件的读取

前言1、为了进行下一步的分词操作，我们需要读取停用词表（分词中需去除的无用词）、评论数据。2、停用词表的文件格式为txt，评论数据的文件格式为csv。我们通常使用open()函数读取txt,使用pandas库的read_csv方法读取csv文件。文本文件的输入输出文本文件的读写主要通过**open()**所构建的文件对象来实现。help(open)重点掌握参数file : 一个包含了...

原创 2018-12-14 15:55:38 · 1147 阅读 · 0 评论
02结巴分词和打标任务代码设计

前言1）处理的数据越大，对性能的要求越高，我们需要逐步学习python代码编写的性能方面的知识2）学习程序设计，可以将一些机械化的人工操作让代码代劳python知识补充1、时间查看当前时间：datetime.datetime.now()import datetime#查看当前时间now_time = datetime.datetime.now()print(now_time)...

原创 2018-12-24 09:07:33 · 1503 阅读 · 0 评论
03数据清洗与自定义函数

前言1）本节课学习正则表达式的用法，为数据清洗打下基础2）学习函数相关知识，提高代码的重用性以及可读性python知识的补充1、字符替换与正则表达式简单的字符替换str.replace()print(help(str.replace))Help on method_descriptor:replace(...) S.replace(old, new[, coun...

原创 2018-12-29 11:21:20 · 437 阅读 · 0 评论
05词向量表示理论篇

一、离散表示1、词离散表示：One-hot 表示语料库：李杏喜欢喝奶茶诗雅也喜欢喝奶茶李杏同样喜欢喝果汁词典：{“李杏”:1,”喜欢”:2,”喝”:3,”奶茶”:4,”诗雅”:5,”也”:6,”同样”:7,”果汁”:8}One-hot 表示：李杏:[1,0,0,0,0,0,0,0] 喜欢:[0,1,0,0,0,0,0,0] … 果汁:[0,0...

原创 2019-01-14 16:38:36 · 481 阅读 · 0 评论
06词特征表示实践

读取数据import pandas as pdcorpus=list(pd.read_table('words.txt').iloc[:,0])#提取语料中的十个句子进行演示corpus=corpus[10:20]词特征表示方法Common Vectorizer usagesklearnfrom sklearn.feature_extraction.text import Coun...

原创 2019-01-22 16:56:21 · 424 阅读 · 0 评论

python

作者: 水果翻炒数据

01文本文件读取和CSV文件的读取

02结巴分词和打标任务代码设计

03数据清洗与自定义函数

05词向量表示理论篇

06词特征表示实践