
python
文章平均质量分 64
水果翻炒数据
厚积薄发,简约至上
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
01文本文件读取和CSV文件的读取
前言 1、为了进行下一步的分词操作,我们需要读取停用词表(分词中需去除的无用词)、评论数据。 2、停用词表的文件格式为txt,评论数据的文件格式为csv。我们通常使用open()函数读取txt,使用pandas库的read_csv方法读取csv文件。 文本文件的输入输出 文本文件的读写主要通过**open()**所构建的文件对象来实现。 help(open) 重点掌握参数 file : 一个包含了...原创 2018-12-14 15:55:38 · 1131 阅读 · 0 评论 -
02结巴分词和打标任务代码设计
前言 1)处理的数据越大,对性能的要求越高,我们需要逐步学习python代码编写的性能方面的知识 2)学习程序设计,可以将一些机械化的人工操作让代码代劳 python知识补充 1、时间 查看当前时间:datetime.datetime.now() import datetime #查看当前时间 now_time = datetime.datetime.now() print(now_time) ...原创 2018-12-24 09:07:33 · 1483 阅读 · 0 评论 -
03数据清洗与自定义函数
前言 1)本节课学习正则表达式的用法,为数据清洗打下基础 2)学习函数相关知识,提高代码的重用性以及可读性 python知识的补充 1、字符替换与正则表达式 简单的字符替换 str.replace() print(help(str.replace)) Help on method_descriptor: replace(...) S.replace(old, new[, coun...原创 2018-12-29 11:21:20 · 422 阅读 · 0 评论 -
05词向量表示理论篇
一、离散表示 1、词离散表示:One-hot 表示 语料库: 李杏 喜欢 喝 奶茶 诗雅 也 喜欢 喝 奶茶 李杏 同样 喜欢 喝 果汁 词典: {“李杏”:1,”喜欢”:2,”喝”:3,”奶茶”:4,”诗雅”:5,”也”:6,”同样”:7,”果汁”:8} One-hot 表示: 李杏:[1,0,0,0,0,0,0,0] 喜欢:[0,1,0,0,0,0,0,0] … 果汁:[0,0...原创 2019-01-14 16:38:36 · 461 阅读 · 0 评论 -
06词特征表示实践
读取数据 import pandas as pd corpus=list(pd.read_table('words.txt').iloc[:,0]) #提取语料中的十个句子进行演示 corpus=corpus[10:20] 词特征表示方法 Common Vectorizer usage sklearn from sklearn.feature_extraction.text import Coun...原创 2019-01-22 16:56:21 · 405 阅读 · 0 评论