- 博客(21)
- 收藏
- 关注
原创 CountVectorizer类和TfidfVectorizer类
sklearn中一般使用CountVectorizer和TfidfVectorizer这两个类来提取文本特征CountVectorizer类CountVectorizer 类会将文本中的词语转换为词频矩阵。也就是通过分词后将所有的文档中的全部词作为一个字典(就是类似于新华字典这种)。然后将每一行的词用0,1矩阵来表示。并且每一行的长度相同,长度为字典的长度,在词典中存在,置为1,否则,为0。参数解释from sklearn.feature_extraction.text import CountVe
2021-06-29 20:42:08
900
原创 Python+Selenium爬取新浪微博评论数据
Python+Selenium爬取指定新浪微博的数据微博分析微博端类型Ajax动态加载数据选择爬取对象进行评论界面分析Python实现代码微博分析微博端类型首先找到一个待爬取的微博,需要注意的是,微博分为:微博网页端(http://weibo.com)如图1,微博手机端(http://m.weibo.cn)如图2以及微博移动端(http://weibo.cn)如图3。难度程度排序如下:网页端>手机端>移动端图一:(网页端)图二:(手机端)图三:(移动端)Ajax动态加载数据
2021-01-23 21:18:22
3072
5
原创 Python+Selenium爬取新浪微博数据时的用户模拟登陆
新浪微博用户模拟登录WebDriver基本元素定位方式xpath表达式定位selenium–操作滚动条driver.switch_to.frame用法Python代码实现模拟登陆的思路:1.采用webdriver的get方法打开网页2.选择用密码进行登陆(定位+点击)3.在input tag输入用户名及密码(定位+输入)4.登陆(定位+点击登陆按钮)WebDriver基本元素定位方式find_element_by_id() —采用id属性进行定位例如在百度页面中输入关键字进行搜索<s
2021-01-05 09:30:11
1327
3
原创 TensorFlow学习笔记2
TensorFlow实战2TensorFlow实现多层神经网络二级目录三级目录一级目录二级目录三级目录一级目录二级目录三级目录TensorFlow实现多层神经网络二级目录三级目录一级目录二级目录三级目录一级目录二级目录三级目录...
2020-12-26 11:50:48
168
原创 哈工大停用词表+中文停用词表
内容:———》),)÷(1-”,),=(:→℃ 和*一一~~~~'。 『。一./- 』=”【[*]}>[⑤]][①D]c]昉*//[][②e][②g]= {},也 'A[①⑥][②B] [①a][④a][①③][③h]③]1。 - [②b]'' ××× [①⑧]0:2 = [[⑤b][②c] [④b][②③][③a][④c][①⑤][①⑦][①g]∈[ [①⑨][①④][①.
2020-12-01 11:46:23
1608
33
原创 评论的回复次数随日期变化图
评论的回复次数随日期变化图 import matplotlib.pyplot as plt import pandas as pd data = pd.read_excel('CommentArea.xlsx') plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号 plt.rcParams['font.sans-serif'] = ['SimHei'] #字体参数 plt.figure(figsize=(15,15)) plt.titl
2020-11-30 18:56:18
293
原创 列表转字符串/对其元素进行计数/字典转列表/将字符串列表转为数值列表
将由各个字符串组成的列表转为一个字符串a=['1','2','3','4']string=''.join((a))print(string)
2020-11-30 15:09:20
573
原创 解决字典转DataFrame不等长的处理
字典转DataFrame报错原代码import pandas as pda=['1','2','3','4']b=['a','b','c']d={ '数字': a, '字母': b}c=pd.DataFrame(d)c.to_excel('1.xlsx')修改后代码import pandas as pda=['1','2','3','4']b=['a','b','c']d={ '数字': a, '字母': b}c = pd.DataFrame
2020-11-30 15:03:11
1881
1
原创 新建一个新excel表并循环向表里追加数据
import xlrd #从excle里读数据import xlwt #创建新的表格写入数据import xlutils #往已有表格中追加数据#新建表123.xlsfilename = "123.xls"fileW = xlsxwriter.Workbook(filename)tableWrite = fileW.add_worksheet('Sheet1')tableWrite.write(0, 0, 'list1')tableWrite.write(0, 1, 'list2'
2020-11-30 14:52:29
457
原创 文本挖掘和可视化案例:基于文本内容的垃圾短信分类
基于文本内容的垃圾短信分类总体流程数据展示数据抽取数据预处理数据清洗去除空格x序列x序列文本去重分词中文分词添词典去停用词去停用词绘制词云文本向量的表示One-Hot表达TF-IDF权重策略文本分类实例模型训练及评价二级目录三级目录总体流程数据展示观察数据,请思考:建模前需要对文本数据做哪些处理?需要怎么评价模型的好坏?数据抽取随机抽取上文的2W条文本处理后的数据的80%作为训练样本,其余作为测试集样本。数据预处理数据清洗去除空格x序列x序列即银行账户;电话、固话、QQ
2020-11-23 13:42:31
4248
19
原创 机器学习基础知识学习笔记1
机器学习一. 机器学习基本概念二. 相关技术:1.回归分析(Regression Analysis)2.决策树(Decision Tree)3.人工神经网络(Artificial Neural Network)4. 最近邻算法(KNN)5.朴素贝叶斯分类(Naive Bayesian)6.聚类分析(Cluster Analysis)7.支持向量机(Support Vector Machine)一. 机器学习基本概念机器学习-致力于研究如何通过计算的手段,利用经验(历史数据)来改善系统自身的性能[机器学
2020-11-21 10:50:23
974
2
原创 Python数据分析与应用学习笔记3
pandas统计分析基础一、读写不同数据源的数据读写数据库数据1.数据库数据读取2.数据库数据存储读写文本文件1.文本文件读取2.文本文件储存读写Excel文件1.Excel文件读取2.Excel文件储存二、DataFrame的常用操作基础属性查改增删DataFrame数据1.查看访问DataFrame中的数据2.更新修改DataFrame中的数据3.为DataFrame增添数据4.删除某列或某行数据三、使用分组聚合进行组内计算使用groupby方法拆分数据groupby方法的参数及其说明groupby对象
2020-11-19 10:30:55
328
原创 Python数据分析与应用学习笔记2
Matplotlib数据可视化基础绘图基础语法与常用参数基本绘图流程1.创建画布与创建子图2.添加画布内容3.保存与展示图形分析特征间的关系绘制散点图scatter函数折线图plot函数一级二级目录三级目录绘图基础语法与常用参数基本绘图流程1.创建画布与创建子图第一部分主要作用是构建出一张空白的画布,并可以选择是否将整个画布划分为多个部分,方便在同一幅图上绘制多个图形的情况。最简单的绘图可以省略第一部分,而后直接在默认的画布上进行图形绘制。plt.figure 创建一个空白画布,可以指定画布
2020-11-19 09:54:31
315
原创 Python数据分析与应用学习笔记1
NumPy 数值计算基础NumPy 数组对象 ndarray创建数组对象数组数据类型转换生成随机数random模块常用随机数生成函数通过索引访问数组一维数组的索引多维数组的索引展平数组组合数组切割数组NumPy 矩阵与通用函数二级目录三级目录NumPy 统计分析二级目录三级目录)NumPy 数组对象 ndarray创建数组对象1.数组属性:ndarray(数组)是存储单一数据类型的多维数组。2.数组创建numpy.array(object, dtype=None, copy=True, or
2020-11-18 21:34:48
975
原创 TensorFlow学习笔记1
TensorFlow实战TensorFlow安装与入门TensorFlow数据类型TensorFlow实现多层神经网络TensorFlow安装TensorFlow入门TensorFlow安装与入门TensorFlow 是一个用于人工智能的开源神器安装:pip install tensorflow安装指定版本:pip install tensorflow==1.9.0TensorFlow入门1.计算模型:计算图2.数据模型:张量(tensor)3.运行模型:会话(session)Tensor
2020-11-16 11:35:46
181
原创 2009-2020年天猫“双十一”成交额统计情况
将matplotlib柱状图和折线图进行组合代码:# -*- coding:utf-8 -*-import matplotlibimport matplotlib.pyplot as pltmatplotlib.rcParams['font.sans-serif'] = ['SimHei'] # 用黑体显示中文#数据源x = [r'2009年', r'2010年', r'2011年', r'2012年',r'2013年',r'2014年',r'2015年',r'2016年',r'2017年'
2020-11-15 20:55:26
3692
原创 深度学习-卷积神经网络CNN学习笔记
深度学习一、基本概念发展历程应用领域与人工智能、机器学习关系深度学习VS传统机器学习二、卷积神经网络CNN卷积神经网络结构卷积操作-得到卷积层的输入值全连接与局部连接卷积层-CNN权值共享加入非线性映射ReLU池化操作全连接层高维输入处理多个filter三、 用Python代码实现卷积操作函数的参数结果可视化一、基本概念发展历程1.感知机网络(解决线性可分问题,20世纪40年代)2.BP神经网络(解决线性不可分问题,20世纪80年代)3.深度神经网络(海量图片分类,2010年左右)应用领域1.
2020-11-15 11:47:19
299
原创 爬取MOOC课程评论区的评论数据
对MOOC上某一课程评论区的评论数据爬取出来(例如:爬取《大学生计算机基础》)1、爬取流程框架2、爬取数据** 用户名-namesList、用户ID-user_ID、评论内容-commentList、评论时间-commentTime、浏览次数-watch_numList、回复次数-reply_numList、用户个人主页user_indexList、用户的身份信息 -user_infoList该课程评论区界面该评论者个人页面3、数据可视化1.将爬取的数据以xlsx保存下来F
2020-11-13 22:51:08
6761
22
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人