- 博客(24)
- 资源 (1)
- 收藏
- 关注
原创 文本挖掘学习笔记(三):文档相似度、文档分类和情感分析
全文基于《射雕英雄传》语料库,下面是读入数据的一个基于Pandas的通用操作框架。1.文档相似度计算两个词相似度的原理:简单的说,就是将每个词的向量在空间上进行余弦运算,当cos越接近0时候,两者越相似。词袋模型不考虑词条之间的相关性,因此无法用于计算词条相似度。分布式表达会考虑词条的上下文关联,因此能够提取出词条上下文中的相关性信息,而词条之间的相似度就可以直接利用此类信息加以计算。.........
2022-06-27 12:35:16
2429
2
原创 文本挖掘学习笔记(二):文档信息向量化与主题关键词提取
注:学习笔记基于文彤老师文本挖掘的系列课程全文基于《射雕英雄传》语料库,下面是读入数据的一个基于Pandas的通用操作框架。
2022-05-20 19:28:23
5030
2
原创 文本挖掘学习笔记(一):文本分词和词云展示
注:学习笔记基于文彤老师文本挖掘的系列课程课程链接:https://study.163.com/course/courseMain.htm?courseId=1005124008&share=1&shareId=1146477588全文基于《射雕英雄传》语料库,下面是读入数据的一个基于Pandas的通用操作框架。读入为数据框import pandas as pd# 有的环境配置下read_table出错,也可用用read_csvraw = pd.read_table("金庸-射雕
2021-02-15 17:04:36
4202
17
原创 pandas学习笔记(五):数据特征分析与pandas优化
注:学习笔记基于文彤老师的pandas的系列课程课程链接:https://study.163.com/course/courseMain.htm?courseId=1005124008&share=1&shareId=1146477588# 设定系统环境import pandas as pdpd.options.display.max_rows = 10 # 设定自由列表输出最多为10行pd.__version__ # 显示当前Pandas版本号,默认输出最后一行内容(即使没有打印
2021-02-01 12:39:32
1940
1
原创 pandas学习笔记(四):数据的清洗、绘图以及时间数据的处理
注:学习笔记基于文彤老师的pandas的系列课程课程链接:https://study.163.com/course/courseMain.htm?courseId=1005124008&share=1&shareId=1146477588# 设定系统环境import pandas as pdpd.options.display.max_rows = 10 # 设定自由列表输出最多为10行pd.__version__ # 显示当前Pandas版本号,默认输出最后一行内容(即使没有打印
2021-02-01 12:20:19
953
2
原创 pandas学习笔记(三):数据的变换与数据的管理
注:学习笔记基于文彤老师的pandas的系列课程课程链接:https://study.163.com/course/courseMain.htm?courseId=1005124008&share=1&shareId=1146477588# 设定系统环境import pandas as pdpd.options.display.max_rows = 10 # 设定自由列表输出最多为10行pd.__version__ # 显示当前Pandas版本号,默认输出最后一行内容(即使没有打印
2021-02-01 11:41:31
512
原创 pandas学习笔记(二):变量的行、列、索引的基本操作
切片本身就是一个列表,因此不需要加 [ ]注:学习笔记基于文彤老师的pandas的系列课程课程链接:https://study.163.com/course/courseMain.htm?courseId=1005124008&share=1&shareId=1146477588# 设定系统环境import pandas as pdpd.options.display.max_rows = 10 # 设定自由列表输出最多为10行pd.__version__ # 显示当前Panda
2021-02-01 11:22:10
1326
原创 pandas学习笔记(一):数据读入读出基本操作
pandas数据读入读出基本操作注:学习笔记基于文彤老师的pandas的系列课程课程链接:https://study.163.com/course/courseMain.htm?courseId=1005124008&share=1&shareId=1146477588# 设定系统环境import pandas as pdpd.options.display.max_rows = 10 # 设定自由列表输出最多为10行pd.__version__ # 显示当前Pandas版本号
2021-01-31 23:19:00
3366
2
文本数据处理工具软件集(文心,KHCoder,Rost系列等等等)
2022-10-22
visualcppbuildtools_full.exe文件
2021-02-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人