
Python文本挖掘
流光2021
这个作者很懒,什么都没留下…
展开
-
Python数据挖掘:1.4预料数据化需要考虑的工作
原始语料数据化时需要考虑的工作 (1)基本目的:在将语料数据化的同时尽可能地保留有效信息 (2)分词:将原始文本拆分为有分析意义的最小信息单位 注:中文由于信息效率太高,在这方面存在很大障碍 (3)去除停用词:剔除无意义单词,减少无效信息 去除空白,去除标点符号等 (4)词根识别:中文不存在时态变化,基本无此问题 大小写转换 (5)同义词/近义词识别:很多工具都缺少这一部分功能 (6)术语识别:姓名识别、地理名称识别、专有名词识别等 可进一步附加术语信息,如性别、所在国家、所属亚型等。 (7)情感标注 (8原创 2020-07-14 19:48:26 · 256 阅读 · 0 评论 -
Python文本挖掘笔记:1.3文本挖掘的基本思路
文本中所蕴含信息的层次 1.词条是否在文本中出现——>各种基于词袋的模型 例:大鱼/吃/小雨/和/虾米/。 2.词条的各种内在关联——>各种字典 上位词:猫——>动物/哺乳类/有毛/宠物 下位词:猫——>波斯猫/阿兹猫 同义词:高兴——>开心/喜悦/欢乐/狂喜 反义词:高兴——>难过/悲伤/悲痛/愤怒 3.词序信息——>N-gram语言模型 我喂猪 vs. 猪喂我 4.语法信息——>待探索区域 词性:主谓宾定状补 句内语法分析 句间语法分析 NLP的基本思路原创 2020-07-14 16:29:56 · 375 阅读 · 1 评论 -
Python文本挖掘笔记:1.2文本挖掘的基本流程和任务
文本挖掘/NLP的基本流程 1.语料获取(比如网络数据抓取、文本文件读入、图片OCR转化…) 2.原始语料的数据化(比如分词、信息清理与合并、文档-词条矩阵、相关字典编制、信息的转换…) 3.内在信息挖掘与展示(词云、关键词提取、自动摘要、文档聚类、情感分析、文章推荐…) 常见的TM分析任务 1.亚洲语言分词(及结果展示) 2.自动摘要 3.指定消解 例:他对她说它的尾巴很短 4.机器翻译 5.词性标注 6.主题识别 7.文本分类 8.语义理解 TM的各种应用方向举例 1.新一代搜索引擎 例:某博热搜榜 2原创 2020-07-14 15:18:14 · 1019 阅读 · 0 评论 -
Python文本挖掘笔记:1.1什么是文本挖掘
1. 数据的范畴 1.1数据是信息的载体 是对客观事物性质、状态、相关关系等进行记载的符号组合 1.2 数字、文本、图像、声音、视频等实际上都是数据 (1)只不过在历史上由于手段限制,只要是对数字进行了分析和利用 (2)即便是数据分析的方法论体系也要等到16世纪之后才发展起来。 1.3 数据是人类文明传承的重要媒介 通过对各种人类活动的数据化(比如利用语言和文字加以记录)和不断累积,文明才得以继承和发展,生产生活活动得以不断的精细化 2. 非数字类数据难以利用的原因 2.1难以做到定量化 (1)本质是各种类原创 2020-07-14 13:09:09 · 567 阅读 · 0 评论