
文本分析
arlionn
毕业于西安交通大学,现任教于中山大学岭南学院。公众号「连享会 (ID:lianxh_cn)」创办人。
展开
-
Python:文本分析必备—搜狗词库
jieba库是进行中文分词的一大利器,但jieba自带的词典并不完美。在实际操作过程中,用户需要添加特定的词典,来提高分词的准确性。搜狗细胞词库是外部词典的重要来源之一,提供了 12 类近 6000 个细胞词库。本文将详细展示搜狗词库的爬取和整理过程,并提供搜狗词库文本文档资源 (TXT 格式),读者可点击「搜狗词库」下载。转载 2022-11-21 10:21:26 · 537 阅读 · 0 评论 -
Stata文本分析:lsemantica-潜在语义分析的文本相似性判别
全文阅读:https://www.lianxh.cn/news/a9ba221282297.html目录1. 潜在语义分析 2. lsemantica 命令 2.1 理论部分 2.2 语法介绍 3. Stata 实例 3.1 英文实例-计算论文标题相似度 3.2 中文实例-计算 MD&A 相似度 4. 相关推文 1. 潜在语义分析在基于词频的文本相似度分析中,主要存在以下问题:同一个词汇在不同的语境中可能有不同的含义,即 “一词多义”; 不转载 2021-09-19 22:43:42 · 737 阅读 · 0 评论 -
在VisualStudio(vsCode)中使用正则表达式
原文链接:https://www.lianxh.cn/news/39021047ce624.htmlSource:在 Visual Studio 中使用正则表达式Visual Studio 使用.NET 正则表达式来查找和替换文本。正则表达式示例下表包含一些正则表达式字符、运算符、构造和模式示例。 有关更完整的参考,请参阅正则表达式语言。请参阅正则表达式语言 查找和替换文本原文链接:https://www.lianxh.cn/news/39021047..转载 2021-08-08 16:11:08 · 901 阅读 · 0 评论 -
正则表达式语言-快速参考
原文链接:https://www.lianxh.cn/news/cec14affce188.htmlSource:MS-正则表达式语言 - 快速参考正则表达式是正则表达式引擎尝试匹配输入文本的一种模式。 模式由一个或多个字符文本、运算符或构造组成。 有关简要介绍,请参阅.NET 正则表达式。此快速参考中的每一节都列出了可用于定义正则表达式的字符、运算符和构造的一种特定类别。另请参阅正则表达式 正则表达式类 正则表达式示例原文链接:https://www.li..转载 2021-08-08 16:09:26 · 149 阅读 · 0 评论 -
Stata:正则表达式和文本分析
原文链接:https://www.lianxh.cn/news/2f765cfd4bffe.html目录一. 命令基本语法 二. 基本规则 三. Stata 范例:利用正则表达式爬取豆瓣影评数据 四、总结 参考资料 附录:推文 dofile 合集给你一份公司年报,如何快速地从中找出与数值有关的内容。好朋友让你推荐好看的电影,如何快速地从豆瓣网站下载到每部电影的评分。 这里涉及到的问题就是如何从文本数据中挖掘出所需要的信息。Stata中的字符函数为这一操作的实现提供了..转载 2021-08-08 16:07:01 · 1115 阅读 · 0 评论 -
Python调用API进行地理编码
原文链接:https://www.lianxh.cn/news/b08df4d49099f.html平时在做数据调查的时候,我们往往只能拿到地址信息,并不方便直接进行可视化,那么如何将地址信息转化成我们所熟悉的经纬度坐标在地理信息系统中来进行可视化分析呢?国内的高德、百度等地图服务商们都有提供现成的 API 接口(地理编码服务),方便我们直接调用。本文利用地理编码服务,根据地址名称,实现批量抓取地理坐标数据。用户可通过地理编码可快速查找到各类位置。可搜索的位置类型包括:感兴趣点或地转载 2021-08-04 18:47:42 · 307 阅读 · 0 评论 -
Python调用API进行逆地理编码
原文链接:https://www.lianxh.cn/news/c79e366974316.html上一篇推文中,我们已经介绍过了地理编码,当输入地址而返回坐标时,也就是当我们输入一个建筑物名字或一个地址的时候,地图返回一个点坐标,这个过程叫地理编码;那么反过来,当输入的是点坐标而返回的是一个地址描述,这个过程叫做逆地理编码。实际运用中,地理编码和逆地理编码可以在产业集聚得到很广泛的应用,产业集聚是区域经济发展的一个重要模式。它在全球化的背景下发展起来,是一种地理集聚并在某一特定领域内相互关联的转载 2021-08-04 18:46:13 · 446 阅读 · 0 评论 -
Python调用API爬取百度POI数据
原文链接:https://www.lianxh.cn/news/223fabe3b6724.htmlPOI是“ Point of Interest ”的缩写,中文可以翻译为“兴趣点”。在地理信息系统中,一个 POI 可以是一栋房子、一个商铺、一个邮筒、一个公交站等。POI(兴趣点) 数据分类众多,包括美食、购物、旅游景点、政府机构、交通设施等地理信息数据。传统的地理信息采集方法需要地图测绘人员采用精密的测绘仪器去获取一个兴趣点的经纬度,然后再标记下来,是一个非常费时费事的工作,而利用 Pyth..转载 2021-08-04 17:48:42 · 886 阅读 · 0 评论 -
Python调用API爬取百度POI数据小贴士——坐标转换、数据清洗与ArcGIS可视化
原文链接:https://www.lianxh.cn/news/a72842993b22b.html上一篇推文中,我们主要介绍了 Python 调用 API 爬取百度 POI 数据的主要操作过程和代码解析。但在实际操作中,还有几个操作事项需要注意,解决完后方可顺利进行 POI 的爬取。所以,这篇推文会就操作过程中的这三个问题和大家一起讨论。百度坐标与 WGS84 坐标的转换 删除爬取的重复数据与处理中文乱码 爬取数据在 ArcGIS 中的可视化1. 非百度坐标的转换在调用百度 A转载 2021-08-04 17:47:11 · 872 阅读 · 0 评论 -
Python:使用正则表达式从文本中定位并提取想要的内容
原文链接:https://www.lianxh.cn/news/7c2e4aed24196.html目录一、问题提出 二、解决思路 三、代码 四、结果 一、问题提出还是年报问询函的研究,需要从问询函文本中提取交易所要求回复的日期,同时还需要从公司回复的文本中提取公司实际上回复的日期。因此需要对两类文本分别进行分析。二、解决思路通过观察,发现问询函中含有交易所要求回复的日期的句子通常是这样的:“请你公司就上述问题做出书面说明,并在 8 月 9 日前将有关说明转载 2021-08-04 17:45:26 · 861 阅读 · 0 评论 -
Python:如何优雅地管理微信数据库?
原文链接:https://www.lianxh.cn/news/d34f09cb214e0.html目录1. 如何找到微信本地缓存数据库存放地址并获取数据库密码 1.1 捷径 1.2 LLDB 调试 1.3 打开数据库并重设密码 2. 本地存储的微信数据库里都有什么? 2.1 微信好友/公众号 2.2 群聊/群成员 2.3 收藏 2.4 聊天记录 3. 如何解析数据库并提取目标信息? 4. 参考链接 最近每天在隔离点蹲着,发现隔离..转载 2021-08-04 17:43:56 · 327 阅读 · 0 评论 -
Python:6小时爬完上交所和深交所的年报问询函
原文链接:https://www.lianxh.cn/news/0e57c635cd225.html目录一、任务描述 二、解决思路 三、网页分析 1. 数据包位置 2. 翻页 3. 下载PDF 4. 深交所网页和上交所网页的区别 四、PDF转TXT 五、核心代码 1. 获取上交所问询函列表 2. 爬取PDF并直接转为TXT 3. 遍历文件夹中所有TXT和DOC文件并生成列表 六、最终爬取结果 主要参考链接昨天开组会的时候导师说想搞..转载 2021-08-04 16:27:15 · 1190 阅读 · 0 评论 -
支持向量机:Stata和Python实现
原文链接:https://www.lianxh.cn/news/4997d62149216.html目录1. SVM 介绍 1.1 SVM 简介 1.2 SVM 基本概念 1.3 SVM 算法特征 1.3 SVM 算法特征 2. SVM 求解过程 3. 核函数 3.1 使用核函数的原因 3.2 常用核函数 3.3 核函数的选择 4. SVM 的 Python 实现 5. SVM 的 Stata 实现 6. 参考文献1. SVM 介绍1.1 S转载 2021-08-01 16:38:58 · 364 阅读 · 0 评论 -
Python+Wind:用Pyautogui轻松下载Wind数据
原文链接:https://www.lianxh.cn/news/4abccd481a8e7.html目录1. 问题背景 2. 准备工作 3. 简单介绍 3.1 Wind 数据库中诸如控股或参股公司该类指标在哪? 3.2 本文示例中用到的 pyautogui 包中相关函数的详细介绍 3.3 获取上市公司股票代码列表 4. 代码实现过程 相关专题连享会 - Python 专题连享会 - 文本分析专题 1. 问题背景Wind 金融终端数据库中有很多转载 2021-07-28 16:54:10 · 640 阅读 · 0 评论 -
高考填志愿:列一份娃娃能去的大学名单
原文链接:https://www.lianxh.cn/news/97f22bc8cea82.html一句话的事:给我你的高考分数与省份,我就能给你一份可报考的高校名单 ^~^ 海哥这两天被各路亲戚朋友「骚扰」…… 干啥?全是天大的事儿!给孩子选学校呀!谁不想把「分数」用足?谁不想稳稳当当? 难呀!辣么多高校,咋选?咋选?没事,这不,海哥有武器呀!弄一段小程序,谈笑间帮你列个清单,都是「私人定制」。 不过,话又说回来了,历史虽然经常重演转载 2021-07-24 18:20:24 · 85 阅读 · 0 评论 -
Stata文本分析之-tex2col-命令-文字变表格
全文阅读:https://www.lianxh.cn/news/1ca248695eb9e.html目录1. tex2col 命令简介 1.1 下载和安装 1.2 帮助文件和语法格式 2. Stata 范例 Example 1: 逗号分隔的文本文件 → 表格 Example 2: 空格分隔的文本文件 → 表格 Example 3: 去掉千分位符号 tex2col命令旨在将一个Stata单元格的内容分成不同的列,主要适用于从 PDF 文件中提取数据并以简单的方式管.转载 2021-07-17 16:29:28 · 597 阅读 · 0 评论 -
Python:拆分文件让百万级数据运行速度提高135倍
全文阅读:https://www.lianxh.cn/news/00dd20363b364.html目录一、任务描述 二、数据描述 三、解决思路 四、潜在问题 五、优化思路 六、核心代码(以统计窗口期CAR为例) 七、统计结果样例 语言:Python 方法:拆分文件 目的:提高运行速度一、任务描述对2010年后49083条上市公司股权变更数据(Firm-Event 观测)分别统计每个事件发生前后15天公司:发布的临时公告数 累计超额收益(CAR)全文阅读:h转载 2021-07-16 18:36:32 · 222 阅读 · 0 评论 -
textfind:文本分析之词频分析-TF-IDF
全文阅读:https://www.lianxh.cn/news/1c23125ea6db3.html目录1. 引言 2 算法介绍 2.1 n-grams 算法 2.2 tf-idf 算法 3. textfind 命令 4. Stata 实操:分析政府报告 4.1 获取文本 4.2 关键词查找 4.3 结果分析 5. 结语 6. 参考文献 7. 相关推文1. 引言本文主要介绍了 Stata 中用于关键词搜索的命令:textfind。该命令能够识别、分析并将转载 2021-06-30 10:05:03 · 1978 阅读 · 0 评论 -
用正则表达式整理文献:正文与文末一一对应
全文阅读:https://www.lianxh.cn/news/9dd5a865acd9c.html1. 引言一篇规范的学术论文通常由正文、参考文献及图形表格组成。对于参考文献,通常要求其与文章正文部分所列文献一一对应。一篇论文所包含的文献少至一二十篇,多至上百篇,可见参考文献的管理是论文写作过程中的一个重要组成部分。当你写作完成,如何快速核对正文所引文献是否和文后所列参考文献一一对应?论文校稿时,编辑是如何快速发现参考文献存在遗漏或者多余的?如下面这段文字全文阅读:https://转载 2021-06-28 10:34:25 · 482 阅读 · 0 评论 -
ldagibbs-基于LDA的文档分类模型-latent-Dirichlet-allocation
全文阅读:https://www.lianxh.cn/news/419f53ae6207d.html目录1. 问题背景 2. LDA 模型的基本原理 2.1 建立概率模型 2.2 利用 Gibbs 采样近似推断 2.3 补充说明 3. 实际操作 3.1 ldagibbs 命令介绍 3.2 具体案例分析 4. 参考文献 5. 相关推文1. 问题背景由于具有多样化和高频等特点,文本数据在经济金融领域得到了广泛的应用。但是对于初学者,文本数据的收集整理还是存在一定转载 2021-06-26 18:42:05 · 250 阅读 · 0 评论 -
Stata: 正则表达式和文本分析
作者:游万海 (福州大学) (知乎 | 简书 | 码云) Stata 寒假班连玉君-江艇 主讲,2019年1月17日-27日,北京 Stata初级班 | Stata高级班 | Stata论文班 | Stata全程班Stata连享会 精彩推文1 || 精彩推文2给你一份公司年报,如何快速地从中找出与数值有关的内容。好朋友让你推荐好看的电影,如何...原创 2018-12-21 09:30:30 · 19753 阅读 · 1 评论 -
mvfiles:一次性提取多个文件夹中的文件
作者:吴玉轩 (南开大学)Stata 连享会: 知乎 | 简书 | 码云 | 优快云 Stata连享会 精品专题 || 精彩推文文章目录1. mvfiles 命令简介2. mvfiles 应用实例2.1 基于 auto 数据的模拟2.1.1 excel 文件的移动2.1.2 子文件夹下 excel 文件的提取2.2 EndNote 中 PDF 文件的提取其他相关命令关...原创 2019-05-07 09:08:40 · 5471 阅读 · 1 评论 -
连享会 - 诚聘 2019 现场班助教
「Python 爬虫与文本分析」和「空间计量专题」现场研讨班即将开始。为保证本次课程的全方位答疑解惑,现招聘培训课程助手数名,主要辅助老师的教学和答疑工作。助教可以免费参加相应班次的培训课程。A班. Python 爬虫与文本分析 (2019年5月17-19日,太原)助教要求:熟悉 Python 基本语法和操作;B班. 空间计量专题 (2019年6月27-30日,西安)...原创 2019-04-02 18:13:34 · 476 阅读 · 0 评论 -
连享会-Python爬虫与文本分析专题 (2019.5.17-19)
连享会-Python爬虫与文本分析专题研讨班文章目录连享会-Python爬虫与文本分析专题研讨班1. 课程概况2. 嘉宾简介3. 授课内容3.1 课程介绍为什么要学爬虫和文本分析?为什么要学机器学习算法?为什么要学 Python 语言?我们将学到什么?3.2 课程大纲第 1 讲 Python 基础(3小时)第 2 讲 Python 进阶(3小时)第 3 讲 Python 实现爬虫(3小时)第 ...原创 2019-03-22 15:23:02 · 3012 阅读 · 0 评论