
python
arlionn
毕业于西安交通大学,现任教于中山大学岭南学院。公众号「连享会 (ID:lianxh_cn)」创办人。
展开
-
Python:文本分析必备—搜狗词库
jieba库是进行中文分词的一大利器,但jieba自带的词典并不完美。在实际操作过程中,用户需要添加特定的词典,来提高分词的准确性。搜狗细胞词库是外部词典的重要来源之一,提供了 12 类近 6000 个细胞词库。本文将详细展示搜狗词库的爬取和整理过程,并提供搜狗词库文本文档资源 (TXT 格式),读者可点击「搜狗词库」下载。转载 2022-11-21 10:21:26 · 537 阅读 · 0 评论 -
Python:Jaccard相似度和距离
Jaccard 相似度,广泛应用于数据之间相似程度的计算,如集合相似度、文本相似度等。本文的 Python 实例需要使用到scipy、sklearn和numpy三个模块。转载 2022-09-18 15:32:41 · 274 阅读 · 0 评论 -
Stata+Python:导入超大Excel文档的新思路-以国泰安为例
以 CSMAR 上市公司数据库董监高个人特征数据为例,原始 Excel 文档高达 180MB ,Stata 无法直接导入。对于该问题,网络上已有相关讨论,连享会《命令导入 Excel 文档方便且高效。但 Stata 在导入体积超过 40MB 的 Excel 文档时会报错并提示文档过大。除此之外,也可以在下载阶段就将大型数据分为若干文档以满足 Stata 导入要求。》总结了四种处理该问题的方法并列出了优缺点。...转载 2022-08-11 18:55:40 · 1023 阅读 · 0 评论 -
Stata-Python交互-10:Stata17新特性之PyStata的配置与应用
使用 Stata17 中的 PyStata 来便捷地完成Stata 与 Python 的交互转载 2022-08-09 18:37:49 · 936 阅读 · 0 评论 -
Python:计算管理层讨论与分析的余弦相似度
我们所熟知的智能推荐算法,在很大程度上依赖于能否正确识别一组研究对象或用户之间的相似性。计算相似度的方法有很多,本文主要介绍余弦相似度。转载 2022-08-09 18:34:50 · 434 阅读 · 0 评论 -
Stata+Python:同花顺里爬取创历史新高的股票
中国A股市场上如何择股?有一类投资者偏好投资创历史新高的股票。其逻辑是股价创新高有创新高的道理,可能有很好的业绩支撑或者公司业务有突破性发展,只是当前消息还没有公布,所以有的资本市场的弄潮儿偏好这类股票。本文尝试利用 Stata 爬取同花顺数据中心提供的创历史新高股票数据,实现自动爬取每个交易日的数据,不过需要 Stata 中配置 Python 环境才可运行。 该爬虫难度不大,只需要把网页数据抓取得到即可。...转载 2022-06-09 21:05:11 · 733 阅读 · 0 评论 -
Stata与Python等价命令
目录1. 简介 2. multicoefplot 命令 3. 实例演示 3.1 数据处理 3.2 图像绘制 3.3 同时估计并可视化不同模型 4. 相关推文1. 简介本文主要介绍由苏黎世联邦理工学院教授 Matteo Pinna 开发的,用于时间维度横截面分析的可视化操作命令multicoefplot。该命令最大的优势是在横截面比较的同时,允许不同控制变量集下得到的点估计系数以及置信区间进行直接比较。全文.转载 2022-05-24 15:36:10 · 243 阅读 · 0 评论 -
Python爬取静态网站:以历史天气为例
全文阅读:Python爬取静态网站:以历史天气为例| 连享会主页目录1. 静态网页和动态网页 2. 静态网页爬取的思路 3. 案例之爬取历史天气 3.1 分析网页结构 3.2 请求网页数据 3.3 解析网页数据 3.4 储存爬取数据 3.5 循环爬取数据 4. 完整代码 5. 相关推文 数据获取是实证研究的第一步。随着互联网数据的指数级增长,网络数据成为重要且常用的数据源。网络爬虫也因此成为获取数据的重要方式。但是我们通常会觉得爬虫非常复杂,不知..转载 2022-05-01 23:11:06 · 268 阅读 · 0 评论 -
Python:绘制动态地图-pyecharts
全文阅读:Python:绘制动态地图-pyecharts| 连享会主页目录1. 简介 2. pyecharts 库介绍 2.1 pyecharts 库的安装 2.2 pyecharts 库配置一览 3. 案例操作 4. 参考资料 5. 相关推文Data to Drag1. 简介许多软件可以绘制精美的图表,例如 Stata 、ACGIS、Excel 等等,但这些软件呈现的图表大都以静态为主。在本文中,我们将介绍百度的 Python 开源画图工具——pyecharts,转载 2022-05-01 23:09:13 · 1129 阅读 · 0 评论 -
Python爬虫1:requests和json
全文阅读:Python爬虫1:小白系列之requests和json| 连享会主页目录0. 写在前面 1. 抓包 2. 准备 URL 列表 3. 发送请求,获取响应:requests 3.1 GET 方法 3.2 POST 方法 4. 数据提取大法 :json 及 jsonpath 4.1 json 模块的入门使用 4.2 jsonpath 语法规则 5. 持久化存储 6. 附:完整 Python 文件代码 7. 相关推文0. 写在前面初识 Python,感转载 2022-03-24 22:03:34 · 248 阅读 · 0 评论 -
Python+Stata:如何获取中国气象历史数据
全文阅读:Python+Stata:如何获取中国气象历史数据| 连享会主页目录1. 数据介绍 2. 数据处理 3. 结束语 4. 相关推文 1. 数据介绍中国气象历史数据来源是美国国家气候数据中心 (NCDC),其数据存放网址为Index of /data。具体来看,下图左半部分美国国家气候数据中心的数据清单,右半部分为我们感兴趣的全球气象小时数据。可以看到,global-hourly 目录下有三个文件夹,其中 access 存放的是全球每年每个站点的所有监测.转载 2021-12-18 21:11:37 · 709 阅读 · 2 评论 -
Python爬虫:爬取华尔街日报的全部历史文章并翻译
全文阅读:https://www.lianxh.cn/news/e080bab8798f9.html目录爬取华尔街日报的全部历史文章并翻译 1. 获取 Cookies 2. 获取文章列表 2.1 网页分析 2.2 代码 2.3 文章列表 2.4 文章年份分布 2.5 文章主题分布 3. 爬取文章内容 3.1 分析网页 3.2 爬取文章代码 3.3 爬取文章样例 4. 翻译 4.1 翻译文章代码 4.2 翻译文章样例 5. 参考文献 6.转载 2021-10-26 22:45:57 · 586 阅读 · 0 评论 -
Python调用API进行地理编码
原文链接:https://www.lianxh.cn/news/b08df4d49099f.html平时在做数据调查的时候,我们往往只能拿到地址信息,并不方便直接进行可视化,那么如何将地址信息转化成我们所熟悉的经纬度坐标在地理信息系统中来进行可视化分析呢?国内的高德、百度等地图服务商们都有提供现成的 API 接口(地理编码服务),方便我们直接调用。本文利用地理编码服务,根据地址名称,实现批量抓取地理坐标数据。用户可通过地理编码可快速查找到各类位置。可搜索的位置类型包括:感兴趣点或地转载 2021-08-04 18:47:42 · 307 阅读 · 0 评论 -
Python调用API进行逆地理编码
原文链接:https://www.lianxh.cn/news/c79e366974316.html上一篇推文中,我们已经介绍过了地理编码,当输入地址而返回坐标时,也就是当我们输入一个建筑物名字或一个地址的时候,地图返回一个点坐标,这个过程叫地理编码;那么反过来,当输入的是点坐标而返回的是一个地址描述,这个过程叫做逆地理编码。实际运用中,地理编码和逆地理编码可以在产业集聚得到很广泛的应用,产业集聚是区域经济发展的一个重要模式。它在全球化的背景下发展起来,是一种地理集聚并在某一特定领域内相互关联的转载 2021-08-04 18:46:13 · 446 阅读 · 0 评论 -
Python调用API爬取百度POI数据
原文链接:https://www.lianxh.cn/news/223fabe3b6724.htmlPOI是“ Point of Interest ”的缩写,中文可以翻译为“兴趣点”。在地理信息系统中,一个 POI 可以是一栋房子、一个商铺、一个邮筒、一个公交站等。POI(兴趣点) 数据分类众多,包括美食、购物、旅游景点、政府机构、交通设施等地理信息数据。传统的地理信息采集方法需要地图测绘人员采用精密的测绘仪器去获取一个兴趣点的经纬度,然后再标记下来,是一个非常费时费事的工作,而利用 Pyth..转载 2021-08-04 17:48:42 · 886 阅读 · 0 评论 -
Python调用API爬取百度POI数据小贴士——坐标转换、数据清洗与ArcGIS可视化
原文链接:https://www.lianxh.cn/news/a72842993b22b.html上一篇推文中,我们主要介绍了 Python 调用 API 爬取百度 POI 数据的主要操作过程和代码解析。但在实际操作中,还有几个操作事项需要注意,解决完后方可顺利进行 POI 的爬取。所以,这篇推文会就操作过程中的这三个问题和大家一起讨论。百度坐标与 WGS84 坐标的转换 删除爬取的重复数据与处理中文乱码 爬取数据在 ArcGIS 中的可视化1. 非百度坐标的转换在调用百度 A转载 2021-08-04 17:47:11 · 872 阅读 · 0 评论 -
Python:使用正则表达式从文本中定位并提取想要的内容
原文链接:https://www.lianxh.cn/news/7c2e4aed24196.html目录一、问题提出 二、解决思路 三、代码 四、结果 一、问题提出还是年报问询函的研究,需要从问询函文本中提取交易所要求回复的日期,同时还需要从公司回复的文本中提取公司实际上回复的日期。因此需要对两类文本分别进行分析。二、解决思路通过观察,发现问询函中含有交易所要求回复的日期的句子通常是这样的:“请你公司就上述问题做出书面说明,并在 8 月 9 日前将有关说明转载 2021-08-04 17:45:26 · 861 阅读 · 0 评论 -
Python:如何优雅地管理微信数据库?
原文链接:https://www.lianxh.cn/news/d34f09cb214e0.html目录1. 如何找到微信本地缓存数据库存放地址并获取数据库密码 1.1 捷径 1.2 LLDB 调试 1.3 打开数据库并重设密码 2. 本地存储的微信数据库里都有什么? 2.1 微信好友/公众号 2.2 群聊/群成员 2.3 收藏 2.4 聊天记录 3. 如何解析数据库并提取目标信息? 4. 参考链接 最近每天在隔离点蹲着,发现隔离..转载 2021-08-04 17:43:56 · 327 阅读 · 0 评论 -
Python:6小时爬完上交所和深交所的年报问询函
原文链接:https://www.lianxh.cn/news/0e57c635cd225.html目录一、任务描述 二、解决思路 三、网页分析 1. 数据包位置 2. 翻页 3. 下载PDF 4. 深交所网页和上交所网页的区别 四、PDF转TXT 五、核心代码 1. 获取上交所问询函列表 2. 爬取PDF并直接转为TXT 3. 遍历文件夹中所有TXT和DOC文件并生成列表 六、最终爬取结果 主要参考链接昨天开组会的时候导师说想搞..转载 2021-08-04 16:27:15 · 1190 阅读 · 0 评论 -
珠联璧合II:JupyterNotebook与Matlab之融合
原文链接:https://www.lianxh.cn/news/b0be4d28c6550.html相关推文:使用 Jupyter Notebook 配置 Stata\Python\Julia\R 珠联璧合 I:Jupyter Notebook 和 Stata 关联 (windows系统) 珠联璧合 II:Jupyter Notebook 与 Matlab 之融合 目录1. 准备工作-关联前提 2. 安装 MATLAB 的 Python 拓展 2.1 获取扩展的路径转载 2021-08-02 17:34:30 · 384 阅读 · 0 评论 -
Python:爬取上市公司公告-Wind-CSMAR
原文链接:https://www.lianxh.cn/news/ca3a4a5b54758.html编者按:自连享会「文本分析与爬虫 - 视频专题课程(4天)」上线以来,小伙伴们根据课程所学,掀起了一波爬虫热潮,先后完成了一系列非常实用的推文,且多数内容都已应用于自己的论文中:「Python: 6 小时爬完上交所和深交所的年报问询函」 「Python爬虫: 《经济研究》研究热点和主题分析」 「Python+微信: 如何优雅地管理微信数据库?」 其他相关推文参见连享会主页-Py..转载 2021-08-01 17:43:25 · 1900 阅读 · 0 评论 -
支持向量机:Stata和Python实现
原文链接:https://www.lianxh.cn/news/4997d62149216.html目录1. SVM 介绍 1.1 SVM 简介 1.2 SVM 基本概念 1.3 SVM 算法特征 1.3 SVM 算法特征 2. SVM 求解过程 3. 核函数 3.1 使用核函数的原因 3.2 常用核函数 3.3 核函数的选择 4. SVM 的 Python 实现 5. SVM 的 Stata 实现 6. 参考文献1. SVM 介绍1.1 S转载 2021-08-01 16:38:58 · 364 阅读 · 0 评论 -
Python+Wind:用Pyautogui轻松下载Wind数据
原文链接:https://www.lianxh.cn/news/4abccd481a8e7.html目录1. 问题背景 2. 准备工作 3. 简单介绍 3.1 Wind 数据库中诸如控股或参股公司该类指标在哪? 3.2 本文示例中用到的 pyautogui 包中相关函数的详细介绍 3.3 获取上市公司股票代码列表 4. 代码实现过程 相关专题连享会 - Python 专题连享会 - 文本分析专题 1. 问题背景Wind 金融终端数据库中有很多转载 2021-07-28 16:54:10 · 640 阅读 · 0 评论 -
Python+Stata:批量制作个性化结业证书
原文链接:https://www.lianxh.cn/news/1164f7ad9b4cc.html目录1. 需求 2. 初步想法 3. 编写函数 4. 循环生成全部证书 5. 在 `Stata` 中运行以上代码 6. 参考资料1. 需求事情缘起:半个月前,接到老师的一项任务,能否批量生成连享会的结业证书。结业证书的模版是这样的。简单观察能够发现共需要填写 7 个空格,分别是姓名、单位、月份1、日期1、月份2、日期2以及课时数。手工去一个个从Excel中找到信息..转载 2021-07-23 11:29:26 · 399 阅读 · 1 评论 -
Python:拆分文件让百万级数据运行速度提高135倍
全文阅读:https://www.lianxh.cn/news/00dd20363b364.html目录一、任务描述 二、数据描述 三、解决思路 四、潜在问题 五、优化思路 六、核心代码(以统计窗口期CAR为例) 七、统计结果样例 语言:Python 方法:拆分文件 目的:提高运行速度一、任务描述对2010年后49083条上市公司股权变更数据(Firm-Event 观测)分别统计每个事件发生前后15天公司:发布的临时公告数 累计超额收益(CAR)全文阅读:h转载 2021-07-16 18:36:32 · 222 阅读 · 0 评论 -
数据分析修炼历程:你在哪一站?
全文阅读:https://www.lianxh.cn/news/b02c165232abe.html这篇文章很有意思,转之……原文:Software for Researchers: New Data and Applications作者:Anton Tarasenko 目录Standard Tools New Data Sources One Programming Language Version Control and Repository Sharing Sto..转载 2021-07-09 12:12:07 · 100 阅读 · 0 评论 -
Stata-Python交互-9:将python数据导入Stata
全文阅读:https://www.lianxh.cn/news/929a3cc22307b.html目录1. 导读 2. 实例说明 2.1 下载并处理数据 2.2 拷贝数据到Stata 2.3 作图 3. 参考资料 4. 相关推文1. 导读本文介绍如何使用SFI模块将python数据拷贝到Stata,原文使用python的yfinance模块从Yahoo!Finance网站下载道琼斯工业指数(DJIA)。鉴于国内连接yfinance不太稳定。本文改用pandas_d转载 2021-06-29 17:39:53 · 441 阅读 · 0 评论 -
Stata-Python交互-8:将Stata数据导入Python
全文阅读:https://www.lianxh.cn/news/17c9d76816839.html目录1. 在 Stata 中调用 python 2. 使用 sfi 模块读取 Stata 数据 3. 将数据转换为数据框或字典 4. 将 Stata 数据集完全复制 5. 结论 6. 参考资料 7. 相关推文Stata16 已开发了与 python 交互的功能,本小节我们将介绍如何在 Stata 中调用 python,将 Stata 的数据导入至 python 中。我们熟悉的读取转载 2021-06-29 17:37:25 · 1435 阅读 · 0 评论 -
Stata-Python交互-7:在Stata中实现机器学习-支持向量机
全文阅读:https://www.lianxh.cn/news/f1359e7fa9488.html目录1. 数据探索性分析 2. 使用交叉验证来拟合最优 SVM 模型 3. 在测试集上拟合模型 4. 结论 5. 参考资料 6. 相关推文Stata16 已具有和 python 交互的功能,由此,我们可以在 Stata 中调用 python,也可以在 python 中读取 Stata 数据,从而实现“他山之石,可以攻玉”。本节我们将向大家介绍在 stata 中实现机器学习,我们将使转载 2021-06-29 17:34:35 · 1212 阅读 · 0 评论 -
Stata-Python交互-6:调用APIs和JSON数据
全文阅读:https://www.lianxh.cn/news/957b9df0d08e1.html目录1. 引言 2. API 和 JSON 3. 为 API 定义一个 URL 4. 通过 API 指令抓取数据 5. 将 JSON 数据转化为 Stata 数据集 6. 结语 7. 相关推文1. 引言在大数据时代,数据无处不在。许多政府部门、金融机构、大学、以及网络平台上都会通过应用程序接口 (Application Programming Interface, API) 提供数据转载 2021-06-29 13:04:41 · 366 阅读 · 0 评论 -
Stata-Python交互-5:边际效应三维立体图示
全文阅读:https://www.lianxh.cn/news/303e9d5a0087c.html目录1. 引言 2. 连续型变量相互交乘的概率预测 3. 使用 pandas 将边际预测结果读入 Python 4. 使用 NumPy 创造一个数字列表 5. 使用 Matplotlib 绘制三维表面图 6. 总结 7. 代码示例(example.do) 8. 相关推文全文阅读:https://www.lianxh.cn/news/303e9d5a0087c.html...转载 2021-06-29 13:00:47 · 742 阅读 · 0 评论 -
Stata-Python交互-4:如何调用Python宏包
全文阅读:https://www.lianxh.cn/news/b7fd8023587cf.html目录1. 引言 2. 导入模块以使用软件包 3. 使用别名导入模块 4. 使用模块中的方法和类 5. 从模块中导入方法和类 6. 用别名导入函数和类 7. 回顾与总结 8. 相关推文1. 引言在上篇推文中,我们展示了如何运用 pip 安装四个受欢迎的 Python 软件包。 今天,我们将展示关于如何导入和使用 Python 软件包的基础知识,并学习一些重要的 Python转载 2021-06-29 12:56:17 · 232 阅读 · 0 评论 -
Stata-Python交互-3:如何安装Python宏包
全文阅读:https://www.lianxh.cn/news/5c93706797ad1.html目录1. 引言 2. 使用 pip 安装 Python 包 3. 结语 4. 相关推文1. 引言在上一期中,我们介绍了如何在 Stata 中使用 Python 的三种方法。不过,这些都相对简单,Python 真正的强大在于其提供的成千上万个免费包。本期,将为大家介绍如何通过 Stata 安装 Python 包。全文阅读:https://www.lianxh.cn/news/5c转载 2021-06-29 10:35:16 · 511 阅读 · 0 评论 -
Stata-Python交互-2:在Stata中调用Python的三种方式
全文阅读:https://www.lianxh.cn/news/290a48d428074.html1. 引言上一期文章介绍了如何下载安装 Python 并设置 Stata 来使用 Python。本期,我们要介绍在 Stata 中使用 Python 的三种方法:以交互方式调用 Python; 在 do 和 ado 文档中运行 Python 代码; 执行 Python 脚本文件。2. 使用方法2.1 以交互方式调用 Python通过在 Stata 的命令窗口中输入python,.转载 2021-06-29 10:32:21 · 2353 阅读 · 0 评论 -
Stata-Python交互-1:二者配合的基本设定
全文阅读:https://www.lianxh.cn/news/285493e301c8a.htmlStata/Python 交互系列推文源自 Stata 公司的统计项目总监Chuck Huber博士发表于 Stata 官网的系列博文,一共 9 篇。较为系统地介绍了 Stata 与 Python 的交互方式,包括:如何配置你的软件、如何实现 Stata 与 Python 数据集互通、如何调用 Python 工具包、如何进行机器学习分析等。Part 1: Setting up Stata t...转载 2021-06-29 10:28:49 · 447 阅读 · 0 评论 -
司继春:Python学习建议和资源
全文阅读:https://www.lianxh.cn/news/e353969e44de9.html目录1. Python 简介 2. 书籍 3. 在线网站 4. 安装教程 5. 专题教程 Note:这部分内容截取自司继春老师讲义 (课程主页:https://gitee.com/lianxh/text),并进行小幅修改和调整。1. Python 简介Python 是一门易学易用的语言,其强大的包库,大大减轻了程序人员的负担。如下是学习 Python 的一些建议和资源转载 2021-06-28 14:33:47 · 137 阅读 · 0 评论 -
连享会 - 诚聘 2019 现场班助教
「Python 爬虫与文本分析」和「空间计量专题」现场研讨班即将开始。为保证本次课程的全方位答疑解惑,现招聘培训课程助手数名,主要辅助老师的教学和答疑工作。助教可以免费参加相应班次的培训课程。A班. Python 爬虫与文本分析 (2019年5月17-19日,太原)助教要求:熟悉 Python 基本语法和操作;B班. 空间计量专题 (2019年6月27-30日,西安)...原创 2019-04-02 18:13:34 · 476 阅读 · 0 评论 -
连享会-Python爬虫与文本分析专题 (2019.5.17-19)
连享会-Python爬虫与文本分析专题研讨班文章目录连享会-Python爬虫与文本分析专题研讨班1. 课程概况2. 嘉宾简介3. 授课内容3.1 课程介绍为什么要学爬虫和文本分析?为什么要学机器学习算法?为什么要学 Python 语言?我们将学到什么?3.2 课程大纲第 1 讲 Python 基础(3小时)第 2 讲 Python 进阶(3小时)第 3 讲 Python 实现爬虫(3小时)第 ...原创 2019-03-22 15:23:02 · 3012 阅读 · 0 评论