自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 计量语言学工具指南

计量语言学通过数学统计方法研究语言规律,核心工具包括:Python/PyCharm(数据处理与NLP)、R/RStudio(统计建模)、SPSS(统计分析)、Origin(可视化)、AntConc(语料分析)、QuanSyn(句法计量)、AnyTXT(全文检索)和Pajek(语言网络分析)。这些工具各具优势,如Python适合大规模分析,R擅长统计检验,SPSS降低入门门槛,共同支持从基础词频统计到复杂语言网络建模的全流程研究。工具选择需结合研究规模和技术需求,灵活搭配可显著提升语言计量研究的效率与深度。

2025-06-16 15:08:12 1875

原创 Reddit社媒评论爬虫

它对Reddit的RESTful API进行了封装,使得我们可以用非常简洁、Pythonic 的方式获取Reddit上的数据,如帖子、评论、投票、用户信息等。的子板块组成(例如:r/AskReddit、r/worldnews、r/movies),每个子板块聚焦于一个特定主题,用户可以在其中发帖、评论、投票。确保使用一个描述性的 user_agent ,以便Reddit可以联系你(如果需要)并了解你的应用程序的用途。你需要修改的信息是6-10行,68、70行的代码。第三步,创建完app后,找到对应信息。

2025-05-12 21:39:47 1508 1

原创 web自动化B站评论爬虫

使用的第三方库:drissionpage(官方文档:💥 4.1 功能介绍 | DrissionPage官网)、pandas、openpyxl使用的编程环境:PyCharm使用的浏览器:chrome思路:通过监听接口来获取存放评论相关的数据包,再提取出所需要的数据,最后保存到xlsx文件内。与上篇相似,本文还是通过web自动化技术的监听接口的方式来进行爬虫。既然要监听接口,那我们就要确定哪个接口存放我们想要的数据。

2025-02-17 20:44:36 1002

原创 web自动化微博评论爬虫

使用的编程环境:PyCharm使用的浏览器:chrome思路:通过监听接口来获取存放评论相关的数据包,再提取出所需要的数据,最后保存到xlsx文件内。本文将介绍如何使用web自动化技术应用于爬虫。至于使用web自动化技术爬虫的原因,现在我们请deepseek为我们解释:使用Web自动化技术进行爬虫,主要是为了应对一些复杂的网页情况。简单来说,有些网页的内容不是直接加载的,而是通过用户操作(比如点击按钮、滚动页面)或JavaScript代码动态生成的。传统的爬虫工具无法直接获取这些动态内容。

2025-02-16 14:31:50 1505 2

原创 Python微博动态爬虫

本文是刘金路的《语言数据获取与分析基础》第十一章的扩展,详细解释了如何利用Python进行微博爬虫,爬虫内容包括微博指定帖子的一级评论、评论时间、用户名、id、地区、点赞数。

2024-11-28 12:02:34 5840 8

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除