
网络爬虫
文章平均质量分 91
爱学习的数据喵
喵喵
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
“泰迪杯”挑战赛-争对主流论坛(新浪,天涯,哇哈哈)进行正文提取
目 录 挖掘目标 全文脉络图 爬虫技术简介 3.1. 爬虫简介 3.2. 正则表达式介绍 具体步骤 4.1. 解题思路 4.2. 提取主题帖 4.3. 提取回帖 效果展示 5.1. 哇哈体育论坛爬虫结果 5.2. 新浪论坛爬虫结果 5.3. 天涯论坛爬虫结果 参考文献 1. 挖掘目标 在当今的大数据时代里,伴随着互联网和移动互联网的高速发展, 人们产生的数据总量呈现急剧增长的趋势,当前大约每六个月互联网中产生的数据总量就会翻一番。互联网产生的海量数据中蕴含着大量的信息, 已成为政府和企业的一个重要数据来原创 2021-04-29 14:57:56 · 452 阅读 · 0 评论 -
“泰迪杯”挑战赛 -利用收视记录定义用户画像(基于爬虫数据分析)
目录 一、 引言 1.1 背景 1.2 研究内容 1.3 研究思路 二、数据预处理 2.1 附件 1:用户收视信息 2.1.1 用户收视信息 2.1.2 用户回看信息 2.1.3 用户点播信息 2.1.4 用户单片点播信息 2.2 附件 2:电视产品信息数据 2.3 附件 3:用户基本信息 三、研究方案及实施 3.1 问题一 3.1.1 基于用户的协同过滤 3.1.2 基于电视产品的协同过滤 3.1.3 方案实施及测试 3.2 问题二 3.2.1 构建用户标签体系(用户画像) 3.3.2 构建产品标签体系原创 2021-04-25 11:39:16 · 1817 阅读 · 10 评论 -
“泰迪杯”挑战赛 - 利用网络爬虫提取通用论坛正文
目录 一、引言 二、实验方案 2.1 初步方案设计(解题思路) 2.2 方案具体分析 2.2.1 方案一可行性分析 2.2.2 方案二核心思想 2.2.3 方案三可行性分析 2.2.4 方案综合分析 三、 实验过程 3.1 前期准备 3.1.1 样本统计分析 3.1.2 论坛标签统计 3.1.3 主回帖判断分析 3.2 方案形成 3.2.1 选择器规律汇总 3.2.2 主回帖判断 3.2.3 初步方案 3.3 后期测试 3.3.1 查准率测试 3.3.2 查全率测试 3.4 特殊论坛提取框架 3.4.1 容原创 2021-04-23 14:02:40 · 780 阅读 · 0 评论