第一部分: 需求分析 • 将原始日志做清洗,提取符合规范的数据 • 将用户信息保存到用户信息表 中 • 将未爬去过的网页信息保存到为爬去的网页列表中 原始日志格式 用户ID 昵称 访问URL 访问开始时间 访问结束时间 IP地址 流量