
Java爬虫
文章平均质量分 85
汤姆猫少年
这个作者很懒,什么都没留下…
展开
-
Selenium的使用
1.前提工作。一、注入对应的依赖jar包https://mvnrepository.com/可以从以上网站找到对应的依赖,然后注入maven仓库中。 <!-- Selemiun --> <!-- https://mvnrepository.com/artifact/org.seleniumhq.selenium/selenium-java --> <dependency> <groupId>org原创 2021-06-16 20:11:19 · 1646 阅读 · 0 评论 -
Java网络爬虫学习记录(6.实战篇)
实战框架介绍① db层介绍:数据类,该层主要用来进行数据库连接配置、数据库CRUD②model层介绍:实体类,封装数据。③ util层介绍:工具类,URL请求、时间格式化、文本读写等④ parse层介绍:解析类,对获取的HTML、XML、JSON内容进行解析⑤ main层介绍:主程序类,调用各层方法进行操作。实战一、新闻数据采集目的:获取某网站的新闻数据,json格式。①创建数据库,接收爬取的数据。CREATE TABLE sinanews (docid var原创 2021-06-16 19:22:23 · 194 阅读 · 0 评论 -
Java网络爬虫学习记录(5.内容存储篇)
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例原创 2021-05-20 09:35:32 · 1039 阅读 · 0 评论 -
Java网络爬虫学习记录(解析内容篇)
4 网页内容解析4.1 HTML4.1.1 CSS选择器1——基础选择器(略过)2——属性选择器 扩(可以指定具体标签的属性):div[title]属性选择器 选择器(举例) 含义 [title] 选择带有title元素的所有属性 [^tit] 查找属性前缀为titl的所有元素 [title="abc"] 选择title="abc"的所有元素 [title~="ab"] 选择title包含ab的所有元素 [title^="abc"]原创 2021-05-17 21:19:31 · 479 阅读 · 0 评论 -
Java网络爬虫学习记录(请求基础篇)
前言:参考书籍——网络数据采集技术Java网络爬虫实战(钱洋、姜元春)1. 网络爬虫及Java基础知识1.1 集合网络爬虫涉及List、Set、Queue、Map等集合,全都封装于java.util包中。1.1.1 List和Set集合集合 特征 List 以线性方式存储,可以存放重复对象。 Set 无特定方式排序,会过滤重复对象。 List: //List集合创建 List<...原创 2021-05-13 23:28:46 · 1962 阅读 · 0 评论