
java
Keep Slient,
这个作者很懒,什么都没留下…
展开
-
WebCrawler Java小爬爬 从入门到放弃 第四章
这篇可看可不看。 :)数据库相关事务配置好SQL Server2012,MySQL也可以 关系数据库就行 用外观模式写一个数据库连接类 DB_Link 博主原来自己写过一个DB_Link 但是这次不同 因为我们在爬网页的时候,爬下来的处理后的信息 会常去和数据库通信 所以Statement类已经不适用了 用PreparedStatement 顾名思义预处理过的Statement写一原创 2016-09-24 22:16:26 · 301 阅读 · 0 评论 -
WebCrawler Java小爬爬 从入门到放弃 第三章
正则表达式: 我们已经会了最简单,也是最基础的如何提取网页内容。 接下来就是从中筛选我们想要的内容。正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表通常被用来检索、替换那些符合某个模式(规则)的文本。 对regex先进行简单的了解,推荐一个网站: http://tool.chinaz.co原创 2016-09-24 21:59:16 · 1048 阅读 · 0 评论 -
WebCrawler Java小爬爬 从入门到放弃 第二章
何为爬虫? WebCrawler is a metasearch engine that blends the top search results from Google Search and Yahoo! Search. WebCrawler also provides users the option to search for images, audio, video, news, yel原创 2016-09-24 12:31:05 · 509 阅读 · 1 评论 -
WebCrawler Java小爬爬 从入门到放弃 第一章
大数据技术数据收集的一种方式:爬虫因为大数据的课程设计作业,博主用了近一周写了一个小爬爬我们的想法是爬一个网站上的名著 然后分析作者写作风格爬前准备:能力篇: 1.Java有良好的基础 2.对JS(JavaScript)、html、css、ajax有简单的了解 3.正则表达式基础掌握 4.会简单的数据库操作 5.上面都是博主忽悠你的,原创 2016-09-23 22:52:10 · 544 阅读 · 0 评论 -
WebCrawler Java小爬爬 从入门到放弃 第五章
如果你要写一个灰常灰常简单的的爬虫 第一章+第二章 就结束了 因为博主爬的这个稍稍有点复杂 :) 我没有开玩笑 理解了 就挺简单博主要爬的是网站是这个:http://www.mzhu8.com/mulu/17/1.html !!!强烈建议用个插件 或者净网大师 否则会弹出来十万个网页 :) 我们在考虑选材时,觉得国外的名著和网络小说,很难分析出写作风格。 所以我们选择了近代文学,这是一个原创 2016-09-25 22:49:09 · 474 阅读 · 1 评论 -
WebCrawler Java小爬爬 从入门到放弃 第六章
上一章 博主细化了写入本地的类,建立了目录形式,其中用到了FamousBookLocalInfo书籍本地存储信息类。 说是本地存储信息,其实是将本地存储的书籍信息概要写到数据库里,然后通过这个类进行相关数据库的操作。 由于我们在爬的过程中经常访问数据库,前面我们也用外观模式写了一个数据库链接类,用PreparedStatement优化操作速度。这里我们用饿汉式单例模式写这个FamousBookL原创 2016-09-26 14:57:37 · 322 阅读 · 0 评论 -
WebCrawler Java小爬爬 从入门到放弃 第七章
整理一下思路,准备结束我们的小爬爬之路。 本来想用PowerDesigner画几张图 结果惨不忍睹 : ) 所以就文字简述一下吧我们要爬的这个网页有四级页面: 1级页面:目录列表 2级页面:书籍介绍页面 3级页面:书籍章节页面 4级页面:书籍信息 所以我们采用深度优先算法的思想,伪代码如下:从传入的初始页面,将1级页面压入栈S1 while(S1!=null){ 取S1栈顶页面x原创 2016-09-27 11:15:26 · 488 阅读 · 0 评论