
C#爬虫
永远的小白虾
无论什么时候,面对这计算机的浩瀚海洋,我都是小白虾
展开
-
使用HtmlAgilityPack和ScrapySharp爬取多个网页的新闻
最近需要学习一些C#爬虫技术,在网上看到了有大佬使用HtmlAgilityPack和ScrapySharp爬取新闻,然后我就找了一个自己需要的网站http://www.ahmhxc.com/,进行爬取多个网页新闻的标题,摘要,内容的测试。首先第一步,using System;using System.Text;using ScrapySharp.Extensions;using Scra...原创 2019-07-07 18:21:20 · 510 阅读 · 0 评论 -
C#爬虫抓取搜狗搜索第一条链接网页的标题
首先要安装ScrapySharp和HtmlAgilityPack,NuGet里面安装就可以了。搜狗搜索2020年首探火星,打开开发者工具,得到以下界面之后是第一条链接的页面:此次完成的就是使用代码直接完成搜索引擎的第一条链接的读取。下面附上C#代码:using System;using System.Collections.Generic;using ScrapySharp.Ne...原创 2019-07-07 20:29:35 · 930 阅读 · 0 评论 -
C#爬虫爬取百度搜索第一条的文章
使用C#爬虫去爬取百度搜索,由自己组合成关键词,搜索各区县的工作报告,获取到百度搜索第一条的网页,爬取上面的标题,摘要,正文。下面只举了三个例子,如果你想多尝试一下,也可以多输入几个。使用了两个包,HtmlAgilityPack和ScrapySharp可以在NuGet里面下载废话不多说,开始上代码。using System;using System.Collections.Generic...原创 2019-07-09 11:03:18 · 1642 阅读 · 0 评论 -
C# 爬虫使用Selenium webDriver下载pdf文件踩的坑
这段时间在做一个爬虫项目,所以用到了selenium webDriver这个包。在这个过程中的真的也是踩了不少的坑。目前来说说,自己觉得的坑吧!首先,如果需要下载pdf文件的话,请不要使用chrome浏览器,因为其中的pdf查看器如何关闭,我找了一天都没找到。网上的基本都是关闭pdf的一个插件。可是近期版本的chrome好像已经取消了pdfviewer这个插件。chrome中跟pdf有关的,...原创 2019-07-31 21:45:54 · 3990 阅读 · 0 评论 -
(selenium+C#爬虫)如何禁止下载提示框,直接下载各类文件(pdf,zip,doc)
在使用selenium+c#+firefox的过程中,因为要直接下载pdf文件,zip等等多种文件,于是便有了下面的代码。 FirefoxOptions tempOptions = new FirefoxOptions(); tempOptions.SetPreference("pdfjs.disabled", true);//关闭pdf查看 ...原创 2019-08-15 16:07:57 · 1140 阅读 · 0 评论 -
C#使用selenium写爬虫提高速度的关键
这段时间一直在搞爬虫,学了一段时间之后,最后还是使用的selenium模拟浏览器来进行爬取。就来记录一下自己踩的坑。一开始在网上找提升selenium爬虫速度的方法,都是说什么多线程,关闭图片读取之类的。当然我也贴一个关闭图片读取的代码,毕竟还是挺有用的。var options = new FirefoxOptions(); options.SetPreference("permissio...原创 2019-08-11 21:45:00 · 3487 阅读 · 4 评论 -
C#使用selenium的爬虫速度再提升十倍的方法在这
紧接上文啊!这个方法其实就是使用打开窗口的方式。使用下面这行核心代码: driver.ExecuteScript("window.open(\"" + url + "\")");就这么简单。你可以一次性打开浏览器的20个窗口,然后获取他们的窗口句柄,通过切换窗口句柄,来得到源码,进行操作。void craw(){int currentIndex=0;List<string...原创 2019-08-11 21:59:58 · 2021 阅读 · 1 评论