C#爬取

17.8.16学习日志

C#爬取网页信息传递到HTML中

今天我的任务是处理后台页面的SEO信息和安全监测信息,刚开始我查阅资料了解什么是SEO和安全监测,了解到了站长工具这个网站可以查阅SEO和安全监测,但是————这并不是我需要的。。

我需要的是类似接口这样的工具,我传递过去网址以及其他参数,接口返还给我百度及其它搜索引擎收录的网站数目和安全检测结果,但是经过我的调研————首先这种接口基本收费,而且达不到我的需求,在查阅资料之后,我的解决方法是爬取网站信息。

首先打开需要爬取的网站,比如百度,然后在搜索框中加入需要查询的关键字,如我需要的网站收录数目:”site:www.steelhome.cn”,那么点击搜索地址栏出现的就是https://www.baidu.com/s?wd=site%3Awww.steelhome.cn&ie=UTF-8

接下来就是我们的代码时间

    static void Main(string[] args)
    {
    WebClient MyWebClient = new WebClient();
    MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据
    string x = "https://www.baidu.com//s?wd=site%3Awww.steelhome.cn&ie=UTF-8";
    Byte[] pageData = MyWebClient.DownloadData(x); //从指定网站下载数据
    string pageHtml = Encoding.UTF8.GetString(pageData);  //如果获取网站页面采用的是GB2312,则使用default            
    //Console.WriteLine(pageHtml);//在控制台输入获取的内容
    //Console.ReadKey();
    //StreamWriter sw = new StreamWriter("C:\\Users\\Administrator\\Desktop\\out.txt");
    //sw.Write(pageHtml);
    //sw.Close();
    string start = "备案方:上海钢之家电子商务股份有限公司";
    string end = "到站长平台分析收录量";
    var startIndex = pageHtml.IndexOf(start);
    var endIndex = pageHtml.IndexOf(end);
    string temp = pageHtml.Substring(startIndex + start.Length + 174, endIndex - startIndex - 440);
    Console.WriteLine(temp);//在控制台输入获取的内容
    Console.ReadKey();
    }

最好加上异常处理防止网页出现错误,这里就不加了。

在正式程序中,把main方法换成静态public方法,并返回值,并在模板页文件中的模板选择方法,选择你需要传递到的HTML页面,在HTML页面直接调用就可以了,下面是模板选择方法和HTML中的参数调用

if (templettype == "index")
   {
        t.Context.TempData["baiduseo"] = SEO.baiduSeoList();
        t.Context.TempData["sougouseo"] = SEO.sougouSeoList();
        t.Context.TempData["tszseo"] = SEO.threesixzeroSeoList();
        t.Context.TempData["problems"] = SEO.problemList();
    }

<div class="custom seo">
<h3>SE0信息</h3>
<article>
    百度收录: <span>$baiduseo</span><br>
    搜狗收录: <span>$sougouseo</span><br>
    360收录:  <span>$tszseo</span><br>
</article>
</div>

这就是我的处理方式,日志记录一下。
tupian

<think>嗯,用户想用C#爬取一个需要登录的网页。首先,我得理清楚步骤。可能需要模拟登录,然后保持会话去访问其他页面。对吧? 首先,用户需要了解目标网的登录机制。是不是表单提交?或者有验证码?可能需要分析登录时的POST请求参数。比如,有些网会用隐藏的字段,比如CSRF token,或者需要处理Cookie。 然后,C#里常用的类应该是HttpClient。不过HttpClient默认是无状态的,如何处理Cookie呢?可能需要用HttpClientHandler来管理Cookie容器,这样登录后的Cookie可以自动保存,后续请求携带上去。 接下来,构造登录的POST请求。需要找到登录的URL,可能需要查看网页表单的action属性。参数的话,除了用户名和密码,可能还有其他隐藏字段,得用开发者工具抓包看看。 比如,用Fiddler或者浏览器开发者工具查看登录时的请求头、表单数据。然后模拟这些数据,包括可能的验证码处理。不过验证码的话就比较麻烦,可能需要第三方服务或者手动输入。 登录成功后,保持同一个HttpClient实例,这样Cookie会自动带在之后的请求中。然后就可以访问需要登录的页面,比如用户主页或者其他受保护的内容。 还需要注意User-Agent的设置,有些网会检查。另外,可能需要处理重定向,HttpClient默认是自动跟随的,但有时候需要禁用,根据具体情况调整。 还有可能遇到动态加载的内容,比如通过AJAX获取的数据,这时候需要分析XHR请求,直接模拟那些API调用,而不是解析HTML。 另外,反爬机制,比如频率限制、IP封锁,可能需要使用代理,或者设置请求间隔。 总结步骤大概是:分析登录请求→模拟登录→保持会话→访问目标页面→处理响应数据。 可能遇到的问题包括:动态生成的token、JavaScript执行的挑战(比如前端加密密码),这时候可能需要用浏览器自动化工具,比如Selenium,但用户问的是C#,所以可能需要使用Selenium WebDriver或者Puppeteer Sharp来处理需要JS渲染的页面。 不过如果只是简单的表单提交,用HttpClient应该足够。代码结构大致是: 1. 创建HttpClientHandler,启用Cookie。 2. 创建HttpClient实例,并设置User-Agent等头信息。 3. 准备登录的表单数据,包括用户名、密码和其他必要字段。 4. 发送POST请求到登录URL。 5. 检查响应是否成功,可能需要验证状态码或检查返回内容。 6. 使用同一个HttpClient去访问目标页面,获取数据。 7. 解析返回的HTML或其他格式的数据,提取所需信息。 例如,代码示例中需要处理异步请求,所以用async/await。构造FormUrlEncodedContent来发送表单数据。登录成功后,用GetStringAsync获取受保护页面的内容。 用户可能需要处理异常,比如网络错误,或者登录失败的情况,添加try-catch块。另外,有些网可能使用HTTPS,需要正确处理证书,或者在HttpClientHandler里设置ServerCertificateCustomValidationCallback绕过验证(虽然生产环境不推荐)。 最后,提醒用户遵守网的robots.txt和服务条款,避免法律问题。还有,频繁请求可能对网造成压力,需合理设置延迟。</think>好的,我将分步骤介绍如何使用C#爬取需要登录的网页。以下是具体实现流程: --- ### **步骤1:分析网登录机制** 1. 使用浏览器开发者工具(F12)查看登录请求的: - **请求URL**(如`/login.php`) - **请求方式**(通常为POST) - **提交参数**(用户名、密码、隐藏Token等) - **Cookie/Session验证方式** --- ### **步骤2:创建HttpClient并配置Cookie** ```csharp using System.Net.Http; using System.Net; // 创建Cookie容器 var cookieContainer = new CookieContainer(); var handler = new HttpClientHandler { CookieContainer = cookieContainer, UseCookies = true }; // 创建HttpClient实例 var httpClient = new HttpClient(handler); httpClient.DefaultRequestHeaders.UserAgent.ParseAdd("Mozilla/5.0"); ``` --- ### **步骤3:模拟登录请求** ```csharp // 登录接口URL(需替换为实际地址) var loginUrl = "https://example.com/login"; // 构建表单数据(包含隐藏字段) var postData = new Dictionary<string, string> { { "username", "your_username" }, { "password", "your_password" }, { "csrf_token", "提取到的动态Token" } }; // 发送POST请求 var content = new FormUrlEncodedContent(postData); var response = await httpClient.PostAsync(loginUrl, content); // 验证登录是否成功(状态码或内容检查) if (response.StatusCode == HttpStatusCode.OK) { string responseBody = await response.Content.ReadAsStringAsync(); if (responseBody.Contains("欢迎回来")) { Console.WriteLine("登录成功"); } } ``` --- ### **步骤4:访问受保护页面** ```csharp // 目标页面URL var targetUrl = "https://example.com/dashboard"; var protectedContent = await httpClient.GetStringAsync(targetUrl); Console.WriteLine(protectedContent); ``` --- ### **关键注意事项** 1. **动态Token处理** 若网使用CSRF Token,需先通过GET请求登录页面提取Token(使用`HtmlAgilityPack`解析HTML): ```csharp var doc = new HtmlAgilityPack.HtmlDocument(); doc.LoadHtml(loginPageHtml); var token = doc.DocumentNode.SelectSingleNode("//input[@name='csrf_token']")?.GetAttributeValue("value", ""); ``` 2. **验证码处理** 若需验证码,需额外实现: - 下载验证码图片 - 人工识别 或 调用OCR API 3. **会话保持** 确保所有请求使用同一个`HttpClient`实例以维持Cookie状态 --- ### **完整代码示例** ```csharp using System; using System.Net.Http; using System.Collections.Generic; using System.Threading.Tasks; class Program { static async Task Main() { var cookieContainer = new CookieContainer(); var handler = new HttpClientHandler { CookieContainer = cookieContainer }; var httpClient = new HttpClient(handler); // 登录 var loginData = new Dictionary<string, string> { { "username", "test" }, { "password", "123456" } }; var response = await httpClient.PostAsync( "https://example.com/login", new FormUrlEncodedContent(loginData) ); // 获取数据 if (response.IsSuccessStatusCode) { var content = await httpClient.GetStringAsync("https://example.com/protected"); Console.WriteLine(content); } } } ``` --- ### **常见问题解决** - **SSL/TLS错误**:在`HttpClientHandler`中添加: ```csharp handler.ServerCertificateCustomValidationCallback = HttpClientHandler.DangerousAcceptAnyServerCertificateValidator; ``` - **重定向限制**:设置`AllowAutoRedirect = true` - **超时控制**:配置`httpClient.Timeout = TimeSpan.FromSeconds(30)` --- ### **法律与伦理提醒** 1. 遵守目标网的`robots.txt`协议 2. 避免高频请求(建议添加`Thread.Sleep()`延迟) 3. 仅爬取公开可用且允许抓取的数据 如需处理JavaScript渲染的页面,可结合`Selenium.WebDriver`实现浏览器自动化操作。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值