一段html代码,一段html代码

本文介绍了一种使用C#来去除HTML标签的方法,并展示了如何通过正则表达式清理HTML内容,保留纯文本信息。此外,还提供了一个示例程序,演示了如何下载网页内容并解析其文本。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

using System;

using System.Collections.Generic;

using System.Linq;

using System.Net;

using System.Text;

using System.Text.RegularExpressions;

using HtmlAgilityPack;

namespace ConsoleApplication1

{

class Program

{

///

/// 去除HTML标记

///

/// 包括HTML的源码

/// 已经去除后的文字

public static string NoHTML(string Htmlstring)

{

//删除脚本

Htmlstring = Regex.Replace(Htmlstring, @"", "",

RegexOptions.IgnoreCase);

//删除HTML

Htmlstring = Regex.Replace(Htmlstring, @"]*)>", "",

RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"([\r\n])[\s]+", "",

RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"–>", "", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"

Htmlstring = Regex.Replace(Htmlstring, @"&(quot|#34);", "\"",

RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(amp|#38);", "&",

RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(lt|#60);", "

RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(gt|#62);", ">",

RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(nbsp|#160);", " ",

RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(iexcl|#161);", "\xa1", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(cent|#162);", "\xa2", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(pound|#163);", "\xa3", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(copy|#169);", "\xa9", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"(\d+);", "", RegexOptions.IgnoreCase);

Htmlstring.Replace("

Htmlstring.Replace(">", "");

Htmlstring.Replace("\r\n", "");

// Htmlstring = HttpContext.Current.Server.HtmlEncode(Htmlstring).Trim();

return Htmlstring;

}

static void Main(string[] args)

{

var wc = new WebClient();

wc.Encoding = Encoding.UTF8;

var str = wc.DownloadString(@"http://www.sina.com.cn/");

var doc = new HtmlDocument();

doc.LoadHtml(str);

processnodes(doc.DocumentNode);

Console.Read();

}

public static string ReplaceHtmlTag(string html, int length = 0)

{

string strText = System.Text.RegularExpressions.Regex.Replace(html, "]+>", "");

strText = System.Text.RegularExpressions.Regex.Replace(strText, "&[^;]+;", "");

if (length > 0 && strText.Length > length)

return strText.Substring(0, length);

return strText;

}

static void processnodes(HtmlNode node)

{

if (node.ChildNodes.Count == 0)

{

var str = node.InnerText.Trim().Replace('\t', ' ').Replace(" ", "");

if(str=="")return;

Console.WriteLine(NoHTML(str));

}

foreach (var childNode in node.ChildNodes)

{

processnodes(childNode);

}

}

}

}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值