对文章内容进行分页

最近公司要在原来的Web网站发布的内容,也要在Wap上面显示。现有的文章内容是存放在一个字段里面,没有进行分页处理保存。因些在手机显示时,要对文章内容进行截取分页处理显示。

 

现在问题出来了,文章内容里面包含了很多HTML标签,用SubString进行截取那会把HTML标签也给截断,也在可能会在标签的属性中截开,这样我们得出来的字符串就是错乱的了。 因此在截取时,对HTML标签进行过滤。

 

自己的表达能力有限,直接上代码。 

 

  /// <summary>

        /// 得到分页后的数据
        /// </summary>
        /// <param name="param">文章内容</param>
        /// <param name="size">文章字数(不包含HTML)</param>
        /// <returns></returns>
        public static List<string> SubstringTo(string param, int size)
        {
            param = NoHTML(param);//过滤一些有Wap上面不能显示的HTML标签,你也不可不过滤
            var length = param.ToCharArray().Length;
            var being = 0;
            var list = new List<string>();
            while (true)
            {
                string str = SubstringToHTML(param, being, size, "", out being);
                list.Add(str);
                if (length <= being)
                {
                    break;
                }
            }
            return list;
        }

 

/// <summary>

        /// 按字节长度截取字符串(支持截取带HTML代码样式的字符串)
        /// </summary>
        /// <param name="param">将要截取的字符串参数</param>
        /// <param name="length">截取的字节长度</param>
        /// <param name="end">字符串末尾补上的字符串</param>
        /// <returns>返回截取后的字符串</returns>
        public static string SubstringToHTML(string param, int being, int length, string end, out int index)
        {
            string Pattern = null;
            MatchCollection m = null;
            StringBuilder result = new StringBuilder();
            int n = 0;
            char temp;
            bool isCode = false; //是不是HTML代码
            bool isHTML = false; //是不是HTML特殊字符,如&nbsp;
            char[] pchar = param.ToCharArray();
            int i = 0;
            for (i = being; i < pchar.Length; i++)
            {
                temp = pchar[i];
                if (temp == '<')
                {
                    isCode = true;
                }
                else if (temp == '&')
                {
                    isHTML = true;
                }
                else if (temp == '>' && isCode)
                {
                    //n = n - 1;
                    isCode = false;
                }
                else if (isHTML)
                {
                    isHTML = false;
                }
                if (!isCode && !isHTML)
                {
                    n = n + 1;
                    //UNICODE码字符占两个字节
                    if (System.Text.Encoding.Default.GetBytes(temp + "").Length > 1)
                    {
                        n = n + 1;
                    }
                }
                result.Append(temp);
                if (n >= length)
                {
                    break;
                }
            }
            index = i + 1;
            result.Append(end);
            //去掉成对的HTML标记,我的正则表达式不好,所以这里写得不好,大家可以写个正则直接去掉所有的
            temp_result = Regex.Replace(temp_result, @"(?is)<p[^>]*?>.*?</p>", "$2", RegexOptions.IgnoreCase);
            temp_result = Regex.Replace(temp_result, @"(?is)<a[^>]*?>.*?</a>", "$2", RegexOptions.IgnoreCase);
            temp_result = Regex.Replace(temp_result, @"(?is)<img[^>]*>", "$2", RegexOptions.IgnoreCase);
            temp_result = Regex.Replace(temp_result, @"(?is)<br[^>]*>", "$2", RegexOptions.IgnoreCase);
            //用正则表达式取出标记
            Pattern = ("</([a-zA-Z]+)*>");
            m = Regex.Matches(temp_result, Pattern);
            ArrayList bengHTML = new ArrayList();
            foreach (Match mt in m)
            {
                bengHTML.Add(mt.Result("$1"));
            }
            //补全前面不成对的HTML标记
            for (int nn = bengHTML.Count - 1; nn >= 0; nn--)
            {
                result.Insert(0, "<" + bengHTML[nn] + ">");
            }
            //用正则表达式取出标记
            Pattern = ("<([a-zA-Z]+)[^<>]*>");
            m = Regex.Matches(temp_result, Pattern);
            ArrayList endHTML = new ArrayList();
            foreach (Match mt in m)
            {
                endHTML.Add(mt.Result("$1"));
            }
            //补全后面不成对的HTML标记
            for (int nn = endHTML.Count - 1; nn >= 0; nn--)
            {
                result.Append("</");
                result.Append(endHTML[nn]);
                result.Append(">");
            }
            return result.ToString();
        }

 

 

 

 

 

转载于:https://www.cnblogs.com/jianchun491/archive/2012/04/18/ContentPager.html

标题基于Python的自主学习系统后端设计与实现AI更换标题第1章引言介绍自主学习系统的研究背景、意义、现状以及本文的研究方法和创新点。1.1研究背景与意义阐述自主学习系统在教育技术领域的重要性和应用价值。1.2国内外研究现状分析国内外在自主学习系统后端技术方面的研究展。1.3研究方法与创新点概述本文采用Python技术栈的设计方法和系统创新点。第2章相关理论与技术总结自主学习系统后端开发的相关理论和技术基础。2.1自主学习系统理论阐述自主学习系统的定义、特征和理论基础。2.2Python后端技术栈介绍DjangoFlask等Python后端框架及其适用场景。2.3数据库技术讨论关系型和非关系型数据库在系统中的应用方案。第3章系统设计与实现详细介绍自主学习系统后端的设计方案和实现过程。3.1系统架构设计提出基于微服务的系统架构设计方案。3.2核心模块设计详细说明用户管理、学习资源管理、度跟踪等核心模块设计。3.3关键技术实现阐述个性化推荐算法、学习行为分析等关键技术的实现。第4章系统测试与评估对系统行功能测试和性能评估。4.1测试环境与方法介绍测试环境配置和采用的测试方法。4.2功能测试结果展示各功能模块的测试结果和问题修复情况。4.3性能评估分析分析系统在高并发等场景下的性能表现。第5章结论与展望总结研究成果并提出未来改方向。5.1研究结论概括系统设计的主要成果和技术创新。5.2未来展望指出系统局限性并提出后续优化方向。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值