C# 操作Word模拟解析HTML标记输出带格式的文本

目录

需求与困惑

解决方案

范例运行环境

配置Office DCOM

设计实现

组件库引入

​编辑

方法实现

小结


需求与困惑

应需求通过算法输出纯文本内容到 MS Word 对应的替换字段中,原有的设计仅能保持模板设定的格式,如下是一个WORD表格,下方单元格中输出题目内容,固定格式为宋体:

但客户的需求是希望题目为黑体加粗,考察关键点为正常宋体,颜色置灰,如下图:

初期的设想是通过 Word.Find 对象配合扩展的格式参数,进行查找结果关键字进行替换及格式重置操作,发现无法定位精准或有效的 Range ,尤其是 Word.Shape.TextFrame.TextRange ,参考、搜索了一些资料,问题仍无法解决。

解决方案

目前主要针对如下两个 Range 对象进行操作:

序号对象说明
1Word.Appication.Selection.Range页面选择区域范围对象(如查找到的段落高亮文字显示结果)
2Word.Shape.TextFrame.TextRange形状对象,对象内包含文字,且查找到的文字结果范围Range

基本的实现的思路如下:

一、将原始输出文本按照指定的定义进行 HTML 标记化,如将 “这是一段文本” 文本更改为  “<span style='font-family:黑体;font-weight:bold'>这是一段文本</span>” (html 部分使用标准的 span + style ),这样可以同时兼容标准的网页版输出。

二、对 Range 的文本(Text)使用正则表达式提取 HTML 标记间的所有查找关键字。

三、对 Range 的字符集对象(Word.Characters)进行逐字操作,提取 HTML 标记的 style 属性部分,分隔各种 style 进行解析,重刷每一个字符的格式。

四、处理完格式设置,调用 Range.Find 对象替换掉 “多余” 的 HTML 标记文本,完成最终输出效果。

范例运行环境

操作系统: Windows Server 2019 DataCenter

操作系统上安装 Office Word 2016

数据库:Microsoft SQL Server 2016

.net版本: .netFramework4.7.1 或以上

开发工具:VS2019  C#

配置Office DCOM

配置方法可参照我的文章《C# 读取Word表格到DataSet》进行处理和配置。

设计实现

组件库引入

方法实现

processWordChars 方法基本说明如下表:

序号参数名称参数类型说明
1charsWord.CharactersWord.Range的字符集对象

方法示例代码如下:

void processWordChars(Word.Characters chars)
{

  string content = chars.Parent.Text;
  if (content == null || content == "") { return; }
  Word.Find fnd = chars.Parent.Find;

  ArrayList paras2 = new ArrayList();
  paras2.Add(new string[] { "<span style=", "</span>" });
  foreach (string[] p in paras2)
  {
      string pattern = string.Format(@"{0}(.*?){1}", p[0], p[1]);
      System.Text.RegularExpressions.MatchCollection matches = System.Text.RegularExpressions.Regex.Matches(content, pattern);
      foreach (System.Text.RegularExpressions.Match match in matches)
      {
         string key = match.Groups[1].Value;  //提取的内容
         string vkey = key.Substring(key.IndexOf('>') + 1); //最终有效内容
                    
         string vstyle = key.Substring(1, key.Length - vkey.Length - 3); //截取 style 值
         string findkey = p[0] + key + "</span>";  //最终替换部分
         int fk = content.IndexOf(findkey);
         if (fk != -1)
         {
             for (int i = 1; i <= findkey.Length; i++)
             {
                 foreach (string kv in vstyle.Split(';'))
                 {
                     string[] style = kv.Split(':');
                     if (style[0] == "color")
                     {
                         chars[fk + i].Font.Color =(Word.WdColor)ColorTranslator.ToOle(ColorTranslator.FromHtml(style[1]));
                                        // 获取ARGB值
                     }
                     else if(style[0]== "font-weight")
                     {
                         if (style[1] == "bold") {
                             chars[fk + i].Font.Bold=1;
                         }
                     }
                     else if (style[0] == "font-family")
                     {
                         chars[fk + i].Font.Name=style[1];
                     }
                 }
              }
          fnd.ClearFormatting();
          Object findText = findkey;
          Object matchCase = false; Object matchWholeWord = Type.Missing; Object matchWildcards = false; Object matchSoundsLike = false; Object matchAllWordForms = false;
          Object forward = true; Object wrap = Word.WdFindWrap.wdFindContinue; Object format = false;
          Object replaceWith = vkey;
          Object replace = Word.WdReplace.wdReplaceAll; Object matchKashida = Type.Missing; Object matchDiacritics = Type.Missing; Object matchAlefHamza = Type.Missing; Object matchControl = Type.Missing;
          fnd.Execute(ref findText, ref matchCase, ref matchWholeWord, ref matchWildcards, ref matchSoundsLike, ref matchAllWordForms,ref forward, ref wrap, ref format, ref replaceWith, ref replace, ref matchKashida, ref matchDiacritics, ref matchAlefHamza, ref matchControl);
          content = chars.Parent.Text;
         }
      }
   }
}

小结

1、示例代码只是简单的处理了字体颜色、加粗和字体名称三项,我们可以根据实际需要扩展处理。

2、字体颜色请参照十六进制表示输入(如 #00ff00)。

3、示例代码中 Word 表示 using Word=Microsoft.Office.Interop.Word; 的引用。

示例代码我们提供了操作的关键方法,这里仅作参考,欢迎大家评论指教提供更好的解决方案!

评论 38
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

初九之潜龙勿用

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值