其实从html富文本中提取纯文本很简单,富文本基本上是使用html标签给文本加上丰富多彩的样式。
所以只需要将富文本字符串中的“<.....>”标签剔除,即可得到纯文本。我们可以使用正则表达式,来匹配所有的html标签,并替换成空字符,如下://html剔除富文本标签,留下纯文本
function getSimpleText(html){
//匹配html标签的正则表达式,"g"是搜索匹配多个符合的内容
var re1 = new RegExp("<.+?>","g")
//执行替换成空字符
var msg = html.replace(re1,'')
return msg;
}

本文介绍了如何从HTML富文本中提取纯文本,主要方法是利用正则表达式去除HTML标签。通过匹配并替换`<...>`形式的标签,可以得到不带样式的文本内容,这对于数据处理和文本分析等场景非常有用。
918

被折叠的 条评论
为什么被折叠?



