背景
项目存储富文本编辑内容content
下游系统需要纯文本内容text
新数据由前端处理输入,历史数据需要脚本进行初始化
使用正则去除html标签,发现仍有很多行前空格和空行
代码参考
UPDATE table_name
SET TEXT =
REGEXP_REPLACE(
REGEXP_REPLACE(
REGEXP_REPLACE(
REGEXP_REPLACE(content, '<(\S*?)[^>]*>.*?|<.*?/>', ''), ' ', ' '),
chr(10), ''), ' {2,}', chr(10))
WHERE text IS null
;
参考
菜鸟正则:https://c.runoob.com/front-end/854/
oracle中去掉回车、Tab、制表、空格等特殊符号:https://blog.youkuaiyun.com/c_staunch/article/details/114668675