HTML解析与处理:从标签到属性的全方位实践
1. HTML标签解析与换行处理
在处理HTML文件时,标签剥离器的输出通常会去除标签,但会丢失一些必要的换行信息。不过,有一个例外是 <PRE> 元素,它会保留其内容中的所有空白字符。若想在输出中包含必要的换行和空白,可以通过检查标签和文本来实现。
1.1 触发换行的标签
一般来说,以下标签会触发不同类型的换行:
- 单换行: <BR> 、 <LI> 、 <TR>
- 双换行(段落换行): <P> 、 </H1> 、 </H2> 、 </H3> 、 </H4> 、 </H5> 、 </H6> 、 <HR> 、 <DIV> 、 </UL> 、 </OL> 、 </DL>
1.2 HTML.Tag类
HTML.Tag 是 javax.swing.text.html.H
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



