结构化数据
一般为JSON格式
非结构化数据
文本,电话,邮箱地址:正则表达式
HTML文件:正则表达式,xpath,css选择器
Xpath(路径表达)
nodename | 选取此节点的所有子节点 |
/ | 从根节点选取 |
// | 从匹配选择的当前节点选择文档中的节点,而不考虑位置 |
. | 选取当前节点 |
.. | 选取当前节节点的父节点 |
@ | 选取属性< |
一般为JSON格式
文本,电话,邮箱地址:正则表达式
HTML文件:正则表达式,xpath,css选择器
nodename | 选取此节点的所有子节点 |
/ | 从根节点选取 |
// | 从匹配选择的当前节点选择文档中的节点,而不考虑位置 |
. | 选取当前节点 |
.. | 选取当前节节点的父节点 |
@ | 选取属性< |