不要用正则表达式来解析 HTML
在一个字符串中定位特定的一段 HTML,这似乎很适合使用正则表达式。但
是,我建议你不要这么做。 HTML 的格式可以有许多不同的方式,并且仍然被认
为是有效的 HTML,但尝试用正则表达式来捕捉所有这些可能的变化,将非常繁
琐,并且容易出错。专门用于解析 HTML 的模块,诸如 Beautiful Soup, 将更不容
易导致缺陷。在 http://stackoverflow.com/a/1732454/1893164/,你会看到更充分的
讨论,了解为什么不应该用正则表达式来解析 HTML