解析新浪微博place页面获取poiURl

最新推荐文章于 2024-07-30 10:39:48 发布

原创最新推荐文章于 2024-07-30 10:39:48 发布 · 473 阅读

0 ·

CC 4.0 BY-SA版权

text mining 专栏收录该内容

17 篇文章

订阅专栏

本文介绍了一种从特定格式的HTML文本中解析热门POI信息的方法，包括如何通过正则表达式提取POI的名称、URL及详细地址等关键属性。

life_entertainment后面开始的是热门的poi详细信息

以<li class=\"clearfix\">\r\n\t\t\t\t\t\t<div class=\"pt_pic W_fl\">开始一条热门poi地区的详细信息

用pt_pic W_fl字段切割

其中一条poi信息

<li class=\"clearfix\">\r\n\t\t\t\t\t\t<div class=\"pt_pic W_fl\"><a href=\"javascript:void(0);\"><img src=\"http:\/\/ww2.sinaimg.cn\/large\/4e704b16jw1e1bs5ozbsfj.jpg\" width=\"78\" height=\"78\" alt=\"杭州西溪喜来登度假酒店(Sheraton Hangzhou Wetland Park Resort)\" title=\"杭州西溪喜来登度假酒店(Sheraton Hangzhou Wetland Park Resort)\" class=\"S_line1\"\/><\/a><\/div>\r\n\t\t\t\t\t\t<div class=\"text_wrap\">\r\n\t\t\t\t\t\t\t<div class=\"pt_title\"><h4><span class=\"W_ico16 ico_rank ico_rank1\">1<\/span><a target=\"_blank\" href=\"http:\/\/weibo.com\/p\/100101B2094757D068A3FD479C?from=page_place&type=addinfo\" title=\"杭州西溪喜来登度假酒店(Sheraton Hangzhou Wetland Park Resort)\">杭州西溪喜来登度假酒店(Sheraton Hangzhou Wetland Park Resort)<\/a><\/h4><\/div>\r\n\t\t\t\t\t\t\t<div class=\"pt_sub\">\r\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<span><a href=http:\/\/weibo.com\/p\/100101B2094757D068A3FD479C#feedtop>2765<\/a>条热议<\/span>\r\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<em class=\"S_txt2 W_vline\">|<\/em>\r\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<span><a href=http:\/\/weibo.com\/p\/100101B2094757D068A3FD479C\/checkin>2091<\/a>人签到<\/span>\r\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<em class=\"S_txt2 W_vline\">|<\/em>\r\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<span><a href=http:\/\/weibo.com\/p\/100101B2094757D068A3FD479C\/album>1040<\/a>张热图<\/span>\r\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<\/div>\r\n\t\t\t\t\t\t\t<div class=\"pt_txt S_line2\">\r\n\t\t\t\t\t\t\t\t<p class=\"S_txt2\" title=\"杭州紫金港路西溪天堂国际旅游综合体1号\">杭州紫金港路西溪天堂国际旅游综合体1号<\/p>\r\n\t\t\t\t\t\t\t<\/div>\r\n\t\t\t\t\t\t\t\r\n\t\t\t\t\t\t<\/div>\r\n\t\t\t\t\t<\/li>\r\n\t\t\t\t\t\t\t\t\t\t

需要获取url和详细地址信息两个属性

poi名称，关键字height=\"78\" alt=\"，结束\" title=\"

width=\"78\" height=\"78\" alt=\"杭州西溪喜来登度假酒店(Sheraton Hangzhou Wetland Park Resort)\" title=\"杭州西溪喜来登度假酒店(Sheraton Hangzhou Wetland Park Resort)\"

poi具体信息，根据这个地址写个正则式就可以了

href=\"http:\/\/weibo.com\/p\/100101B2094757D068A3FD479C?from=page_place&type=addinfo\

poi详细地址，关键字S_txt2\" title=\"，结束<\/p

<p class=\"S_txt2\" title=\"杭州紫金港路西溪天堂国际旅游综合体1号\">杭州紫金港路西溪天堂国际旅游综合体1号<\/p