解析新浪微博place页面获取poiURl

本文介绍了一种从特定格式的HTML文本中解析热门POI信息的方法,包括如何通过正则表达式提取POI的名称、URL及详细地址等关键属性。

life_entertainment后面开始的是热门的poi详细信息

<li class=\"clearfix\">\r\n\t\t\t\t\t\t<div class=\"pt_pic W_fl\">开始一条热门poi地区的详细信息

pt_pic W_fl字段切割

其中一条poi信息

<li class=\"clearfix\">\r\n\t\t\t\t\t\t<div class=\"pt_pic W_fl\"><a href=\"javascript:void(0);\"><img src=\"http:\/\/ww2.sinaimg.cn\/large\/4e704b16jw1e1bs5ozbsfj.jpg\" width=\"78\" height=\"78\" alt=\"杭州西溪喜来登度假酒店(Sheraton Hangzhou Wetland Park Resort)\" title=\"杭州西溪喜来登度假酒店(Sheraton Hangzhou Wetland Park Resort)\" class=\"S_line1\"\/><\/a><\/div>\r\n\t\t\t\t\t\t<div class=\"text_wrap\">\r\n\t\t\t\t\t\t\t<div class=\"pt_title\"><h4><span class=\"W_ico16 ico_rank ico_rank1\">1<\/span><a target=\"_blank\" href=\"http:\/\/weibo.com\/p\/100101B2094757D068A3FD479C?from=page_place&type=addinfo\" title=\"杭州西溪喜来登度假酒店(Sheraton Hangzhou Wetland Park Resort)\">杭州西溪喜来登度假酒店(Sheraton Hangzhou Wetland Park Resort)<\/a><\/h4><\/div>\r\n\t\t\t\t\t\t\t<div class=\"pt_sub\">\r\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<span><a href=http:\/\/weibo.com\/p\/100101B2094757D068A3FD479C#feedtop>2765<\/a>条热议<\/span>\r\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<em class=\"S_txt2 W_vline\">|<\/em>\r\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<span><a href=http:\/\/weibo.com\/p\/100101B2094757D068A3FD479C\/checkin>2091<\/a>人签到<\/span>\r\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<em class=\"S_txt2 W_vline\">|<\/em>\r\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<span><a href=http:\/\/weibo.com\/p\/100101B2094757D068A3FD479C\/album>1040<\/a>张热图<\/span>\r\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<\/div>\r\n\t\t\t\t\t\t\t<div class=\"pt_txt S_line2\">\r\n\t\t\t\t\t\t\t\t<p class=\"S_txt2\" title=\"杭州紫金港路西溪天堂国际旅游综合体1号\">杭州紫金港路西溪天堂国际旅游综合体1号<\/p>\r\n\t\t\t\t\t\t\t<\/div>\r\n\t\t\t\t\t\t\t\r\n\t\t\t\t\t\t<\/div>\r\n\t\t\t\t\t<\/li>\r\n\t\t\t\t\t\t\t\t\t\t

需要获取url和详细地址信息两个属性

poi名称,关键字height=\"78\" alt=\",结束\" title=\"

width=\"78\" height=\"78\" alt=\"杭州西溪喜来登度假酒店(Sheraton Hangzhou Wetland Park Resort)\" title=\"杭州西溪喜来登度假酒店(Sheraton Hangzhou Wetland Park Resort)\"

poi具体信息,根据这个地址写个正则式就可以了

href=\"http:\/\/weibo.com\/p\/100101B2094757D068A3FD479C?from=page_place&type=addinfo\

poi详细地址,关键字S_txt2\" title=\",结束<\/p

<p class=\"S_txt2\" title=\"杭州紫金港路西溪天堂国际旅游综合体1号\">杭州紫金港路西溪天堂国际旅游综合体1号<\/p

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值