- 上一篇完成了百度MP3大类和小类的解析抽取,进一步需要进行歌曲资源抽取。例如抽取某个歌手的所有热歌,这里需要注意一点:url中如果包含有中文字符或者其他的一些特殊字符,例如空格,需要进行处理否则无法连接到网页(使用URLConnection)。比如http://mp3.baidu.com/singerlist/周杰伦.html 。这里使用了一下代码进行处理:
经过以上url的处理,给出歌手的正则表达式:try { mOnlineURL = mOnlineURL.replaceAll("/", "_").replace(":", "_"); mOnlineURL = (URLEncoder.encode(mOnlineURL, "UTF-8").replace("___", "://").replace("_", "/")); return match(new URL(mOnlineURL), rex, otherColums); } catch (MalformedURLException e) {
得到如下的结果:Matcher matcher = Pattern .compile( "<a href=\"#\" class=\"p\" onclick=\"return playAll\\((\\d*?)\\)\">.*?</a>.*?target=\"_blank\">(.*?)</a>") .matcher(sb);1 4辑-美人啊bonamana完整版 2 sorry, sorry poster 3 the 2nd asia tour concert album super sh 4 the 2nd asia tour concert album super sh 5 the 2nd asia tour concert album super sh 6 the 2nd asia tour concert album super sh 7 super show 1st asia tour album 8 4辑-美人啊bonamana完整版 9 美人啊bonamana
这时只需两个参数(歌曲名和歌手)就可以通过百度给的api得到歌曲资源,见http://cloud21.iteye.com/blog/611914中关于api的使用。<result> <count>5</count> − <url> − <encode> http://zhangmenshiting.baidu.com/service/k2eZl25omWqWa5lnZpyZa2Jol5mZappuamtsZmtomWlfn6NndK6ap5WXcGyWZm5vYmplmW1ncGhqmGRlmJlsmpdkmGybnGpoaWqUZ5s2 </encode> − <decode> b5fc92b2e9f31fb316ded4c6999262b1.mp3?xcode=8a077182e81909f11cc5bf2e8ff3088a3f </decode> <type>8</type> <lrcid>915420</lrcid> </url> − <url> <encode>http://bbs.snrx.net/mp3/mZenlaOdsK2WpZg0.mp3</encode> <decode>hetangyuese.mp3</decode> <type>1</type> <lrcid>915420</lrcid> </url> − <url> − <encode> http://file.qlteacher.com/upload/cz2010/medias/1008/06/YmdlZ2pubmlhMg$$.mp3 </encode> <decode>152358710.mp3</decode> <type>1</type> <lrcid>915420</lrcid> </url> − <url> <encode>http://www.yxdlc.com/music/ajI$.mp3</encode> <decode>9.mp3</decode> <type>1</type> <lrcid>915420</lrcid> </url> − <url> <encode>http://lt.dd-99.com/mp3/lGhsbW5obWqTYzM$.mp3</encode> <decode>c6999262b1.mp3</decode> <type>1</type> <lrcid>915420</lrcid> </url> </result>
得到这个xml档案后,使用以下程序进行解析并组合出一条url(每次只挑选第一个url作为歌曲资源,这里不是很合理,理想的挑选方法时ping出所有歌曲资源的响应速度并选择响应速度最快的歌曲资源作为最终资源)public static String parserToUrl(String name, String artist) { String url = ""; try { String orginurl = Parameter.MUSIC_PATH_REX.replace( "(" + MediaStore.OnLine.NAME + ")", URLEncoder.encode(name,"UTF-8")).replace( "(" + MediaStore.OnLine.ARTIST + ")",URLEncoder.encode(artist,"UTF-8")); Log.v(OnlineParser.class.getName(), orginurl); URLConnection connection = (new URL(orginurl)).openConnection(); connection.setConnectTimeout(10000); connection.addRequestProperty("User-Agent", "Chrome/5.0.37"); connection.connect(); InputStream str = connection.getInputStream(); DocumentBuilder docBuilder = DocumentBuilderFactory.newInstance() .newDocumentBuilder(); Document doc = docBuilder.parse(str); NodeList nodelist = doc.getElementsByTagName("url"); for (int i = 0; i < nodelist.getLength();) { NodeList children = nodelist.item(i).getChildNodes(); String encode = children.item(0).getTextContent(); String decode =URLEncoder.encode(children.item(1).getTextContent(),"UTF-8"); url = encode.substring(0, encode.lastIndexOf("/")+1)+decode; return url; } } catch (MalformedURLException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } catch (ParserConfigurationException e) { e.printStackTrace(); } catch (SAXException e) { e.printStackTrace(); } return url; } ///////// public class Parameter { public static final String MUSIC_PATH_REX="http://box.zhangmen.baidu.com/x?op=12&count=1&title=("+MediaStore.OnLine.NAME+")$$("+MediaStore.OnLine.ARTIST+")$$$$"; } - StreamStarter:android源码中的音乐播放器已经实现了在线播放的功能,该类就是StreamStarter。这里需要的注意的是当启动该activity时,要设置以下数据
将歌曲的url资源植入次activity。Uri uri = getIntent().getData();
虽然实现了在线播放,可存在一个问题当离开播放界面后歌曲也自动停止播放,明明已经启动了后台的service......可能是未创建缓冲数据,在研究研究(待续)
本文介绍如何从百度MP3抓取歌手的热门歌曲,并解析获取歌曲资源链接的方法。涉及URL处理、正则表达式匹配及XML文档解析等关键技术。
源码分析4(StreamStarter,URLEncoder&spm=1001.2101.3001.5002&articleId=83683090&d=1&t=3&u=f5f74ff94583458ab985075c645a3747)
2898

被折叠的 条评论
为什么被折叠?



