Mathematica字符串处理之-mywife.cc
- MD DocUmEnt:3/6/2016 3:51:12 PM by Jimbowhy
- 优快云 PuBlISheD: http://blog.youkuaiyun.com/WinsenJiansbomber/article/details/50814225
- mathematica_mywife.cc.zip http://download.youkuaiyun.com/detail/winsenjiansbomber/9453956
自上一篇和mywife.cc有关的文章《mywife.cc 神一样的存在!》后,mywife.cc 就好像访问不了,这今天又打开来看了一下,发现改版好像。
对于mywife.cc这样的神奇网站,我感兴趣的不仅有那点图片和视频,更感兴趣的还的背后的数据处理。字符串处理就是一个方面。
最近在用Mathematica做图像处理,刚好字符串处理也一并过了一遍。这家伙虽然运行速度慢了点,但是功能却算是强大的。就当前来讲,需要将 mywife.cc 网站上的图片和视频链接地址收集整理。来看看网页上的代码内容 (view-source:http://mywife.cc/index?p=1),我感觉兴趣的有<title>舞ワイフ セレブクラブ</title>,和内容列表:
<div class="col-md-4 wifecon">
<a title="中山 成美" href="teigaku/model/no/1019" rel="bookmark">
<img src='http://p02.mywife.cc/girl/01019/thumb.jpg'" width="99%"></a>
<p><a title="中山 成美" href="teigaku/model/no/1019" rel="bookmark"><b><br>中山 成美</b></a></p>
<p>「専業主婦として平凡な毎日を過ごし、オバサンになっていくのかと思うとじっと…</p>
<p><a class="btn btn-default" href="teigaku/model/no/1019" role="button">続きを読む »</a></p>
<div class="clear"></div>
</div>
...
<div class="col-md-4 wifecon">
<a title="西田 春菜" href="teigaku/model/no/1014" rel="bookmark">
<img src='http://p02.mywife.cc/girl/01014/thumb.jpg'" width="99%"></a>
<p><a title="西田 春菜" href="teigaku/model/no/1014" rel="bookmark"><b><br>西田 春菜</b></a></p>
<p>ご主人の浮気がキッカケで不倫サイトにアクセスした西田さん。「一ヶ月前に主人に…</p>
<p><a class="btn btn-default" href="teigaku/model/no/1014" role="button">続きを読む »</a></p>
<div class="clear"></div>
</div>
每个列表包含指向某个视频的页面地址,还有预览图片、角色信息等等。进入视频链接页面后,主要的数据有视频地址和预览图片,当然还有标题,它含有视频编号信息,这个编号和视频的文件名相关:
<title>No.603 西田 春菜|セレブクラブ舞ワイフ</title>
<video id="video"
src="http://free2.myw