第一部分的写完了好多天,也没几个人浏览,看来确实是技术太低段,只能自己玩玩了。优快云博客有个很讨厌的设置,博客分数太低的,不让自主设置标签,我离400分的大关还差300多分,太窘了,还麻烦各位看完给个赞或评论。
上次说到爬取第一页的众筹项目信息,基本上已经拿到了大部分我们需要的内容,比如项目名称、已筹金额、达成率和支持人数。但针对做研究时,我们还希望能获取到项目的完全进展情况,比如了解每天的支持人数和金额情况,这个却是没有办法一次性搞定的(如果有大神知道,请赐教)。我的基本想法就很简单,那就每天定时收集一次信息,最后做一次数据处理就好了,不就可以知道每天的支持人数和金额变化情况了吗?于是,我就需要获得项目的上线时间和截止时间,以及金额标的。截止时间和金额标的在每个项目的页面详情中都有,但上线时间这个东西真的没地方能看得到,不过好在详情中提供了个剩余时间,我们可以用当前时间减去剩余时间,大致推算出项目的筹款时间和上线时间。
话不多说,还是来看看项目详情页面里,怎么刨出这些信息吧(剩余时间,截止时间,筹款金额)。还是按F12,我们看看在这个页面里,这些信息都在什么地方。
经过不懈的努力,终于让我找到了:
我们随便拿到一个项目页面测试一下:
from selenium import webdriver
from bs4 import BeautifulSoup
driver=webdriver.Chrome()
driver1=webdriver.Chrome()
driver1.get('https:'+'//izhongchou.taobao.com/dreamdetail.htm?id=20094424')
html=driver1.page_source
soup=BeautifulSoup(html,'html.parser')
jzsj=soup.find('p','target-money').text[6:16]
sysj=driver1.find_elements_by_class_name('data-number')[1].text
xmbd=soup.find('p','target-money').em.text
print(jzsj,sysj,xmbd)
貌似结果还凑合。如此一来,单个项目的上线时间、截止时间和项目标的问题就解决了,剩下的就是大规模爬取的问题了。这个部分我就放在(3)里再继续说吧。看完记得给个赞哦。