(1)mechanize
gem install mechanize
(2)模拟浏览器行为
require "mechanize"
agent = Mechanize.new
agent.user_agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"
# 获得一个page对象
page = agent.get("http:/xxxxxxx/")
form = page.forms[0]
username_field = form.field_with(:name="username")
username_field.value = "xxxxx"
password_field = form.field_with(:name=>"password")
password_field.value = "xxxxxxx"
#提交表单返回一个page
step2_page = agent.submit form
上面就能模拟登录
爬取登录网站的信息
(1)登录之后操作相关页面 current_page等等
(2)保存cookie到一个文件然后直接get登录后才能看到的页面
保存填充登录信息后的cookie,可以save,这样永久保存,以后就可以不用登录了
tmp_cookie1 = agent.cookie_jar
#访问一个新的地址即需要登录的地址之前需要把相应的cookie加载进去
agent.cookie_jar = tmp_cookie1
对于需要验证码的自己没用mechanize做过,用casperjs做过,应该可以自己直接浏览器登录获得他们的cookie然后像第二步一样的方式。也可以登录时获取
解析css使用nokogori
gem install mechanize
(2)模拟浏览器行为
require "mechanize"
agent = Mechanize.new
agent.user_agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"
# 获得一个page对象
page = agent.get("http:/xxxxxxx/")
form = page.forms[0]
username_field = form.field_with(:name="username")
username_field.value = "xxxxx"
password_field = form.field_with(:name=>"password")
password_field.value = "xxxxxxx"
#提交表单返回一个page
step2_page = agent.submit form
上面就能模拟登录
爬取登录网站的信息
(1)登录之后操作相关页面 current_page等等
(2)保存cookie到一个文件然后直接get登录后才能看到的页面
保存填充登录信息后的cookie,可以save,这样永久保存,以后就可以不用登录了
tmp_cookie1 = agent.cookie_jar
#访问一个新的地址即需要登录的地址之前需要把相应的cookie加载进去
agent.cookie_jar = tmp_cookie1
对于需要验证码的自己没用mechanize做过,用casperjs做过,应该可以自己直接浏览器登录获得他们的cookie然后像第二步一样的方式。也可以登录时获取
解析css使用nokogori