- 博客(8)
- 收藏
- 关注
原创 京东评论爬取和词云绘制
以某男士腕表为例要爬取的网址:https://item.jd.com/44238727209.html观察开发者公鸡中的network看是否为json显然不是多了点东西如果请求方法是get可以从浏览器中粘一下Request URL看一下返回结果如果是post就不能直接粘贴网址因为需要提交表单有个小规律观察Request URL: https://club.jd.com/commen...
2020-03-17 11:01:11
606
原创 使用request中的post爬取bing翻译中的翻译内容
import requestsimport pandas as pdimport osimport jsonurl="https://cn.bing.com/ttranslatev3?isVertical=1&&IG=4D7545F8322647B3A2AA2E09388806F6&IID=translator.5028.1"headers={'user-agen...
2020-03-16 22:20:02
482
原创 使用urllib爬取网页(1百度贴吧)
import urllib.requestimport urllib.parseurl='https://tieba.baidu.com/f?'word=input("请输入你要爬取的网页关键词:")kw={'kw':word} kw=urllib.parse.urlencode(kw) #转换成url编码new_url=url+kw #拼接成完整的urlheaders={'us...
2020-03-16 18:06:02
559
原创 使用urllib爬取某学校的网站
import urllib.requestr=urllib.request.urlopen('http://www.hbu.edu.cn/') #相当于request库中的request.get()html=r.read().decode('UTF-8')print(html)
2020-03-16 17:47:38
592
原创 爬取疫情数据并保存为csv文件
import requestsimport pandas as pdimport osimport jsondef get_page(url,headers): try: r=requests.get(url,headers=headers) r.raise_for_status() r.encoding=r.apparent_enc...
2020-03-13 09:55:35
4846
5
原创 爬取网页通用格式
爬取网页的通用代码格式import requestsdef getHTMLText(url): try: r=requests.get(url) r.raise_for_status() #如果状态不是200,引发HTTPError异常 r.encoding=r.apparent_encoding return r.text except: return "产生异常"...
2020-03-13 09:53:14
526
原创 基于centos7的hadoop完全分布式搭建
虚拟机安装[添加链接描述](https://www.cnblogs.com/Neeo/p/8711201.html)更改主机名hostnamectl set-hostname master(在root下)下载两个文件yum install ntpyum install net-tools下载的时候出现 。。。。锁定状态睡眠中rm -f /var/run/yum.pid找...
2020-03-10 14:03:21
454
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅