自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 京东评论爬取和词云绘制

以某男士腕表为例要爬取的网址:https://item.jd.com/44238727209.html观察开发者公鸡中的network看是否为json显然不是多了点东西如果请求方法是get可以从浏览器中粘一下Request URL看一下返回结果如果是post就不能直接粘贴网址因为需要提交表单有个小规律观察Request URL: https://club.jd.com/commen...

2020-03-17 11:01:11 606

原创 使用request中的post爬取bing翻译中的翻译内容

import requestsimport pandas as pdimport osimport jsonurl="https://cn.bing.com/ttranslatev3?isVertical=1&&IG=4D7545F8322647B3A2AA2E09388806F6&IID=translator.5028.1"headers={'user-agen...

2020-03-16 22:20:02 482

原创 使用urllib爬取网页(1百度贴吧)

import urllib.requestimport urllib.parseurl='https://tieba.baidu.com/f?'word=input("请输入你要爬取的网页关键词:")kw={'kw':word} kw=urllib.parse.urlencode(kw) #转换成url编码new_url=url+kw #拼接成完整的urlheaders={'us...

2020-03-16 18:06:02 559

原创 使用urllib爬取某学校的网站

import urllib.requestr=urllib.request.urlopen('http://www.hbu.edu.cn/') #相当于request库中的request.get()html=r.read().decode('UTF-8')print(html)

2020-03-16 17:47:38 592

原创 爬取疫情数据并保存为csv文件

import requestsimport pandas as pdimport osimport jsondef get_page(url,headers): try: r=requests.get(url,headers=headers) r.raise_for_status() r.encoding=r.apparent_enc...

2020-03-13 09:55:35 4846 5

原创 爬取网页通用格式

爬取网页的通用代码格式import requestsdef getHTMLText(url): try: r=requests.get(url) r.raise_for_status() #如果状态不是200,引发HTTPError异常 r.encoding=r.apparent_encoding return r.text except: return "产生异常"...

2020-03-13 09:53:14 526

原创 基于centos7的hadoop完全分布式搭建

虚拟机安装[添加链接描述](https://www.cnblogs.com/Neeo/p/8711201.html)更改主机名hostnamectl set-hostname master(在root下)下载两个文件yum install ntpyum install net-tools下载的时候出现 。。。。锁定状态睡眠中rm -f /var/run/yum.pid找...

2020-03-10 14:03:21 454

原创 虚拟机一些小秘密

ls -a可以查看到一些隐藏文件(以 . 开头的)

2020-03-09 23:22:36 111

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除