missa_emperor-优快云博客

原创京东评论爬取和词云绘制

以某男士腕表为例要爬取的网址：https://item.jd.com/44238727209.html观察开发者公鸡中的network看是否为json显然不是多了点东西如果请求方法是get可以从浏览器中粘一下Request URL看一下返回结果如果是post就不能直接粘贴网址因为需要提交表单有个小规律观察Request URL: https://club.jd.com/commen...

2020-03-17 11:01:11 606

原创使用request中的post爬取bing翻译中的翻译内容

import requestsimport pandas as pdimport osimport jsonurl="https://cn.bing.com/ttranslatev3?isVertical=1&&IG=4D7545F8322647B3A2AA2E09388806F6&IID=translator.5028.1"headers={'user-agen...

2020-03-16 22:20:02 482

原创使用urllib爬取网页（1百度贴吧）

import urllib.requestimport urllib.parseurl='https://tieba.baidu.com/f?'word=input("请输入你要爬取的网页关键词：")kw={'kw':word} kw=urllib.parse.urlencode(kw) #转换成url编码new_url=url+kw #拼接成完整的urlheaders={'us...

2020-03-16 18:06:02 559

原创使用urllib爬取某学校的网站

import urllib.requestr=urllib.request.urlopen('http://www.hbu.edu.cn/') #相当于request库中的request.get()html=r.read().decode('UTF-8')print(html)

2020-03-16 17:47:38 592

原创爬取疫情数据并保存为csv文件

import requestsimport pandas as pdimport osimport jsondef get_page(url,headers): try: r=requests.get(url,headers=headers) r.raise_for_status() r.encoding=r.apparent_enc...

2020-03-13 09:55:35 4846 5

原创爬取网页通用格式

爬取网页的通用代码格式import requestsdef getHTMLText(url): try: r=requests.get(url) r.raise_for_status() #如果状态不是200，引发HTTPError异常 r.encoding=r.apparent_encoding return r.text except: return "产生异常"...

2020-03-13 09:53:14 526

原创基于centos7的hadoop完全分布式搭建

虚拟机安装[添加链接描述](https://www.cnblogs.com/Neeo/p/8711201.html)更改主机名hostnamectl set-hostname master（在root下）下载两个文件yum install ntpyum install net-tools下载的时候出现。。。。锁定状态睡眠中rm -f /var/run/yum.pid找...

2020-03-10 14:03:21 454

原创虚拟机一些小秘密

ls -a可以查看到一些隐藏文件（以 . 开头的）

2020-03-09 23:22:36 111

missa_emperor的博客