甜瓜黍叔-优快云博客

原创 BeautifulSoup补充

此博文是对之前博文的补充：https://blog.youkuaiyun.com/Clany888/article/details/81986302from bs4 import BeautifulSoupsoup = BeautifulSoup(html,'lxml') # 不标准的HTML字符串BeautifulSoup可以自动更正格式soup.prettify() # 将要解析的字符串按照...

2018-11-21 23:47:41 519

原创 Mac安装Anaconda3

下载地址：https://www.anaconda.com/download/#macos下载哪一个都可以，一个是窗口安装，一个是命令行安装，以命令行为主：cd到下载目录下，执行如下代码：# bash 您下载的文件名bash Anaconda3-5.3.0-MacOSX-x86_64.sh一直回车即可。添加环境变量：编辑 .bash_profile ，如果你命令行安...

2018-10-30 22:31:41 12931

原创 Mac「macOS Mojave 10.14」安装MySQL（其他版本也通用）

1、brew update更新包2、brew install mysql 安装mysql先使用 brew search mysql 查看可下载的版本，然后指定版本下载安装mysql$ brew install mysql==> Downloading https://homebrew.bintray.com/bottles/mysql-5.7.21.high_sierra....

2018-10-30 22:18:23 5473

原创 Mac安装Homebrew

安装1. 自动安装（推荐）执行如下命令：/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"上边的命令行时两个命令，首先下载install文件，然后用系统的ruby工具安装。尽量再bash或者zsh下安装，fish下会提示不识别'$'...

2018-10-30 21:59:31 1007 1

原创 Python操作Hive的两种方法总结

方法一：使用PyHive库安装依赖包：其中sasl安装可能会报错，可以去https://www.lfd.uci.edu/~gohlke/pythonlibs/#sasl下载对应版本安装。pip install saslpip install thriftpip install thrift-saslpip install PyHivePython脚本代码操作：from p...

2018-10-09 21:37:17 29304

原创云服务器Python相关配置

Linux安装Anaconda安装包获取：1.在线下载安装包：访问：https://repo.continuum.io/archive/ 查看自己要安装的Python版本，和系统要求。选择一个目录用于放置安装包，然后用wget命令进行在线下载：# 本服务器是64位wget https://repo.continuum.io/archive/Anaconda3-5.2.0-L...

2018-09-30 14:44:34 632

原创网络爬虫笔记（Day9）——初识Scrapy

爬虫步骤：分析需求获取网页的URL 下载网页内容(Downloader下载器) 定位元素位置, 获取特定的信息(Spiders 蜘蛛) 存储信息(ItemPipeline, 一条一条从管里传输) 队列存储(Scheduler 调度器)Scrapy：学习文档：https://scrapy-chs.readthedocs.io/zh_CN/0.24/index.html首...

2018-08-23 19:40:56 331

原创网络爬虫笔记（Day8）——IP代理

可以去某宝或其他渠道购买，具体使用看自己购买商家的API文档，查看使用方法。ip_proxy.pyimport requestsclass ip_getter(object): def __init__(self): self.ip_proxy_str = get_ip_string() def update_ip_proxy_str(self)...

2018-08-23 19:19:13 417

原创网络爬虫笔记（Day8）——BeautifulSoup

BeautifulSoup我们到网站上爬取数据，需要知道什么样的数据是我们想要爬取的，什么样的数据是网页上不会变化的。Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unico...

2018-08-23 19:12:33 389

原创网络爬虫笔记（Day7）——Selenium

首先下载chromedriver 将其放入Python运行环境下，然后再去pip安装selenium。最简单的结构代码如下：from selenium import webdriver# ----------------------不打开浏览器窗口-------------------------option_chrome = webdriver.ChromeOptions(...

2018-08-22 09:28:33 329

原创进程和线程——Python中的实现

一、进程（Process）进程是一个实体。每一个进程都有它自己的地址空间，一般情况下，包括文本区域（text region）、数据区域（data region）和堆栈（stack region）。文本区域存储处理器执行的代码；数据区域存储变量和进程执行期间使用的动态分配的内存；堆栈区域存储着活动过程调用的指令和本地变量。进程是一个“执行中的程序”。程序是一个没有生命的实体，...

2018-08-20 23:02:50 406

原创网络爬虫笔记（Day5）——腾讯社招&拉勾网

分析过程与链家是一样的。腾讯社招完整代码如下：import requestsfrom lxml import etreefrom mysql_class import Mysql # 自己封装好的Mysql类def txshezhao(keywords, page): ''' :param keywords: 指定搜索关键字进行数据爬取 :param ...

2018-08-19 14:58:23 1077

原创网络爬虫笔记（Day5）——链家

注意：请不要爬取过多信息，仅供学习。分析：业务需求分析......（此例为住房信息...）查找相关网页信息（以链家为例）分析URL，查找我们需要的内容，建立连接定位数据存储数据首先进入链家网首页，点击租房，F12检查网页，查找我们需要的信息。如图：第一页url：https://bj.lianjia.com/zufang/第二页url：https://bj....

2018-08-17 17:01:34 730

原创网络爬虫笔记（Day4）

爬取今日头条图集进入今日头条首页：https://www.toutiao.com/ 步骤：1、查看网页，查找我们需要的URL，分析URL 2、获取网页内容，分析内容 3、定位我们需要的内容 4、将数据存储在搜素框输入要搜索的内容（例如：街拍），然后选择图集，F12...

2018-08-16 22:06:47 533

原创用TensorFlow训练卷积神经网络——识别验证码

需要用到的包：numpy、tensorflow、captcha、matplotlib、PIL、randomimport numpy as np import tensorflow as tf # 深度学习库from captcha.image import ImageCaptcha # 用来生成验证码import matplotlib.pyplot as plt # 用来将验证...

2018-08-15 22:01:31 3679

原创网络爬虫笔记（Day3）

首先分析雪球网 https://xueqiu.com/#/property第一次进去后，第一次Ajax请求得到的是若下图所示的 max_id=-1, count=10。然后往下拉，第二次Ajax请求，如下图；发现URL里面就max_id 和count不同，max_id为前一次Ajax的最后一条数据的id，以后的每次请求都是count=15，故我需要对url进行拼接。URL...

2018-08-15 21:05:07 295

原创网络爬虫笔记（Day2）

爬取个人人人主页的代码：首先用最原始的方法进行，可以看出这样写代码，比较麻烦，重复代码很多：from urllib import request, parseurl = 'http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=2018721913553'headers = { 'User-Agent...

2018-08-14 21:32:04 485

原创 Ubuntu安装OpenCV

OpenCV安装:首先去官网下载:https://opencv.org/releases.html (选择sources版本)将其放入自己的文件夹下,然后执行以下命令解压:zip opencv-3.4.1.zip安装依赖库和cmake ，如果提醒需要apt-get update，那就先sudo su进入root权限，再sudo apt-get update，然后在执行下面命令...

2018-08-13 21:30:39 409

原创网络爬虫笔记(Day1)

Day 1爬虫的过程1.首先需要了解业务需求2.根据需求,寻找网站3.将网站数据获取到本地 (可以通过urllib,requests等包)4.定位数据(re xpath css json等)5.存储数据(mysql redis 文件格式) 最简单...

2018-08-13 19:57:14 420

原创 Cookie 和 Session

　　　　　　　　　　　　cookie 和 session 的区别cookie：由于http请求是无状态的。它第一次和服务器连接后并且登录成功后，之后再次请求浏览器，浏览器还是不知道当前访问用是谁。因此cookie的出现就是为了解决这个问题，能够把第一次登录后服务器返回一些数据（cookie）给浏览器，然后浏览器保存在本地，当该用户发送第二次请求的时候，浏览器就会自动的把上次请求存储的coo...

2018-08-13 19:20:26 335

原创 GitHub入门之旅

这篇文章是我自己首次使用GitHub创建库，克隆库，操作库以及上传的操作过程记录。1、注册一个GitHub账号：https://github.com/ 注册完成后登陆自己的GitHub账号，点击网页右上角的小加号，用来创建自己的库的按钮，之后的步骤按提示进行创建自己的库即可。2、创建好库之后，要做的就是把库克隆到本地，方便自己电脑上的文件同步到GitHub上你创建的库中。为了实现这一步需要安装Gi...

2018-05-29 16:37:14 418

OpenCV计算机视觉（Python语言）

OpenCV+3计算机视觉+Python语言实现+第二版貌似是唯一一本当然也可以去结合Python的OpenCV库资料文档一起学习

2018-10-09

利用Python进行数据分析（Markdown文件）

第三版利用Python进行数据分析 Markdown格式，学习时可以添加自己的学习代码上去。

2018-10-09

Python机器学习与大数据实战Spark 2.0+Hadoop林大贵(著)高清带书签

Python机器学习与大数据实战 Spark 2.0+Hadoop 林大贵(著)高清带书签.pdf

2018-10-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

OpenCV计算机视觉（Python语言）

利用Python进行数据分析 （Markdown文件）

Python机器学习与大数据实战Spark 2.0+Hadoop林大贵(著)高清带书签

空空如也

利用Python进行数据分析（Markdown文件）