- 博客(21)
- 资源 (3)
- 收藏
- 关注
原创 BeautifulSoup补充
此博文是对之前博文的补充 :https://blog.youkuaiyun.com/Clany888/article/details/81986302from bs4 import BeautifulSoupsoup = BeautifulSoup(html,'lxml') # 不标准的HTML字符串BeautifulSoup可以自动更正格式soup.prettify() # 将要解析的字符串按照...
2018-11-21 23:47:41
481
原创 Mac安装Anaconda3
下载地址:https://www.anaconda.com/download/#macos下载哪一个都可以,一个是窗口安装,一个是命令行安装,以命令行为主:cd到下载目录下,执行如下代码:# bash 您下载的文件名bash Anaconda3-5.3.0-MacOSX-x86_64.sh一直回车即可。添加环境变量:编辑 .bash_profile ,如果你命令行安...
2018-10-30 22:31:41
12731
原创 Mac「macOS Mojave 10.14」安装MySQL(其他版本也通用)
1、brew update更新包2、brew install mysql 安装mysql先使用 brew search mysql 查看可下载的版本,然后指定版本下载安装mysql$ brew install mysql==> Downloading https://homebrew.bintray.com/bottles/mysql-5.7.21.high_sierra....
2018-10-30 22:18:23
5404
原创 Mac安装Homebrew
安装1. 自动安装(推荐)执行如下命令:/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"上边的命令行时两个命令,首先下载install文件,然后用系统的ruby工具安装。尽量再bash或者zsh下安装,fish下会提示不识别'$'...
2018-10-30 21:59:31
917
1
原创 Python操作Hive的两种方法总结
方法一:使用PyHive库安装依赖包:其中sasl安装可能会报错,可以去https://www.lfd.uci.edu/~gohlke/pythonlibs/#sasl下载对应版本安装。pip install saslpip install thriftpip install thrift-saslpip install PyHivePython脚本代码操作:from p...
2018-10-09 21:37:17
29102
原创 云服务器Python相关配置
Linux安装Anaconda安装包获取:1.在线下载安装包:访问:https://repo.continuum.io/archive/ 查看自己要安装的Python版本,和系统要求。选择一个目录用于放置安装包,然后用wget命令进行在线下载:# 本服务器是64位wget https://repo.continuum.io/archive/Anaconda3-5.2.0-L...
2018-09-30 14:44:34
604
原创 网络爬虫笔记(Day9)——初识Scrapy
爬虫步骤:分析需求 获取网页的URL 下载网页内容(Downloader下载器) 定位元素位置, 获取特定的信息(Spiders 蜘蛛) 存储信息(ItemPipeline, 一条一条从管里传输) 队列存储(Scheduler 调度器)Scrapy:学习文档:https://scrapy-chs.readthedocs.io/zh_CN/0.24/index.html首...
2018-08-23 19:40:56
302
原创 网络爬虫笔记(Day8)——IP代理
可以去某宝或其他渠道购买,具体使用看自己购买商家的API文档,查看使用方法。ip_proxy.pyimport requestsclass ip_getter(object): def __init__(self): self.ip_proxy_str = get_ip_string() def update_ip_proxy_str(self)...
2018-08-23 19:19:13
373
原创 网络爬虫笔记(Day8)——BeautifulSoup
BeautifulSoup我们到网站上爬取数据,需要知道什么样的数据是我们想要爬取的,什么样的数据是网页上不会变化的。Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unico...
2018-08-23 19:12:33
332
原创 网络爬虫笔记(Day7)——Selenium
首先下载chromedriver 将其放入Python运行环境下,然后再去pip安装selenium。最简单的结构 代码如下:from selenium import webdriver# ----------------------不打开浏览器窗口-------------------------option_chrome = webdriver.ChromeOptions(...
2018-08-22 09:28:33
286
原创 进程和线程——Python中的实现
一、进程(Process) 进程是一个实体。每一个进程都有它自己的地址空间,一般情况下,包括文本区域(text region)、数据区域(data region)和堆栈(stack region)。文本区域存储处理器执行的代码;数据区域存储变量和进程执行期间使用的动态分配的内存;堆栈区域存储着活动过程调用的指令和本地变量。 进程是一个“执行中的程序”。程序是一个没有生命的实体,...
2018-08-20 23:02:50
357
原创 网络爬虫笔记(Day5)——腾讯社招&拉勾网
分析过程与链家是一样的。腾讯社招完整代码如下:import requestsfrom lxml import etreefrom mysql_class import Mysql # 自己封装好的Mysql类def txshezhao(keywords, page): ''' :param keywords: 指定搜索关键字进行数据爬取 :param ...
2018-08-19 14:58:23
1037
原创 网络爬虫笔记(Day5)——链家
注意:请不要爬取过多信息,仅供学习。分析:业务需求分析......(此例为住房信息...) 查找相关网页信息(以链家为例) 分析URL,查找我们需要的内容,建立连接 定位数据 存储数据首先进入链家网首页,点击租房,F12检查网页,查找我们需要的信息。如图:第一页url:https://bj.lianjia.com/zufang/第二页url:https://bj....
2018-08-17 17:01:34
673
原创 网络爬虫笔记(Day4)
爬取今日头条图集 进入今日头条首页:https://www.toutiao.com/ 步骤:1、查看网页,查找我们需要的URL,分析URL 2、获取网页内容,分析内容 3、定位我们需要的内容 4、将数据存储 在搜素框 输入要搜索的内容(例如:街拍),然后选择图集,F12...
2018-08-16 22:06:47
342
原创 用TensorFlow训练卷积神经网络——识别验证码
需要用到的包:numpy、tensorflow、captcha、matplotlib、PIL、randomimport numpy as np import tensorflow as tf # 深度学习库from captcha.image import ImageCaptcha # 用来生成验证码import matplotlib.pyplot as plt # 用来将验证...
2018-08-15 22:01:31
3617
原创 网络爬虫笔记(Day3)
首先分析 雪球网 https://xueqiu.com/#/property第一次进去后,第一次Ajax请求得到的是 若下图所示的 max_id=-1, count=10。然后往下拉,第二次Ajax请求,如下图; 发现URL里面就max_id 和count不同,max_id为前一次Ajax的最后一条数据的id,以后的每次请求都是count=15,故我需要对url进行拼接。URL...
2018-08-15 21:05:07
264
原创 网络爬虫笔记(Day2)
爬取个人 人人主页 的代码:首先用最原始的方法进行,可以看出这样写代码,比较麻烦,重复代码很多:from urllib import request, parseurl = 'http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=2018721913553'headers = { 'User-Agent...
2018-08-14 21:32:04
440
原创 Ubuntu安装OpenCV
OpenCV安装:首先去官网下载:https://opencv.org/releases.html (选择sources版本)将其放入自己的文件夹下,然后执行以下命令解压:zip opencv-3.4.1.zip安装依赖库和cmake ,如果提醒需要apt-get update,那就先sudo su进入root权限,再sudo apt-get update,然后在执行下面命令...
2018-08-13 21:30:39
376
原创 网络爬虫笔记(Day1)
Day 1爬虫的过程1.首先需要了解业务需求2.根据需求,寻找网站3.将网站数据获取到本地 (可以通过urllib,requests等包)4.定位数据(re xpath css json等)5.存储数据(mysql redis 文件格式) 最简单...
2018-08-13 19:57:14
383
原创 Cookie 和 Session
cookie 和 session 的区别cookie:由于http请求是无状态的。它第一次和服务器连接后并且登录成功后,之后再次请求浏览器,浏览器还是不知道当前访问用是谁。因此cookie的出现就是为了解决这个问题,能够把第一次登录后服务器返回一些数据(cookie)给浏览器,然后浏览器保存在本地,当该用户发送第二次请求的时候,浏览器就会自动的把上次请求存储的coo...
2018-08-13 19:20:26
292
原创 GitHub入门之旅
这篇文章是我自己首次使用GitHub创建库,克隆库,操作库以及上传的操作过程记录。1、注册一个GitHub账号:https://github.com/ 注册完成后登陆自己的GitHub账号,点击网页右上角的小加号,用来创建自己的库的按钮,之后的步骤按提示进行创建自己的库即可。2、创建好库之后,要做的就是把库克隆到本地,方便自己电脑上的文件同步到GitHub上你创建的库中。为了实现这一步需要安装Gi...
2018-05-29 16:37:14
369
Python机器学习与大数据实战Spark 2.0+Hadoop林大贵(著)高清带书签
2018-10-09
OpenCV计算机视觉(Python语言)
2018-10-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人