WhareSong-优快云博客

原创天池SQL训练营——tesk2

SQL 基础查询与排序SELECT查询相关法则星号（*）代表全部列的意思。SQL中可以随意使用换行符，不影响语句执行（但不可插入空行）。设定汉语别名时需要使用双引号（"）括起来。在SELECT语句中使用DISTINCT可以删除重复行。注释是SQL语句中用来标识说明或者注意事项的部分。分为1行注释"-- "和多行注释两种"/* */"。– 选取出sale_price列为500的记录SELECT product_namep, roduct_typeFROM productWHERE sal

2021-03-05 17:28:28 390 2

原创阿里云天池——SQL训练计划_task1

@wheaesong2020-2-131 数据库简介据库是将大量数据保存起来，通过计算机加工而成的可以进行高效访问的数据集合。该数据集合称为数据库（Database，DB）。用来管理数据库的计算机系统称为数据库管理系统（Database Management System，DBMS）。1.1 DBMS的种类DBMS 主要通过数据的保存格式（数据库的种类）来进行分类，现阶段主要有以下 5 种类型.层次数据库（Hierarchical Database，HDB）关系数据库（Relational

2021-02-13 17:23:19 1458 2

原创深拷贝与浅拷贝（基于python）

今天接触了一个新的名词：深拷贝与浅拷贝很容易理解，在这里记录一下浅拷贝，可以理解为拷贝指针举个例子：a = [1,2]b = a可以这么理解：创建一个存储区用于存储[1,2],变量a指向存储区的地址b = a就是把b指向a的地址，即把b也指向[1,2]的存储区如图：图中可以看到ab对象的id是相同的，也就验证了浅拷贝的原理再一个稍微复杂的例子，对比深拷贝与浅拷贝：这里可以看到，copy和赋值的地址有一定的区别，那他们是不是同一类型的拷贝呢？先做个假设：假设他们都是浅

2020-09-16 20:27:29 229

原创定向爬虫（3）--多线程爬取二进制文件

多线程和单线程对比，可以大大提高爬虫并行运行的效率实现多线程爬虫，需要引入multiprocessing包，并通过其中的Pool方法实现import multiprocessing首先创建第一个请求函数，实现对原网页的请求，从中获取每个图片的地址，并将其存储在list[]列表中代码如下这里爬取 123排行榜中的世界raper榜，URL=‘https://mip.phb123.com/renwu/geshou/29155.html’获取到原网页后，编码、转换xpath对象，先抓大后抓小原则，

2020-08-19 11:02:25 352

原创爬虫日记（4）—定向爬虫与mongdb和redis的集合

定向爬虫最重要的我个人认为是xpath语句的书写，其他的都比较容易理解关于mongodb和redis的基本语法，这里就不在赘述，有很多关于这方面的博客，可以看一下。直接上代码吧，注释写的也比较清晰容易理解import requestsimport lxml.etreeimport redisimport pymongo# 初始化redis数据库client = redis.StrictRedis()# 初始化mongodb数据库db = pymongo.MongoClient()

2020-08-18 17:16:42 214

原创定向爬虫（2）———xpath爬取疯狂中文网小说总榜

定向爬虫实现起来比较简单，也比较容易理解难搞的是Xpath语句我觉得写的明明是对的，然后返回结果为空，一直谷歌，一直找原因，最后妥协了，还是copy比较好用（手动狗头）。直接上代码吧，也没有什么特别的东西，大多东西都写在注释里了import requestsimport lxml.etree # 最终选用etreeimport lxml.html # 因为就返回结果为空，试了两种方法的对象构造import csv# 程序开头先定义网址url = 'http://www.fkzww.com

2020-08-14 16:30:34 577

原创定向爬虫（1）——第一个单线程爬虫

看了好几天的爬虫，终于有点眉目，于是写了第一个单线程爬虫，问题很多，但功能基本实现了简单记录一下，以后可以翻看回忆这里爬取的是努努书坊的《龙族五》，原网页链接如下：https://www.kanunu8.com/book2/10943/先撸一下基本框架结构：1）使用request获取网页源码2）使用正则表达式提取内容3）文件操作，写入文件保存文件检查网页元素，很容易可以找出特别的地方，.........<dl><dt>正文</dt><dd>

2020-08-10 19:19:43 340

原创 Tessseract的安装以及语言包的安装

tesseract可以说和是作爬虫必须的工具之一，为win上安装还是比较方便，这里主要记录一下ubuntu上的安装过程，这中间遇到了很多坑，最后发现一个超级方便快捷的安装方式首先就apt安装就好了sudo apt-get updatesudo apt install tesseract-ocr这里默认安装的是4.0版本，如果要安装5.0，就用另外一套命令要安装5.0,要先加PP...

2020-03-19 18:43:04 1644

原创关于linux中Anaconda的安装和和环境变量的配置

关于linux中Anaconda的安装和和环境变量的配置Anaconda的安装帖子有很多，也没有什么很复杂的东西，这里就不再赘述这里主要记录一下环境变量的配置首先在终端中输入sudo gedit /etc/profile这个命令和使用管理员权限用gedit打开profile文件，然后在文档末尾添加PATH=/home/（用户名）/anaconda3/bin:$PATH将Anacond...

2020-03-19 13:20:19 492

转载我的python日记（1）-快速搞定VM tools

我的Python日记我是一个大二的学生，因为这次疫情在家闲的慌，然后从零基础入门学习Python，期间遇到的各种坑，都把他记下来，有的可能有用，有的留个念想。因为我学的课程大多基于Ubuntu，所以最开始遇到虚拟机上的各种问题。虚拟机的安装教程很多，这里也不赘述。想跟大家分享的是Ubuntu中安装Vmware tools的一个技巧。三行代码搞定Vmware tools的安装第一行命令：s...

2020-03-09 11:05:09 192

qq_44037783的博客