自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 初识开窗函数

.开窗函数1.聚合函数 : 多行数据 按照一定规则 进行聚合 为一行sum avg max 。。。理论上: 聚合后的行数 <= 聚合前的行数 [看维度选取 groupby 里面的字段]2.需求: 既要显示 聚合前的数据 又要显示 聚合后的数据 ?eg: id name sal dt sal_all 1 zs 1000 2022-4 10002 ls 2000 2022-4 20003 ww 3000 2022-4 30001

2022-04-18 17:45:48 191

原创 初识shell

1.什么是shell ? 脚本语言 python1.一个编程的语言 2.可以执行的文件3.文件内容 linux命令组成的1.shell语法入门1.入门1.文件 xxx.sh 结尾2.第一行 #!/bin/bash1.编写脚本 vim wc.sh2.得有执行权限【不一定】 1.不给文件权限 sh xxx.sh [root@sygy10 shell]# sh ./wc.sh word count [root@sygy10 shell]# cat wc.sh #!

2022-04-18 17:36:44 99

原创 linux基本指令

基本命令:1.mv + cp1.mv 剪切2.cp 复制mv =》 文件个数 始终是1分 cp =》 文件个数 始终是2分1.移动 [root@sygy10 bigdata]# mv 1.log ../1.log [root@sygy10 bigdata]# cp ~/1.log ./2.改名字 [root@sygy10 ~]# mv 1.log 1.log_blk [root@sygy10 ~]# cp 1.log_blk 1.log标准写法: mv xx.log

2022-04-18 17:30:15 176

原创 初识matplotlib

标题matplotlib:1.绘图2.图表:属性 线条:颜色、样式、数据点 图表额外:轴标签(x,y)、图例、标题3.有哪些图表: 折线图、柱状图、散点图、饼状图。。。4 matpoltlib 编程模型:1.Figure 画布2.Axes 图表部分代码展示花sin图像 x = np.linspace(0, 2 * np.pi, 200) y = np.sin(x) fig, ax = plt.subplots() ax.plot(x, y)

2022-04-10 00:24:49 103

原创 初识pandas

pandas1.Series1.Series is a one-dimensional labeled array【Series 就是一个 一维 标签数组】2.capable of holding any data type 【integers, strings, floating point numbers, Python objects, etc.).】 【存各种数据类型】3.The axis labels are collectively referred to as the index

2022-04-10 00:10:43 80

原创 numpy

numpy1.创建一维数组:1.数据类型转化2.内置函数 np1_arr = np.array([1,2,3,4,5]) # np arr 数据类型 转换 print(np1_arr.dtype) print(np1_arr.itemsize) #调整元素的数据类型 np1_arr1 = np.array([1, 2, 3, 4, 5],dtype=np.int64) print(np1_arr1.dtype) print(np1_arr1

2022-04-09 23:46:59 562

原创 初识机器学习

机器学习:1.概念Simple and efficient tools for predictive data analysis【预测数据分析结果】用机器代替人做决策数据集 =》 训练 =》 模型 2.Built on NumPy, SciPy, and matplotlib、pandas2.机器学习里面的常用术语 :1.数据集准备 色泽= 绿色 、根=弯曲 、 敲声 = 浑浊 =》 熟的 色泽= 黑色 、根=弯曲 、 敲声 = 沉闷 =》 生的 色泽= 红色 、根=弯

2022-04-09 23:30:34 73

原创 初识scrap框架

1.爬虫的框架:scrap :An open source and collaborative framework for extracting the data you need from websites.In a fast, simple, yet extensible way.1.开源的爬虫框架2.快速、简单、高效的方式2.基本使用1.创建一个项目scrapy startproject test_scrapy 1.项目目录: 1.scrapy.cfg 【项目的配置文件

2022-04-02 11:28:16 756

原创 xpath爬虫二手房案例代码

import requestsfrom lxml import etreeif name == ‘main’:# ua 伪装 =》 模拟浏览器上网headers = {“User-Agent”: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36’}url = "https://dl.58.com/ershoufa

2022-04-02 11:23:13 1814

原创 初识python爬虫及bs4

题目:python爬虫学习内容:`爬虫:1.百度百科2.自己理解:通过代码、模拟浏览器上网 然后抓取数据的过程 数据解析2.爬虫是否合法?1.法律允许2.有法律风险的3.统一规定? 【法律界限】robots.txt协议4.爬虫的分类:1.获取一整张页面 【通用爬虫】2.获取一整张页面 部分数据 【聚焦爬虫】3.检查页面更新、获取页面最新的更新的数据 【增量式爬虫】5.爬虫的规则:1.反爬策略:门户网站 通过 技术手段 防止爬虫程序对页面爬取数据2.反 反爬策略爬虫程

2022-04-01 08:30:09 151

原创 python基本语法(2)

学习目标:python基本语法(2)学习内容:1.函数:函数 =》方法 【区别不大】scala 【有区别】1.内置函数 【 常用类的api】 1.数学相关的 【math 包下的】2.自定义函数3.匿名函数【没有名字的函数】1.内置函数 【 常用类的api】print(abs(-10)) #绝对值print(max(1, 2, 3, 4, 5))print(min(1, 2, 3, 4))print(sum([1, 2, 3]))import mathprint(math.

2022-03-30 15:42:33 67

原创 python基础语法(1)

学习目标:python基础语法(1)学习内容:Python:1.概述:1.语言2.开发起来简洁 =》 java2.使用场景:1.数据分析 =》 numpy 、pandas2.web 开发 =》 用的不多 、 百度3.游戏开发 =》 用的不多4.AI (机器学习、深度学习)5.爬虫1.部署安装:1.安装: 1.python 原生的安装包 www.python.org 2.anaconda 安装 =》 1.python 有的 2.有一些丰富的第三方库 ana

2022-03-30 15:40:20 314

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除