- 博客(12)
- 收藏
- 关注
原创 初识开窗函数
.开窗函数1.聚合函数 : 多行数据 按照一定规则 进行聚合 为一行sum avg max 。。。理论上: 聚合后的行数 <= 聚合前的行数 [看维度选取 groupby 里面的字段]2.需求: 既要显示 聚合前的数据 又要显示 聚合后的数据 ?eg: id name sal dt sal_all 1 zs 1000 2022-4 10002 ls 2000 2022-4 20003 ww 3000 2022-4 30001
2022-04-18 17:45:48
191
原创 初识shell
1.什么是shell ? 脚本语言 python1.一个编程的语言 2.可以执行的文件3.文件内容 linux命令组成的1.shell语法入门1.入门1.文件 xxx.sh 结尾2.第一行 #!/bin/bash1.编写脚本 vim wc.sh2.得有执行权限【不一定】 1.不给文件权限 sh xxx.sh [root@sygy10 shell]# sh ./wc.sh word count [root@sygy10 shell]# cat wc.sh #!
2022-04-18 17:36:44
99
原创 linux基本指令
基本命令:1.mv + cp1.mv 剪切2.cp 复制mv =》 文件个数 始终是1分 cp =》 文件个数 始终是2分1.移动 [root@sygy10 bigdata]# mv 1.log ../1.log [root@sygy10 bigdata]# cp ~/1.log ./2.改名字 [root@sygy10 ~]# mv 1.log 1.log_blk [root@sygy10 ~]# cp 1.log_blk 1.log标准写法: mv xx.log
2022-04-18 17:30:15
176
原创 初识matplotlib
标题matplotlib:1.绘图2.图表:属性 线条:颜色、样式、数据点 图表额外:轴标签(x,y)、图例、标题3.有哪些图表: 折线图、柱状图、散点图、饼状图。。。4 matpoltlib 编程模型:1.Figure 画布2.Axes 图表部分代码展示花sin图像 x = np.linspace(0, 2 * np.pi, 200) y = np.sin(x) fig, ax = plt.subplots() ax.plot(x, y)
2022-04-10 00:24:49
103
原创 初识pandas
pandas1.Series1.Series is a one-dimensional labeled array【Series 就是一个 一维 标签数组】2.capable of holding any data type 【integers, strings, floating point numbers, Python objects, etc.).】 【存各种数据类型】3.The axis labels are collectively referred to as the index
2022-04-10 00:10:43
80
原创 numpy
numpy1.创建一维数组:1.数据类型转化2.内置函数 np1_arr = np.array([1,2,3,4,5]) # np arr 数据类型 转换 print(np1_arr.dtype) print(np1_arr.itemsize) #调整元素的数据类型 np1_arr1 = np.array([1, 2, 3, 4, 5],dtype=np.int64) print(np1_arr1.dtype) print(np1_arr1
2022-04-09 23:46:59
562
原创 初识机器学习
机器学习:1.概念Simple and efficient tools for predictive data analysis【预测数据分析结果】用机器代替人做决策数据集 =》 训练 =》 模型 2.Built on NumPy, SciPy, and matplotlib、pandas2.机器学习里面的常用术语 :1.数据集准备 色泽= 绿色 、根=弯曲 、 敲声 = 浑浊 =》 熟的 色泽= 黑色 、根=弯曲 、 敲声 = 沉闷 =》 生的 色泽= 红色 、根=弯
2022-04-09 23:30:34
73
原创 初识scrap框架
1.爬虫的框架:scrap :An open source and collaborative framework for extracting the data you need from websites.In a fast, simple, yet extensible way.1.开源的爬虫框架2.快速、简单、高效的方式2.基本使用1.创建一个项目scrapy startproject test_scrapy 1.项目目录: 1.scrapy.cfg 【项目的配置文件
2022-04-02 11:28:16
756
原创 xpath爬虫二手房案例代码
import requestsfrom lxml import etreeif name == ‘main’:# ua 伪装 =》 模拟浏览器上网headers = {“User-Agent”: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36’}url = "https://dl.58.com/ershoufa
2022-04-02 11:23:13
1814
原创 初识python爬虫及bs4
题目:python爬虫学习内容:`爬虫:1.百度百科2.自己理解:通过代码、模拟浏览器上网 然后抓取数据的过程 数据解析2.爬虫是否合法?1.法律允许2.有法律风险的3.统一规定? 【法律界限】robots.txt协议4.爬虫的分类:1.获取一整张页面 【通用爬虫】2.获取一整张页面 部分数据 【聚焦爬虫】3.检查页面更新、获取页面最新的更新的数据 【增量式爬虫】5.爬虫的规则:1.反爬策略:门户网站 通过 技术手段 防止爬虫程序对页面爬取数据2.反 反爬策略爬虫程
2022-04-01 08:30:09
151
原创 python基本语法(2)
学习目标:python基本语法(2)学习内容:1.函数:函数 =》方法 【区别不大】scala 【有区别】1.内置函数 【 常用类的api】 1.数学相关的 【math 包下的】2.自定义函数3.匿名函数【没有名字的函数】1.内置函数 【 常用类的api】print(abs(-10)) #绝对值print(max(1, 2, 3, 4, 5))print(min(1, 2, 3, 4))print(sum([1, 2, 3]))import mathprint(math.
2022-03-30 15:42:33
67
原创 python基础语法(1)
学习目标:python基础语法(1)学习内容:Python:1.概述:1.语言2.开发起来简洁 =》 java2.使用场景:1.数据分析 =》 numpy 、pandas2.web 开发 =》 用的不多 、 百度3.游戏开发 =》 用的不多4.AI (机器学习、深度学习)5.爬虫1.部署安装:1.安装: 1.python 原生的安装包 www.python.org 2.anaconda 安装 =》 1.python 有的 2.有一些丰富的第三方库 ana
2022-03-30 15:40:20
314
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人