虞悰-优快云博客

原创 VM命令2

基本命令： 1.mv + cp 1.mv 剪切 2.cp 复制 mv =》文件个数始终是1分 cp =》文件个数始终是2分 1.移动 [root@sygy10 bigdata]# mv 1.log ../1.log [root@sygy10 bigdata]# cp ~/1.log ./ 2.改名字 [root@sygy10 ~]# mv 1.log 1.log_blk ...

2022-04-14 23:41:50 886

原创 VM基本命令

1.基本命令 1.pwd 当前光标所在目录的位置 [root@sygy10 ~]# pwd /root 2.ls 【查看】当前光标所在目录的下面有什么东西 [root@sygy10 ~]# ls ls 显示文件夹和文件名字 ls -l 显示文件夹和文件名字详细信息 ls -l -a 显示文件夹和文件名字详细信息显示隐藏文件【文件或者文件夹以.开头的文件】 ls ...

2022-04-12 22:05:52 9560

原创 numpy基础

机器学习： 1.概念 Simple and efficient tools for predictive data analysis 【预测数据分析结果】用机器代替人做决策数据集 =》训练 =》模型 2.Built on NumPy, SciPy, and matplotlib、pandas 2.机器学习里面的常用术语： 1.数据集准备色泽= 绿色、根=弯曲、敲声 = 浑浊 =》熟的 ...

2022-04-06 21:32:12 1612

爬虫的框架： scrap ： 1. An open source and collaborative framework for extracting the data you need from websites. In a fast, simple, yet extensible way. 1.开源的爬虫框架 2.快速、简单、高效的方式 2.安装部署 3.基本使用 1.创建一个项目 scrapy startproject test_scrapy ...

2022-04-06 08:27:57 144

原创 scrapy爬虫命令

1.创建项目：scrapy startproject test_scrapy 2. 找目录：cd .\test_scrapy\ 3.创建一个模板： scrapy genspider python01 www.xxx.com 4.运行模板，看好使不：scrapy runspider .\test_scrapy\spiders\python01.py 5.两种命令都试试： scrapy crawl python01 6.改参数，让它只报错： 7.生成json文件:scrapy crawl pyt

2022-04-06 08:26:18 1424

原创 python1

1.函数：函数 =》方法【区别不大】 scala 【有区别】 1.内置函数【常用类的api】 1.数学相关的【math 包下的】 2.自定义函数 3.匿名函数【没有名字的函数】 1.内置函数【常用类的api】 print(abs(-10)) #绝对值 print(max(1, 2, 3, 4, 5)) print(min(1, 2, 3, 4)) print(sum([1, 2, 3])) ...

2022-03-31 21:27:37 373

原创 python2

爬虫： 1.百度百科 2.自己理解：通过代码、模拟浏览器上网然后抓取数据的过程数据解析 2.爬虫是否合法？ 1.法律允许 2.有法律风险的 3.统一规定？【法律界限】 robots.txt协议 4.爬虫的分类： 1.获取一整张页面【通用爬虫】 2.获取一整张页面部分数据【聚焦爬虫】 3.检查页面更新、获取页面最新的更新的数据【增量式爬虫】 5.爬虫的规则： 1.反爬策略：门户...

2022-03-31 21:27:05 93

原创大数据专业：

面试： linux： tail -f F 区别 hadoop：读写流程、yarn、mapreduce【不会问的、shuffle】 hdfs：小文件如何解决 nn ha yarn ha hive： 1.sql 2.调优： 1.数据倾斜=》 join group by 2.使用过哪些参数 flume：tail -f F 区别 ...

2022-03-31 21:24:09 1811

京东SKⅡ商品评论信息数据集

商品的名称、评论内容、评论时间、评分、销量等信息

2023-06-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人