
大数据
文章平均质量分 77
@程序媛
超级码农
展开
-
Hive安装教程
前置条件:hadoop&mysql以下的/opt/bigdata目录根据自己实际情况更改。原创 2024-05-25 15:12:03 · 642 阅读 · 0 评论 -
docker容器安装mysql
下载指定版本的mysql: sudo docker pull mysql:5.7。根据关键字搜索镜像: sudo docker search mysql。停止正在运行的容器:sudo docker stop 容器编号。删除正在运行的容器:sudo docker rm 容器编号。-d mysql:5.7 : 后台运行mysql5.7。查看正在运行的容器:sudo docker ps -a。--name mysql: 运行服务的取名。-v是将主机目录下的文件挂载到容器中路径下。原创 2024-05-24 21:59:01 · 839 阅读 · 0 评论 -
zookeeper安装教程
zookeeper安装教程原创 2024-05-21 12:50:46 · 771 阅读 · 0 评论 -
(图文并茂)基于CentOS-7搭建hadoop3.3.6大数据集群
安装虚拟机等很久没反应一般是需要按 Enter键 确认进入安装界面。原创 2024-05-15 18:20:17 · 3370 阅读 · 1 评论 -
spark3.0.0单机模式安装
添加以下内容,/bigdata/hadoop就是hadoop的路径,可根据自己的实际情况修改。下载spark3.0.0版本,hadoop和spark版本要对应,否则会不兼容。用xftp上传Linux虚拟机,上传目录/bigdata(可修改)注:此安装教程基于hadoop3集群版本。这是一个求Π的示例程序,输出如下。打开spark shell终端。修改spark配置文件。原创 2024-04-24 14:35:40 · 831 阅读 · 1 评论 -
spark实验求TOP值
已知存在两个文本文件,file1.txt和file2.txt,内容分别如下:file1.txtfile2.txt以上两个文件所存储的数据字段的意义为:orderid, userid, payment, productid。原创 2024-04-24 19:02:34 · 1700 阅读 · 0 评论 -
python简单爬虫
的多进程库,用来处理与多进程相关的操作。但是由于进程与进程之间不能直接共享内存和堆栈资源,而且启动新的进程开销也比线程大得多,因此使用多线程来爬取比使用多进程有更多的优势。post提交的数据在请求体中,因此不能直接通过拼接url的形式访问网页资源。方法,可以让线程池里面的所有线程都“同时”执行一个函数。post提交的数据要借助data或json参数。类,它用来实现线程池。原创 2024-01-01 17:09:45 · 935 阅读 · 0 评论 -
在Python中使用正则表达式
数据在实际开发中是从各种平台爬取获得,爬取的数据可以直接进行正则表达式过滤,也可先保存到文本文件中再做处理。re.S忽略换行符,一般情况下只会匹配到字符串结尾或换行符前面,加上re.S参数后即可匹配换行符后面的内容。的时候,才会把正则表达式里面的括号中的结果打印出来。只返回第一个匹配到的结果,只要开头没有匹配上就结束匹配。根据正则表达式的写法,设计所需要的匹配规则。2个括号中的内容,以此类推。括号的情况下)的形式展示。获取第一个匹配上的字符串。个括号中的内容,参数为。获取所有匹配的字符串。原创 2023-12-31 16:57:01 · 487 阅读 · 0 评论 -
python读写文件操作
这里有一个参数“encoding”,它可以在打开文件的时候将文件转换为UTF-8编码格式,从而避免乱码的出现。如果文件是在Windows中创建的,并且使用UTF-8打开文件出现了乱码,可以把编码格式改为GBK。CSV文件本质上是文本文件,所以操作csv文件需要先以文本文件方式打开,再将文件对象传递给CSV模块。写列表的时候,Python写到文本中的文字是不会自动换行的,需要人工输入换行符才可以。参数为一个列表,把列表里面的所有字符串写入到文本中。准备字典类型的数据,包含字典的列表也可以。原创 2023-12-31 16:54:48 · 535 阅读 · 0 评论 -
正则表达式
我的微博密码是:1234567,QQ密码是:33445566, 银行卡密码是:888888,Github密码是:999abc999,帮我记住它们。: 假设我们要匹配包含"apple"的单词,但只有在"apple"后面不跟着"pie"的情况下才匹配。“1234567,QQ密码是:33445566, 银行卡密码是:888888,Github密码是:999abc999” (长度。:apple(第二个"apple"匹配成功,因为它后面不跟着"pie")原创 2023-12-31 15:24:50 · 392 阅读 · 0 评论