- 博客(51)
- 收藏
- 关注
原创 【机器学习】基于conda虚拟环境的gcc、g++版本升级
最近在学习大模型部署,需要安装flash-attn,在编译时报错centos7.9默认gcc最高版本为4.8.5以上报错需要高版本的gcc支持,所以需要升级GCC的版本,对应关系参考这里选择9.0版本进行升级。网上搜索教程,多是 基于centos yun 安装替换方式,比较复杂,该文章基于conda虚拟环境来进行升级,操作简单,对原系统侵入少。
2025-03-18 11:33:35
367
原创 deepseek 本地私有化部署
deepseek 目前有DeepSeek-V3和DeepSeek-R1两个系列,DeepSeek-V3是由DeepSeek推出的一款拥有6710亿参数的专家混合(MoE)大语言模型,DeepSeek-R1是基于DeepSeek-V3-Base训练的高性能推理模型。这两个模型参数都非常大,性能也非常高,但部署成本非常高,对于小企业和个人不是很现实,但deepseek提供了蒸馏版本的小模型,但可以使用大模型的知识能力,对硬件配置要求较低。让用户以很低的成本,私有化部署大模型。
2025-02-06 11:52:32
1111
原创 【数据仓库】hadoop web UI 增加账号密码认证
1 hadoop提供的simple认证 很鸡肋,没啥用,任意用户皆可访问;2 在hadoop 前面加上nginx 代理,并开启登录认证,将hadoop置于内网环境,很好的解决了hadoop的安全问题。3 以上是基于伪分布式部署前提下的安全措施,目前来看,能很好解决hadoop被攻击的问题。
2025-01-04 14:57:05
833
原创 【数据仓库】hadoop3.3.6 安装配置
该文档是基于hadoop3.2.2版本升级到hadoop3.3.6版本,所以有些配置,是可以不用做的,下面仅记录新增操作,其他操作参见其他文章Hadoop3.2.1安装-单机模式和伪分布式模式。
2024-12-31 17:30:26
1471
原创 【数据仓库】hive on Tez配置
前提是hive4.0+hadoop3.2.2数仓已搭建完成,现在只是更换其执行引擎 为Tez。搭建可参考文章。
2024-12-31 17:29:01
1504
原创 【数据仓库】SparkSQL数仓实践
可以看到之前在hive+hadoop数仓下建的库都可以通过spark-sql 查出来了,因为两者共用了一个metastore服务,元数据是一样的,数仓地址也是一样的。1 hive 4.0移除了saprk支持,只能使用MR和Tez,意味着往后版本,hive on spark就不存在了,若想使用,需要将hive换到4,0以前的版本;这也是为什么在hive sql 会话下,执行。由于spark-sql 使用的元数据管理是hive的元数据服务,所以,spark-sql的语法可以理解为和hive SQL是一样的。
2024-12-28 10:14:52
1347
原创 【数据仓库】spark大数据处理框架
Spark是一个性能优异的集群计算框架,广泛应用于大数据领域。类似Hadoop,但对Hadoop做了优化,计算任务的中间结果可以存储在内存中,不需要每次都写入HDFS,更适用于需要迭代运算的算法场景中。Spark专注于数据的处理分析,而数据的存储还是要借助于Hadoop分布式文件系统HDFS等来实现。复杂的批量数据处理基于历史数据的交互式查询基于实时数据流的数据处理Spark技术栈基本可以解决以上三种场景问题。
2024-12-28 10:04:19
1659
原创 hive+hadoop架构数仓使用问题记录
按照日志提示,及搜索各大技术博客,要么是按日志提示在mapred-site.xml加配置,要么是在yarn-site.xml 文件修改yarn.application.classpath配置,但是自己按提示改完后,均无法解决问题。经过再次复现尝试,mapred-site.xml和yarn-site.xml 文件要配置,hadoop-env.sh文件也要配置,然后依次重启hdfs 和 hive相关服务,即可生效。hadoop体系在集群部署时,需要部署两个集群,一个是hdfs集群,一个是yarn集群。
2024-12-12 18:09:02
1079
原创 hive SQL常用语法
是SQL语言集中对数据库表或者库结构进行创建、删除、修改等操作语言。核心语法由create alter drop三个组成。DDL不涉及表内部数据操作。1 hive SQL的脚本语法跟MySQL很像,基本可以说是相同2 数仓的目的是为了对海量历史数据进行分析,使用hiveSQL进行分析,无非是以上语法的组合使用;MySQL也有以上语法,能用于数据分析吗?区别是啥?答案是肯定可以的。MySQL用于少量数据的分析,hive+ 数仓用于海量数据的分析。为啥呢?
2024-12-12 18:08:35
1080
原创 hive+hadoop架构数仓使用
hive数仓里的表有两个维度,元数据(数据表结构)和数据文件,其中元数据存储到MySQL上,数据文件存储到hdfs上。
2024-12-12 18:08:01
1783
原创 【实战】基于urllib和BeautifulSoup爬取jsp网站的数据
网络数据爬取大致分为两类:静态爬取:该种方式针对那种架构比较老的网站,使用模版方式,通过浏览器F12只能找到静态页面,找不到返回json数据的接口,数据以html的方式存在api爬取:网站采用前后端分离架构,可以很容易找到接口,获取json数据,这种爬取比较简单,只需按照规则调用接口即可获取目标数据。这里仅介绍复杂一些的静态爬取方式。1 cookie是关键,也是难点,但抓住了主线也就迎刃而解,这主线即是cookie原理。
2024-11-24 20:47:49
1286
原创 【数据仓库】hive + hadoop数仓搭建实践
原因是/tmp/hive/_resultscache_目录权限问题,/tmp/hive/_resultscache_ 文件夹 所属用户hadoop,权限为所有者777,但组和其他用户权限都为0,即只有hadoop用户有rwx权限,其他用户无权限。其中,hive.metastore.warehouse.dir 目录,得是hdfs分布式文件系统下的目录,这个很重要,若是在Linux本地文件系统下创建该目录,后面是会报错的。由于资源不足,搭建伪分布式,利用Hadoop的HDFS分布式存储功能,可以查看搭建教程。
2024-11-14 18:17:05
1689
原创 hadoop分布式文件系统常用命令
搭建完hadoop后,会生成一个hdfs的分布式文件系统。HDFS是一个逻辑上的文件系统,它存储在Hadoop集群的多个节点上,而不是单个机器的本地磁盘上。1 这些知识在大数据学习中应该算是基础中的基础了,理解不了这些,在部署大数据相关组件时,会遇到非常大的坑;2 区别记住一句话,相互独立,命令相似;
2024-11-14 18:06:48
775
原创 python使用Tkinter开发GUI交互界面
1 工作中做数据分析的代码,可以加上交互界面,抽象打包成小工具进行使用,提高工作效率,其他场景可做类似考虑;
2024-10-31 18:19:26
417
原创 【数据结构】python中的栈
python 使用列表来定义栈stack = []1 如果只想获取栈顶元素,而不删除,则可以使用stack[-1]2 想要遍历栈,貌似只能从栈顶元素不断弹出3 python实现栈是使用的列表,那就意味着使用stack[n]或者stack[-n]可以遍历栈的元素,也就是把栈当列表使用,但这个时候,栈就不叫栈了吧4 栈是一端封口,元素从另一端放入和取出,可以根据这句话感受下栈元素变化的特性。
2024-09-29 17:41:01
874
1
原创 Selenium自动化 Web 浏览器操作
Selenium可以模拟浏览器运行,用于web应用程序测试工具。可以直接运行浏览器,像用户自己操作一样。1 显示等待和隐式等待不能一起使用,会报超时错误;2 显示等待有时不太好用,直接使用time.sleep()会稳定很多,但效率会低,看怎么取舍;
2024-09-12 11:38:48
950
原创 开源可视化大屏superset Docker环境部署
superset是俄罗斯开源的一款可视化大屏,用于数据可视化探索,含有丰富的图表组件,可以支持接入各种数据源。
2024-09-04 23:06:43
1850
原创 flume 使用 exec 采集容器日志,转储磁盘
flume 使用 exec 采集容器日志,转储磁盘在该场景下,docker 服务为superset,flume 的sources 选择 exec , sinks选择 file roll 。
2024-09-04 23:05:17
864
1
原创 hadoop dfs web页面访问增加鉴权
装好了Hadoop,通过浏览器访问,发现竟然不需要鉴权就能访问,且暴露了很多服务器层文件路径信息,基于多年积累的安全意识,必须得配置些鉴权信息,就有了该文,仅做学习记录,下次自己再装时能提高效率。
2024-09-04 22:59:47
992
原创 Typora 主题修改
激活可以从网站搜博客教程,唯一要重点强调说明的是安装完成后不要打开,要先执行激活程序后,再打开软件,按要求输入序列号、邮箱,这点很重要。但是插入的图片还是灰蒙蒙的,又经过几番调试,发现是这段样式的opacity去控制的,也是位于base-control.css文件中。于是到安装目录搜索这个文件,果然找到了这个文件,于是把–blur-text-color注释掉,果然界面就清晰了。到安装目录下搜索该文件,找到该样式,将opacity设置成1 就OK了。打开Typora后,展示内容是灰蒙蒙的颜色,
2024-09-04 22:55:21
663
原创 使用Dbeaver 操作 mongodb
1 dbeaver 作为一个通用的数据库连接工具,并不能支持数据库所有的shell脚本,例如mongodb的show dbs脚本;2 若遇到dbeaver 无法执行的脚本,也不必过于纠结,再切换到官方的shell客户端即可;
2024-09-04 17:47:30
2782
原创 【神经网络】基于卷积神经网络构建猫狗分类模型
针对经典猫狗数据集,基于卷积神经网络,构建猫狗二元分类模型,使用数据集进行参数训练,模型评估,然后使用模型进行分类预测,最后对模型进行保存 在使用next()加载图像时,要确保路径正确,否则会报StopIteration错误,原因是路径错误,找不到可迭代的数据。
2024-06-18 20:00:32
1644
原创 机器学习-随机森林算法预测房租模型
1、数据预处理阶段,数据缺失值处理,要根据数据集实际含义,去选择合适的处理方式2、机器学习模型训练评估,实际工作量会在数据探索性分析和数据预处理环节,至于建模和训练只需调用封装好的函数即可。
2024-04-17 18:21:09
1513
原创 pandas数据分析常用函数(持续更新)
网上教程多分散,需要会员,现将学习机器学习过程中数据探索性分析用到的函数进行整理,方便后续自查。同时,会持续更新。
2024-04-17 11:02:18
937
原创 机器学习-随机森林温度预测模型优化
在机器学习-随机森林算法预测温度一文中,通过增大模型训练数据集和训练特征的方式去优化模型的性能,本文将记录第三方种优化方式,通过调整随机森林创建模型参数的方式去优化模型,即调参。这里调参和神经网络使用验证集调整超参数概念不太一样,所以不会去使用验证集。本文调参,将使用RandomizedSearchCV()函数,去交叉验证不同参数组合的模型性能,选择最优性能的参数组合模型。
2024-04-14 22:21:49
1048
原创 python 连接clickhouse数据库及简单操作
最近研究了下python爬虫,想爬取一些数据存储到clickhouse里,进行分析。由于是新手,搜了好多教程,也踩了好几天的坑,记录一下,防止以后再走弯路。遇到的问题主要集中在建立连接语句上,client = Client(host=‘xx.xx.xx.xx’, port=8900, user=‘default’, password=‘xxxxx@xxxxx’, database=‘default’)参数赋值方式。使用 host= 格式赋值端口用错问题。
2024-01-18 20:51:40
3178
原创 clickhouse安装及简单使用
clickhouse设计比较精简,具有强大的数据写入性能、极其高效的查询性能、高效压缩存储,单机部署性能丝毫不逊色于传统的大数据集群。由于使用体验简单直接,使得运维工作同样变的简单。版本迭代相当迅速,主动兼容了jdbc、mysql和postgresql这些成熟产品,周边生态成熟。非常适合用来搭建数据仓库。clickhouse的官网文档有中文版,写的还是比较全的,可以多去参考查阅。
2024-01-18 18:11:14
4464
原创 flume taildir source 采集合并日志
taildir source 可以监控一批文件,实时采集信息,且支持断点续传(agent重启后不会重复采集)该场景下,同时监控两个日志文件,一个是docker容器日志,一个是MySQL的系统日志1、使用file_roll sink,重启flume 会新创建一个储存文件,不管source是 exec 还是taildir2、taildir断点续传只是在内容上接续,但不是在原文件中以上是个人实验所得,若有不合适地方,欢迎大家指正。
2024-01-09 14:52:13
583
原创 SourceTree使用教程(七)--合并某次提交
概述 在Git的实际使用场景中,未必都是很规矩的拉一个分支,开发一个功能,等功能测试完成后,合并到主分支。有很多的场景都是很多人在同一个开发分支上开发,然后按照上线的实际需要,依次去上传自己的功能模块,这个功能模块的提交记录很可能是交叉提交的,那么这时候如何去只合并一个功能到主分支呢?或者是说怎么使用sourceTree去合并某次或某几次(不连续)提交到另一个分支?方法步骤1 打开sourceTree,切换到develop分支2 打开本地工作副本,新增test2.txt文件,...
2021-07-27 22:19:21
4392
原创 SourceTree使用教程(六)--回滚版本到某次提交
概述在SourceTree使用教程(五)中讲到了提交的撤销回滚,并且注明这个撤销回滚只能撤销回滚最新的提交记录,并不能回滚到某个历史版本。但是实际使用场景中肯定会遇到需要回退到某个提交的,而不仅仅是最新的提交。本次教程将讲述如何使用SourceTree来回退代码到某次提交。方法步骤1 打开sourceTree,切换到开发分支2 打开本地工作副本test1.txt文件,编辑新增 add test13 提交并推送本次新增到远程仓库4打开本地工作副本test1.txt文件,..
2021-07-27 21:48:51
11611
13
原创 SourceTree使用教程(五)--- 文件部分提交与撤销回滚
概述 SourceTree比起tortoiseGit来,最大的不同之处在于 Sourcetree支持文件的部分提交,这大大方便了用户的使用。 有的时候,我们开发了一个A功能,未上线,同时又并发开发了B功能,B功能比A功能先上线,而且B功能和A功能修改的是同一个文件,这种情况在上线B功能时,SourceTree就体现出优势了。方法步骤1 打开本地工作副本,增加文件activityServiceImpl.java,这个文件没啥特别,就是代码行数很多,方便演示。2...
2021-07-27 21:22:10
5941
1
原创 SourceTree使用教程(四)---冲突解决
概述 虽然在团队协作开发中强调尽量避免操作同一文件,以避免冲突,但是在实际开发中还是会遇到冲突,所以掌握解决冲突的方法必不可少。方法步骤1 解决冲突就要先制造冲突,冲突一般是由于两个人同时修改同一文件而造成的。在GitHub上修改远程仓库文件模拟一个人操作,sourceTree本地修改同一文件模拟另一个人操作。2 登录GitHub ,打开GitTest,编辑test1.txt文件3 在文件末尾增加 内容 code conclick1,点击提交。如下图所示。...
2021-07-27 21:13:59
17486
原创 SourceTree使用教程(三)--- 分支创建与合并
概述该教程主要介绍sourceTree中创建分支和合并分支的使用方法和使用场景。分支是Git最大的特色之一,可以方便的进行版本部署和开发,而不互相影响。使用步骤1、分支。当要新增一个功能,又要保证原始功能的正常的使用,这个时候为了不影响原功能的使用,就可以建立一个分支,在分支上进行新增功能的开发,等到新增的功能测试通过后再把分支合并到主干上。如下图,点击分支,输入新分支名字,以当前工作副本为基础生成一个新的develop分支。2、 点击创建分支,可以看到多了一个develop分支,但是这
2021-07-26 23:34:28
13806
原创 sourceTree使用教程(二)--- 拉取和获取
1 打开github上的GitTest版本库,编辑test1.txt文件,如下图。2 在文件test1.txt增加一行,如下图,提交。3 获取和拉取。获取是将远程仓库的代码更新到本地仓库,拉取是将本地仓库的代码更新到本地工作副本。打开sourceTree,点击 获取按钮,如下图4 点击确定,可以看到拉取图标那里多了一个蓝底白色的数字1,分支master那里也有一个灰色的数字1,并有一个向下的箭头,这表示 有一个更新需要拉取到本地工作副本。同时打开版本文件,可以看到test1.tx..
2021-07-26 23:26:10
6438
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人