- 博客(52)
- 资源 (1)
- 收藏
- 关注
原创 【SQL|大数据|数据清洗|过滤】where条件中 “ != “ 和 “ NOT IN() ” 对NULL的处理
对数据进行清洗过滤的时候,NULL往往是一个很特殊的存在,对NULL值的存在通常有以下三种方式1、保留NULL2、过滤掉NULL3、将NULL替换为其他符合业务需求的默认常量下面是一些常用处理NULL的方式:如下图所示数据源:car_vin:汽车车架号,汽车的唯一标识id:汽车检测里程的id,每次检测的唯一标识mileage:汽车的行驶里程。
2024-10-16 17:54:33
657
原创 有temp表包含A,B两列,使用SQL,对B列进行处理,形成C列,按A列顺序,B列值不变,则C列累计技术,B列值变化,则C列重新开始计数
有temp表,使用SQL,对B列进行处理,形成C列,按A列顺序,B列值不变,则C列累计技术,B列值变化,则C列重新开始计数。
2024-09-04 16:34:49
444
1
原创 【maxcompute|ODPS|SQL|HSQL】日期数据非标准日期格式(yyyy/M/d),如何转为yyyy-MM-dd HH:mm:ss标准格式
补齐字符串,日期数据格式化
2024-09-03 15:53:39
1725
原创 昇思25天学习打卡营第08天|保存与加载
上一章节主要介绍了如何调整超参数,并进行网络模型训练。在训练网络模型的过程中,实际上我们希望保存中间和最后的结果,用于微调(fine-tune)和后续的模型推理与部署,本章节我们将介绍如何保存与加载模型。
2024-07-30 14:46:34
314
原创 昇思25天学习打卡营第07天|模型训练
从网络构建中加载代码,构建一个神经网络模型。nn.ReLU(),nn.ReLU(),超参(Hyperparameters)是可以调整的参数,可以控制模型训练优化的过程,不同的超参数值可能会影响模型训练和收敛速度。wt1wt−η1n∑x∈B∇lxwtwt1wt−ηn1x∈B∑∇lxwt公式中,nnn是批量大小(batch size),ηηη是学习率(learning rate)。另外,wtw_{t}w。
2024-07-26 17:46:21
1113
原创 昇思25天学习打卡营第06天|函数式自动微分
神经网络的训练主要使用反向传播算法,模型预测值(logits)与正确标签(label)送入损失函数(loss function)获得loss,然后进行反向传播计算,求得梯度(gradients),最终更新至模型参数(parameters)。自动微分能够计算可导函数在某点处的导数值,是反向传播算法的一般化。自动微分主要解决的问题是将一个复杂的数学运算分解为一系列简单的基本运算,该功能对用户屏蔽了大量的求导细节和过程,大大降低了框架的使用门槛。
2024-07-24 18:44:21
722
原创 昇思25天学习打卡营第05天|网络构建
当我们定义神经网络时,可以继承nn.Cell类,在__init__方法中进行子Cell的实例化和状态管理,在construct方法中实现Tensor操作。construct意为神经网络(计算图)构建,相关内容详见使用静态图加速。# 定义一个名为Network的类,该类继承自nn.Cell类# 定义一个展平层(Flatten Layer),它将输入的多维数据(如图像)展平成一维数组,以便可以输入到全连接层(Dense Layer)中nn.ReLU(),nn.ReLU(),# 定义了模型的前向传播逻辑。
2024-07-24 11:11:57
1000
原创 昇思25天学习打卡营第04天|数据变换 Transforms
通常情况下,直接加载的原始数据并不能直接送入神经网络进行训练,此时我们需要对其进行数据预处理。MindSpore提供不同种类的数据变换(Transforms),配合数据处理Pipeline来实现数据预处理。所有的Transforms均可通过map方法传入,实现对指定数据列的处理。提供了面向图像、文本、音频等不同数据类型的Transforms,同时也支持使用Lambda函数。下面分别对其进行介绍。
2024-07-17 18:34:51
963
原创 昇思25天学习打卡营第03天|数据集 Dataset
模块提供了一些常用的公开数据集和标准格式数据集的加载API。对于MindSpore暂不支持直接加载的数据集,可以构造自定义数据加载类或自定义数据集生成函数的方式来生成数据集,然后通过接口实现自定义方式的数据集加载。支持通过可随机访问数据集对象、可迭代数据集对象和生成器(generator)构造自定义数据集,下面分别对其进行介绍。
2024-07-16 20:49:52
1018
原创 昇思25天学习打卡营第02天|张量 Tensor
张量是一种特殊的数据结构,与数组和矩阵非常相似。张量(Tensor)是MindSpore网络运算中的基本数据结构。张量可以被看作是一个多维数组,但它比普通的数组更加灵活和强大,因为它支持在GPU等加速硬件上执行高效的计算张量(Tensor)是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 𝑛 维空间内,有 𝑛的𝑟次方个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。
2024-07-16 16:26:49
895
原创 昇思25天学习打卡营第01天|基本介绍&快速入门
调用上面的自定义函数datapipe(dataset, batch_size),并传入参数此处我们设置一个对照组,只处理train_dataset分支下的数据,比较处理前后数据集的shape和datatype有何不同使用或对数据集进行迭代访问,查看数据和标签的shape和datatype可以清晰的看到,经过变换处理后图片和标签数据的shape和datatype都发生了变化数据已经准备好了,明天继续网络构建!
2024-06-25 01:29:04
470
原创 SQL-- 在一个分组内随机抽取几条数据
一个结果集包含 order_type,user_id,pay_time ,现在有多条user_id和order相同,但pay_time不同的数据。现在有个需求,需要从一个分组中随机抽取三条不同pay_time的数据,应该怎么实现呢?这样是不是乍一看有点懵?话不多说,直接上代码。
2023-12-18 19:15:37
966
原创 Spark整合hive的时候出错
Spark整合hive的时候连接Hdfs不从我hive所在的机器上找,而是去连接我的集群里的另外两台机器但是我的集群没有开所以下面就一直在retry出现这个错误的原因可能与core-site.xml和hdfs-site.xml有关,因为这里面配置了集群的namenode信息我新建了一个项目,里面没有core-site.xml和hdfs-site.xml只放进去一个hive-site.xml我的hive-site.xml中没有图片中的三个配置,加上这三个配置就好了
2023-08-25 15:53:34
1130
原创 Hbase分布式安装
将hdfs的core-site.xml和hdfs-site.xml复制到hbase的conf目录下。配置hadoop12 13的环境变量。把Hbase分发到三台机器上。访问页面,验证是否成功。在hadoop11上。
2023-08-22 13:56:27
750
原创 spark的standalone 分布式搭建
集群环境hadoop11,hadoop12 ,hadoop13安装 zookeeper 和 HDFS。
2023-08-16 18:26:54
1246
2
原创 java.lang.NoClassDefFoundError: org/apache/tez/dag/api/TezConfiguration
加上这个(如果有就修改,没有就添加)修改hive-site.xml。再次启动hiveserver2。
2023-08-15 19:09:31
1217
1
原创 dolphinscheduler伪分布式安装
后期可以通过bin/start-all.sh 或者 bin/stop-all.sh 启停ds。在MySQL中检查一下是否有dolphinscheduler数据库和表。版本MySQL8.0+安装成功后,查看进程。
2023-07-18 15:07:03
442
原创 zookeeper伪分布式安装
切换到/opt/installs/zookeeper3.6.3/conf目录下。(1)将zookeeper的安装包上传到/opt/modules目录下。切换到/opt/installs目录下。
2023-07-18 14:04:08
474
原创 superset安装
启动的时候因为需要gun 命令,所以需要先安装这个命令。访问: http://主机名或者ip:8787。启动后,不要停,光标一直闪动是正常的。在/etc/profile中添加两句。账户和密码都是root。
2023-07-14 18:26:44
406
原创 hive数据的导入导出
1. TextFile:使用TextFile格式存储的表将数据以文本文件的形式进行存储。这是最常用的默认存储格式。2. SequenceFile:使用SequenceFile格式存储的表将数据以键-值对的形式存储,适用于数据压缩和高效读取。3. ORC(Optimized Row Columnar):ORC是Hive的一种高性能列式存储格式,它以列的方式组织数据,提供了更高的压缩率和查询性能。4. Parquet:Parquet是一种列式存储格式,也是Hive的一个常用选项。
2023-07-06 11:33:25
2754
2
原创 大数据之数据采集项目延伸——sqoop
承接上篇文章大数据之数据采集项目总结——hadoop,hive,openresty,frcp,nginx,flume在上个阶段:完成了数据收集,使用flume把日志文件上传到hdfs,并且使用hive创建了分区表。现在补充:使用sqoop把hdfs/hive中的数据导出到MySQL中。数据展示:把useful_info中的数据导出到datacollection上的MySQL数据库中。查看datacollection中MySQL的数据库和表。
2023-07-05 17:15:24
1202
原创 hive设置本地执行方式
假如hive中的SQL语句执行时间太长,可以设置本地执行方式,设置本地执行模式可以优化执行速度,数据量小的时候,使用本地模式:。以上这些配置,都可以写在 hive 的conf 下的 .hiverc 文件中,当hive启动的时候,就会加载。在hive的配置文件 hive-env.sh中将一些配置注释解开。
2023-07-05 15:20:17
2156
原创 linux使用grep命令查询nginx的进程情况时总是出现 grep --color=auto nginx
ChatGPT解答:因为 ps aux 命令会列出当前系统中所有的进程信息,而 grep nginx 是用于筛选出包含 “nginx” 关键字的行。这是因为grep 也是一条命令,它在输出时,会把grep 服务名也当做一个进程输出,假如使用grep命令查询某个服务的进程号,结果只显示一条grep --color=auto 服务名。则说明虚拟机中没有改服务的进程。每次使用ps aux | grep 服务名 命令查询某个服务的进程时,总会出现一条grep --color=auto 服务名。
2023-07-03 11:01:11
6180
原创 数据结构知识背诵
1、数据结构是一门研究非数值计算的程序设计问题中计算机的操作对象以及他们之间的关系和操作等的学科。2、数据是对客观事物的符号表示,在计算机科学中是指所有能输入到计算机中并被计算机程序处理的符号的总称。如整数,实数,字符串。3、数据元素是数据的基本单位,在计算机程序中通常作为一个整体进行考虑和处理。一个数据元素由若干个数据项组成。数据元素又称结点或记录。4、数据项是数据不可分割的最小单位。5、数据对象是性质相同的数据元素的集合,是数据的一个子集。如整数数据对象,字母字符数据对象。6、数据元素相互之间
2020-11-02 10:13:05
1451
原创 Linux系统 无法获得锁 /var/lib/dpkg/lock - open (11: 资源暂时不可用) E: 无法锁定管理目录(/var/lib/dpkg/),是否有其他进程正占用它?
解决方法:解决方法:用vim打开
2020-11-02 08:50:45
269
原创 关于数据库的那些错误(合集)
此篇博客仅记录我这一两周来与mysql数据库和SQL server数据库“搏斗”的经历,纪念这血和泪的教训。首先,我要对我过去写的博客内容做出肯定,当我忘记哪里的知识想不起来的时候,看看之前的博客就知道了。其次,我想说,优快云实在是太棒了,真不愧是程序员的集结地。但是很多文章重复率过高,而且大部分或许是像我这样入门的小菜鸟,专业度不高,当我想搜索一些比较更深层次的知识时,就有些浪费时间。最后,让我们从mysql说起。其实从一开始我就是有点排斥mysql数据库的。在学习java 和SQL serve
2020-06-18 02:49:54
876
原创 mysql数据库的卸载和mysql8.0.20的安装
mysql数据库的卸载,在网上查了很多方法,这种方法是最好最全面的。链接如下:https://blog.youkuaiyun.com/TD520314/article/details/80461545接下来就详细的说一下怎么安装的吧这种安装方式和平常的图形化操作界面不一样,不需要一直点next,好像是因为在官网下载的是zip吧,直接解压缩就能用在官网上下载community版本的mysql,下载后就...
2020-05-04 04:56:37
2275
原创 session站点计数器
ASP.net实验四第二题:如图所示,使用Session对象设计一个站点计数器,要求将来访人数存放在站点内的counter.txt文件内,该数字不会因服务器或网站重新启动而丢失,刷新页面也不会引起数字变化,程序运行时要求将当前会话的ID值显示到页面中。做题思路:因为这道题中没有说要用Application,所以一开始也不太敢用全局应用程序类。大家首先要弄明白session和applicati...
2020-04-18 00:32:32
2208
原创 ASP.net实验五第二题,使用sitemap时出错:配置错误
运行时出现的错误如图所示~配置错误说明: 在处理向该请求提供服务所需的配置文件时出错。请检查下面的特定错误详细信息并适当地修改配置文件。分析器错误消息: 未能加载文件或程序集“MySql.ConnectorInstaller, Version=6.10.5.0, Culture=neutral, PublicKeyToken=c5687fc88969c44d”或它的某一个依赖项。系统找不到...
2020-04-14 21:42:27
1464
6
原创 java web复习第二章HTML简介
get和post的区别:https://blog.youkuaiyun.com/qq_44721831/article/details/98471707<body> <form action="" method="get"> <table border="1" width="80%"> <tr> 行开始标记 ...
2020-01-01 16:20:50
147
原创 java web复习第一章重点内容
java web第一章开发简介静态web与动态web最本质的区别:静态web无法进行数据库操作,动态web可以进行数据库操作。动态web最大的特点就是具备交互性,所谓交互性就是服务器会自动根据用户请求的不同而显示不同的结果。要想实现一个动态web,可以采用如下5种方式:(1)CGI:效率低(2)PHP:需要运行在Apache下,只有使用MySQL数据库时才可以达到性能的最大发挥...
2019-12-31 17:51:11
207
1
原创 java复习第十一章,java常用类库
1、掌握StringBuffer类与String类的区别1、StringBuffer类中字符串的内容可以改变,而String类中字符串的内容不能改变,如果要改变,则改变的肯定就是String的引用地址。2、在String中运用+进行字符串的连接,但是在StringBuffer类中却只能用append()方法进行字符串的连接。3、在String中如果要替换,则使用的是replaceAll()方...
2019-11-29 20:36:54
164
原创 SQL Server 2016安装步骤
下载后直接双击选择setup.exe选择安装,再点击图中圈住的部分产品密钥会自动填写,如果没有就输入MDCJV-3YX8N-WG89M-KV443-G8249然后,点击下一步接受许可条款,点击下一步点击下一步点击下一步点击全选。建议把SQLSever软件安装到别的盘。修改一下实例根目录。默认是在C盘。这里将它装在E盘现在出错了,让我们看一下怎么解决polybase要求安装JRE...
2019-11-29 20:34:45
1104
原创 java web数据库的配置与连接
困扰我许久的java web数据库的连接终于有眉目了,终于被我弄明白了。嘿嘿第一步:先把SQL server数据库整明白了。SQL server数据库首先要保证用SQL server 身份验证能够登陆上去才可以。第二步:开始写jsp页面的,包括载入驱动什么的代码。第三步:建立连接,其实也算是一个测试。下面来详细的说一下怎么连接以及过程中遇到的问题吧。在进行SQL server数据库的登陆...
2019-11-06 23:16:52
599
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人