- 博客(13)
- 收藏
- 关注
原创 Prompt工程参考笔记
在长文本处理中涉及数字问题模型处理的效果不佳,除了积累样本进行后续sft训练比较直接的解决方法,还能通过Prompt工程来优化;一个典型的迭代路径是:首先完成 prompt 设计,接着基于设计好的 prompt 获取实验结果,分析 bad cases,解 bad cases,并进一步优化 prompt,通过多次的重复和迭代,直到达到一个最优效果。这里面提到了CoT(Chain of Thought,CoT),遵循步骤:提供实例 -> 分解问题 -> 提供解释,是实践能减少数字相关问题出错的解决方案。
2024-08-06 14:20:57
210
原创 【报错】: distutils.errors.DistutilsPlatformError: Microsoft Visual C++ 14.0 or greater is required.
这是在win上使用python库比较常遇见的问题,也是比较很容易解决的问题,缺少Microsoft Visual C++ 14.0环境。pip安装cffi库时setup.py抛出error:subprocess-exited-with-error。方法三:直接点击对应版本的下载whl库到本地,然后本地安装即可。缺点是VS太大,办公环境还需要License。加州大学的网站贡献了很多需要编译好的安装库。
2024-05-09 20:19:41
2520
原创 MySQL中文乱码问题解决
另外,还需要确保数据库、表和字段都使用了正确的字符集编码。注意,修改配置文件之前,建议先备份原始配置文件以防意外情况。修改完成后,重新启动MySQL服务使配置生效。如果您在使用MySQL时遇到了中文乱码问题,可以尝试在MySQL的配置文件中进行相应的设置。这些配置将MySQL的字符集编码设置为。(Linux/Unix)或。,支持存储和显示中文字符。
2023-12-13 18:13:50
670
1
原创 hive 调优
1.hive数据压缩压缩对比开启map端的压缩2.hive数据存储行列存储原理存储压缩比拓展dfs -du -h3. fetch抓取4. local本地模式(默认关闭)5. join的优化操作6. SQL优化之列裁剪7. SQL优化之分区裁剪8. SQL优化之group by 操作9. SQL优化之count(distinct)10. SQL优化之笛卡尔积11. 动态分区12.MapReduce并行度调整(调整map和reduce的数量)13.并行执行(默认关闭)
2023-11-18 16:17:56
263
1
原创 06 分区表和分桶表
当Hive表对应HDFS中数据量大、文件多时,为了避免查询时全表扫描数据,Hive支持根据用户指定的字段进行分区,分区的字段可以是日期、地域、种类等具有标识意义的字段。比如把一整年的数据根据月份划分12个月(12个分区),后续就可以查询指定月份分区的数据,尽可能避免了全表扫描查询。现在需要将表A的月分区 202309 中user_id为20000的user_dinner字段更新为bonc8920 ,其他用户user_dinner字段数据不变 ,请列出更新的方法步骤。是一种用于优化查询而设计的表类型。
2023-11-16 16:43:57
118
1
原创 05 hive 内部表与外部表
外部表无法使用truncate语句清空列表,drop只能删除元数据,HDFS中仍可访问文件,可使用location重新对原地址数据进行关联。四是删除的区别:外部表无法使用truncate语句清空表内数据,只能使用drop删除表元数据,而内部表使用drop会删除元数据与业务数据。注意: 删除内部表效果是mysql中表相关元数据被删除,同时存储在hdfs中的业务数据本身也被删除。一是管理范围的区别:内部表对元数据和表数据有绝对管理权,外部表只对元数据有管理权,字段名 字段类型 , …
2023-11-15 22:23:53
81
1
原创 04 hive基础操作
create [external] table [if not exists] 表名(字段名 字段类型 , 字段名 字段类型 , ... )[partitioned by (分区字段名 分区字段类型)] # 分区表固定格式[clustered by (分桶字段名) into 桶个数 buckets] # 分桶表固定格式 注意: 可以排序[sorted by (排序字段名 asc|desc)]
2023-11-14 10:37:20
87
原创 03 hdfs 文件操作(导入/导出)
目录的绝对路径创建目录: hdfs dfs -mkdir 目录的绝对路径创建文件: hdfs dfs -touch 文件的绝对路径移动目录/文件: hdfs dfs -mv 要移动的目录或者文件的绝对路径 目标位置绝对路径复制目录/文件: hdfs dfs -cp 要复制的目录或者文件的绝对路径 目标位置绝对路径删除目录/文件: hdfs dfs -rm [-r] 要删除的目录或者文件的绝对路径。
2023-11-14 09:27:52
1452
原创 01 hadoop 概念
hadoop是什么hadoop是一个由Apache基金会所开发的分布式系统基础框架,可以部署在大规模集群的集分布式数据存储、分布式数据计算、分布式资源调度为一体的整体解决方案。hadoop的起源起源Doug Cutting开创的一个解决存储数据困难,检索速度慢的Nutch项目。Google在大数据方面的三篇论文加速了hadoop项目的发展:《The Google file system》谷歌分布式文件系统GFS-> HDFS。
2023-11-11 22:33:46
82
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人