- 博客(16)
- 收藏
- 关注
原创 大模型本地部署及本地知识库构建
ollama:Ollama是一个在本地运行的大预言模型的的工具,可以再不同的操作系统商安装。可以认为ollama就是一个LLM的容器管理工具,和Docker有点类似。LLMs:大语言模型模型很多,像现在比较火的、开源的deepSeek R1模型等,由于在本地电脑上不是我们可以选择14b以下的版本。CherryStudioAI 是一款强大的多模型 AI 助手,支持 iOS、macOS 和 Windows 平台。快速切换多个先进的 LLM 模型,提升工作学习效率。支持多个第三方模型的调用。
2025-02-21 15:21:48
438
原创 基于SeaTunnel同步mysql数据
SeaTunnel 使用 YAML 或 JSON 格式的配置文件来定义数据源、转换逻辑和数据目标。以下是一个示例配置文件,用于将 MySQL 数据同步到另一个 MySQL 数据库,配置任务脚本job.conf。将 MySQL 数据同步到另一个 MySQL 数据库非常简单。SeaTunnel 提供了 MySQL 数据源(Source)和数据目标(Sink)的支持,通过配置文件即可完成数据同步任务。如果需要使用 Spark 或 Flink 引擎,请提前安装并配置。表示支持部分ddl的配置。
2025-02-08 17:11:51
556
原创 基于SeaTunnel同步数据
旨在简化大规模数据的抽取、转换和加载(ETL)过程。它支持从多种数据源(如数据库、消息队列、文件系统等)中提取数据,并将数据写入到目标存储或分析系统中。基于分布式计算框架(如 Apache Spark、Flink)构建,能够高效处理大规模数据。大数据存储:HDFS、Hive、HBase、Kafka 等。文件系统:CSV、JSON、Parquet、ORC 等。提供丰富的数据转换功能,如字段映射、过滤、聚合、去重等。:数据转换插件,负责对数据进行清洗、转换和计算。
2025-02-08 17:01:04
458
原创 hive对100亿数据的处理
项目需求:需要对人员轨迹信息进行处理,而且人员信息与运营商网络有关。开始,hive的计算引擎是Spark,由于计算资源有限(只有3台机器),sql运行的过程中出现各种OOM,于是将计算引擎换位MR,数据按月计算。在计算的过程中,使用了3个UDF函数。原始数据如下:(1)设备轨迹信息表 (2)设备运营商网络表 (3)原始表关联add jar /home/hongwe...
2025-02-08 10:09:59
261
1
原创 idea集成deepSeek
idea集成的插件较多,这里我们选择集成codeGPT,然后将底层的大模型换成deepSeek。,申请开发的API keys。(2)deepSeek账号设置。(1)下载codeGPT插件。
2025-02-08 10:05:50
446
原创 Oracle中导入dmp文件
在Oracle中(scott需要dba权限):imp scott/oracle@orcl11gBigDataTest1 file=/dfs/data/tabledatadmp.dmp full=y buffer=5400000报错:Import: Release 11.2.0.1.0 - Production on Tue Jan 1 16:23:18 2019Copyright...
2019-01-01 17:56:13
3360
原创 数据简单的清洗处理
有时文件数据较大时,csv转excel会发生数据丢失,这时候可以利用python对数据进行简单的校验处理#!/usr/bin/env python'''文件类型province,city,district,year,month,day,carrier, in_num,out_num,dwell_num河北省,秦皇岛市,海港区,20180816,3289.0-1132.0-1167....
2018-12-01 23:54:07
478
原创 python3 ActiveMQ从quene消费
Python利用stomp从activeMq中消费数据 #!/usr/bin/env pythonimport timeimport sysimport osimport stompuser = "cody"password = "123456"host = "192.7.1.136"port = 61613destination = "test"class ...
2018-12-01 23:47:41
1358
原创 Spark2 sparkSession使用
sparkSession使用:package com.jdjr.city.demoimport org.apache.spark.sql.SparkSession/** * @Auther: hongwei * @Date: 2018/11/9 16:31 * @Description: SparkSession使用 */object Test4 { def m...
2018-11-09 17:00:01
1081
原创 Mysql case when then操作
表数据:按天分类型统计最近10天的资金总量:SELECT dt,SUM(hold_amt_day),SUM(CASE WHEN `type`=1 THEN hold_amt_day END) AS a1, SUM(CASE WHEN `type`=2 THEN hold_amt_day END) AS a2, SUM(CASE WHEN `type`=3 THEN hold_am...
2018-11-09 09:41:02
3039
原创 查询第二高薪水,若不存在则返回null
在leetcode上有这样的一道题:查询中第二高的薪水值,不存在则返回nullSELECT (SELECT DISTINCT salary FROM employee GROUP BY salary DESC LIMIT 1,1) AS SECOND或者SELECT ( SELECT DISTINCT Salary FROM Employee ORDER BY Salary DESC LIMIT...
2018-06-10 16:03:02
4006
2
原创 Spark中reduceByKey、groupByKey和combineByKey的区别
在spark中,reduceByKey、groupByKey和combineByKey这三种算子用的较多,其中:•reduceByKey用于对每个key对应的多个value进行merge操作,最重要的是它能够在本地先进行merge操作,并且merge操作可以通过函数自定义;•groupByKey也是对每个key进行操作,但只生成一个sequence,groupByKey本身不能自定义函数,需要先用...
2018-06-10 15:57:19
9569
1
原创 python3实现爬取百度图库的图片
环境:python3#!/usr/bin/python# -*-coding:utf-8-*-# FileName:spider.py# Author:Cody# Date:2018/5/11 22:10import requests # http客户端import re # 正则表达式模块import random #随机数def spiderPic(html, key...
2018-05-12 13:11:11
1121
1
原创 Hive sql练手
#在hive中创建表create table student(sno int,sname string,ssex string,sage int,sdept string) row format delimited fields terminated by "," stored as textfile;create table course(cno int,cname string) row fo
2018-01-19 11:19:41
552
原创 Hadoop中wordCount功能实现Demo
wordCount是hadoop下mapReduce下的一个基本的入门程序,用来统计一系列文本中单词出现的次数(最基本的用法)。Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。采用“分而治之”的办法,Mapper负责“分”,Reducer负责统计汇总。#自定义Mapper部分package com.vm.mapreduce;
2017-10-12 09:38:13
406
原创 Hadoop2.6.4集群搭建
环境配置:(1)4台配置好的centOs6.5(mini1,mini2,mini3,mini4),每台机器都新建hadoop用户的用户,授予最高权限;(2)jdk版本:1.7;(3)编译好的hadoop2.6.4安装包(centOS6.5平台)集群搭建:(1)配置免密登入:cd ~/.ssh ssh-keygen -t rsa (四个回车)
2017-10-10 11:26:12
299
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人