自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Cody_hong的博客

技术让世界更加美好!

  • 博客(16)
  • 收藏
  • 关注

原创 大模型本地部署及本地知识库构建

ollama:Ollama是一个在本地运行的大预言模型的的工具,可以再不同的操作系统商安装。可以认为ollama就是一个LLM的容器管理工具,和Docker有点类似。LLMs:大语言模型模型很多,像现在比较火的、开源的deepSeek R1模型等,由于在本地电脑上不是我们可以选择14b以下的版本。CherryStudioAI 是一款强大的多模型 AI 助手,支持 iOS、macOS 和 Windows 平台。快速切换多个先进的 LLM 模型,提升工作学习效率。支持多个第三方模型的调用。

2025-02-21 15:21:48 438

原创 基于SeaTunnel同步mysql数据

SeaTunnel 使用 YAML 或 JSON 格式的配置文件来定义数据源、转换逻辑和数据目标。以下是一个示例配置文件,用于将 MySQL 数据同步到另一个 MySQL 数据库,配置任务脚本job.conf。将 MySQL 数据同步到另一个 MySQL 数据库非常简单。SeaTunnel 提供了 MySQL 数据源(Source)和数据目标(Sink)的支持,通过配置文件即可完成数据同步任务。如果需要使用 Spark 或 Flink 引擎,请提前安装并配置。表示支持部分ddl的配置。

2025-02-08 17:11:51 556

原创 基于SeaTunnel同步数据

旨在简化大规模数据的抽取、转换和加载(ETL)过程。它支持从多种数据源(如数据库、消息队列、文件系统等)中提取数据,并将数据写入到目标存储或分析系统中。基于分布式计算框架(如 Apache Spark、Flink)构建,能够高效处理大规模数据。大数据存储:HDFS、Hive、HBase、Kafka 等。文件系统:CSV、JSON、Parquet、ORC 等。提供丰富的数据转换功能,如字段映射、过滤、聚合、去重等。:数据转换插件,负责对数据进行清洗、转换和计算。

2025-02-08 17:01:04 458

原创 hive对100亿数据的处理

项目需求:需要对人员轨迹信息进行处理,而且人员信息与运营商网络有关。开始,hive的计算引擎是Spark,由于计算资源有限(只有3台机器),sql运行的过程中出现各种OOM,于是将计算引擎换位MR,数据按月计算。在计算的过程中,使用了3个UDF函数。原始数据如下:(1)设备轨迹信息表  (2)设备运营商网络表 (3)原始表关联add jar /home/hongwe...

2025-02-08 10:09:59 261 1

原创 idea集成deepSeek

idea集成的插件较多,这里我们选择集成codeGPT,然后将底层的大模型换成deepSeek。,申请开发的API keys。(2)deepSeek账号设置。(1)下载codeGPT插件。

2025-02-08 10:05:50 446

原创 Oracle中导入dmp文件

在Oracle中(scott需要dba权限):imp scott/oracle@orcl11gBigDataTest1 file=/dfs/data/tabledatadmp.dmp full=y buffer=5400000报错:Import: Release 11.2.0.1.0 - Production on Tue Jan 1 16:23:18 2019Copyright...

2019-01-01 17:56:13 3360

原创 数据简单的清洗处理

有时文件数据较大时,csv转excel会发生数据丢失,这时候可以利用python对数据进行简单的校验处理#!/usr/bin/env python'''文件类型province,city,district,year,month,day,carrier, in_num,out_num,dwell_num河北省,秦皇岛市,海港区,20180816,3289.0-1132.0-1167....

2018-12-01 23:54:07 478

原创 python3 ActiveMQ从quene消费

Python利用stomp从activeMq中消费数据 #!/usr/bin/env pythonimport timeimport sysimport osimport stompuser = "cody"password = "123456"host = "192.7.1.136"port = 61613destination = "test"class ...

2018-12-01 23:47:41 1358

原创 Spark2 sparkSession使用

sparkSession使用:package com.jdjr.city.demoimport org.apache.spark.sql.SparkSession/** * @Auther: hongwei * @Date: 2018/11/9 16:31 * @Description: SparkSession使用 */object Test4 { def m...

2018-11-09 17:00:01 1081

原创 Mysql case when then操作

表数据:按天分类型统计最近10天的资金总量:SELECT dt,SUM(hold_amt_day),SUM(CASE WHEN `type`=1 THEN hold_amt_day END) AS a1, SUM(CASE WHEN `type`=2 THEN hold_amt_day END) AS a2, SUM(CASE WHEN `type`=3 THEN hold_am...

2018-11-09 09:41:02 3039

原创 查询第二高薪水,若不存在则返回null

在leetcode上有这样的一道题:查询中第二高的薪水值,不存在则返回nullSELECT (SELECT DISTINCT salary FROM employee GROUP BY salary DESC LIMIT 1,1) AS SECOND或者SELECT (  SELECT DISTINCT Salary FROM Employee ORDER BY Salary DESC LIMIT...

2018-06-10 16:03:02 4006 2

原创 Spark中reduceByKey、groupByKey和combineByKey的区别

在spark中,reduceByKey、groupByKey和combineByKey这三种算子用的较多,其中:•reduceByKey用于对每个key对应的多个value进行merge操作,最重要的是它能够在本地先进行merge操作,并且merge操作可以通过函数自定义;•groupByKey也是对每个key进行操作,但只生成一个sequence,groupByKey本身不能自定义函数,需要先用...

2018-06-10 15:57:19 9569 1

原创 python3实现爬取百度图库的图片

环境:python3#!/usr/bin/python# -*-coding:utf-8-*-# FileName:spider.py# Author:Cody# Date:2018/5/11 22:10import requests # http客户端import re # 正则表达式模块import random #随机数def spiderPic(html, key...

2018-05-12 13:11:11 1121 1

原创 Hive sql练手

#在hive中创建表create table student(sno int,sname string,ssex string,sage int,sdept string) row format delimited fields terminated by "," stored as textfile;create table course(cno int,cname string) row fo

2018-01-19 11:19:41 552

原创 Hadoop中wordCount功能实现Demo

wordCount是hadoop下mapReduce下的一个基本的入门程序,用来统计一系列文本中单词出现的次数(最基本的用法)。Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。采用“分而治之”的办法,Mapper负责“分”,Reducer负责统计汇总。#自定义Mapper部分package com.vm.mapreduce;

2017-10-12 09:38:13 406

原创 Hadoop2.6.4集群搭建

环境配置:(1)4台配置好的centOs6.5(mini1,mini2,mini3,mini4),每台机器都新建hadoop用户的用户,授予最高权限;(2)jdk版本:1.7;(3)编译好的hadoop2.6.4安装包(centOS6.5平台)集群搭建:(1)配置免密登入:cd ~/.ssh       ssh-keygen -t rsa (四个回车)

2017-10-10 11:26:12 299

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除