自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(351)
  • 资源 (10)
  • 收藏
  • 关注

原创 【博客之星2024】跨越代码与算法的24年:一名AI工程师的成长与突破回顾

24年的技术旅程是一段从探索到深耕、从追随到引领的历程,也是人工智能与个人成长交织的精彩篇章。从最初对代码的热爱,到如今深耕人工智能全栈技术,我见证了AI从概念到广泛应用的飞跃,也感受到技术改变行业、推动社会进步的强大力量。在这条路上,每一次的突破都源于对技术的坚持,每一篇文章都是对经验的凝练。

2025-01-22 11:29:14 2338 11

原创 大模型微调与RAG检索增强:从基础原理到案例分析全面详解

如果你一直在跟着Fanstuck博主的脚步探索AI大模型的相关内容,从最初的大模型Prompt工程解析,DeepSeek全面解析,到实际的私有化大模型开发部署,再到深入NL2SQL、知识图谱大模型和ChatBI等更高阶应用.我是Fanstuck,致力于将复杂的技术知识以易懂的方式传递给读者,热衷于分享最新的行业动向和技术趋势。简单来说,大模型微调就是在通用的大模型(如GPT、DeepSeek等)已经具备一定知识的基础上,让模型能够更精确地处理特定领域或特定任务的数据,从而提高其在实际应用中的表现。

2025-04-02 09:09:36 935

原创 探索DeepSeek:从核心技术到应用场景的全面解读

想象你有一位无所不知的数学教授(教师模型),他能在黑板上推导出最复杂的定理,但他的知识全部存储在一个装满草稿纸的房间里。现在,我们需要把这些知识浓缩成一本便携的《考点精讲》(学生模型),让普通学生也能快速掌握核心方法。这就是知识蒸馏的意义——让笨重的大模型“轻装上阵”,同时保留核心能力。大模型蒸馏的核心思想是通过让较小的学生模型模仿较大的教师模型的行为,从而在保留模型性能的前提下,降低计算资源的消耗。

2025-02-19 09:20:13 936 1

原创 深度洞察与精确匹配:基于HAI部署DeepSeekR1的公考岗位推荐与智能分析

DeepSeekR1强大的语义理解能力DeepSeekR1在预训练过程中利用了海量中文数据,具备对中文文本语义、上下文以及专业术语的深度理解能力。例如,面对“综合管理”与“综合执法”这样的相似概念时,传统模型可能会混淆,但DeepSeekR1则能结合上下文以及岗位说明做出更准确的区别,帮助系统在推荐岗位时更精准地匹配考生需求。对岗位职责与能力需求的深度解析公务员与事业单位的岗位描述通常包含多个条件维度,如学历、专业、工作经历、政治面貌、执业资格等。

2025-02-08 15:49:50 815 1

原创 基于HAI部署DeepSeekR1的招标文书智能辅助生产开发与应用

主要内容目录结构:标明文书各章节标题、页码,方便评审方快速定位关键内容。招标项目背景简介:简要描述本项目的来龙去脉、背景意义。写作说明:说明文书的适用范围、引用法规或标准等。特点与写作要求强调可读性:将核心章节和附录分类清晰地列出,一目了然。前言语言风格:既要有概要性介绍,也可以适当结合项目特色,让后续章节的阐述更具逻辑衔接。半规则化:目录部分相对固定,可由DeepSeek调用模板生成;但“项目背景简介”常需要根据项目实际情况进行非规则化的创作,建议重点突出背景痛点和项目必要性。

2025-02-06 15:39:06 1679 5

原创 一文速览-合成数据在大模型训练和性能优化中的运用

如果你一直在跟着博主的脚步探索AI大模型的相关内容,从最初的大模型Prompt工程解析,到实际的开发部署,再到深入NL2SQL、知识图谱大模型和ChatBI等更高阶应用,应该已经感受到了我们一步一个脚印,从迈过一道道技术难关,到搭建起属于自己的技术桥梁的过程。合成数据,简单来说,就是通过算法和技术生成的数据,目的是模仿真实世界中的数据特征。一个典型的例子是 OpenAI 的 Codex 模型,它使用合成代码片段来丰富训练数据,结果证明,合成数据的加入让 Codex 在理解和生成代码方面的能力更上一层楼。

2025-01-26 10:58:56 942

原创 2025MCM美国大学生数学建模竞赛A题-楼梯磨损估计思路详解+建模论文+源代码

要进行定量分析,需要对楼梯磨损状况进行非破坏性低成本小团队可执行的测量。以下列举可能的测量项目与定义的变量。:第 kkk 级台阶在踏步宽度方向 xxx 处的当前高度(相对于某基准)。:第 kkk 级台阶原始或假设初始状态下的高度曲线。若无法获得真实初始值,可用“尚未磨损区域”作为参考近似。:第 kkk 级在位置 xxx 上的磨损深度。:楼梯使用的总年份(若已知部分翻修历史,可分段使用 Δti\Delta t_iΔti)。:材料密度或相对磨损系数,影响磨损速率。

2025-01-26 10:53:31 749

原创 2025MCM美国大学生数学建模竞赛B题-可持续旅游管理思路详解+建模论文+源代码

美国阿拉斯加的朱诺市(Juneau)常住人口约3万,却在最繁忙的旅游季接待多达160万邮轮乘客,总计年接待量甚至超过百万规模。短期内大量游客的到访虽然带来了可观的经济收入(如3.75亿美元以上的旅游相关收益),却也带来了拥堵、环境压力、基础设施超负荷、本地居民生活质量下降等问题。可持续旅游管理的核心在于:在保证当地经济收益的同时,维持生态环境、基础设施和社区生活的可承受度,并尽量实现长远、稳健的发展。为此,我们想构建一个可持续旅游规划的数学模型度量游客数量、旅游收益、基础设施负荷、环境影响等多方面因素;

2025-01-25 18:08:02 2021 1

原创 2025MCM美国大学生数学建模竞赛C题-Models for Olympic Medal Tables详解+建模论文+源代码

通过以上的数据加载、清洗与分析,我们已经对奥运奖牌数据有了基本的了解。奖牌分布不均:一些大国(如美国、中国)在奥运会中通常获得更多奖牌,而一些小国则往往获得较少的奖牌。年份之间的差异:奥运会的奖牌数量在不同年份有所波动,可能受到赛事项目、参与国家数量等因素的影响。主办国效应:主办国往往会在主办届奥运会上表现突出,金牌数和总奖牌数都有显著提高。接下来的任务是根据这些数据和发现,开始进行奖牌数预测的建模工作。

2025-01-25 18:04:47 1598 1

原创 从构思到上线的全栈开发指南:全栈开发中的技术选型和架构

全栈开发不仅要求开发者具备跨越前后端的全面技能,还需要深刻理解技术选型和架构设计在项目中的重要性。从项目构思、需求分析到技术选型和架构设计,每一环节都为最终产品的成功奠定了基础。在本文中,我们通过公考查询系统的小程序案例,深入探讨了全栈开发的关键步骤,展示了如何根据项目的特点做出合适的技术决策,并设计一个高效、可扩展的系统架构。技术选型与架构设计不仅是开发的起点,更是项目能够长远发展的保障。随着技术不断发展,我们可以预见,未来的全栈开发将会更加注重自动化、可维护性、以及云原生架构的应用。

2025-01-22 11:32:25 1534 4

原创 开源项目应该如何模块标准化管理

模块化管理是一种将复杂的系统或程序拆分成若干独立部分(即模块)的方法,每个模块都专注于一个特定的功能。就像把一个复杂的机器拆解成多个简单的零件,每个零件只负责某一个任务。这样做不仅让整个系统变得更易管理和维护,也便于团队分工合作。例如,在一个 Python 开源项目中,如果没有模块化管理,可能一个文件中包含了所有的代码,既有数据处理的部分,也有界面交互的部分。随着项目越来越大,代码会变得难以维护,甚至修改一个小功能也可能会破坏其他部分的功能。

2025-01-17 09:01:16 603 1

原创 2024年高教社杯全国大学生数学建模C题-农作物的种植策略详解+思路+Python源码(二)

(参考问题 1),但要在情景 ω下分别定义U_{j,s,t}^{ω},W_{j,s,t}^{ω}

2025-01-10 12:01:16 931 4

原创 如何快速准备数学建模?

为了让评审理解所使用模型的背景和依据,写作手需要在报告中进行必要的文献综述,说明模型的来源与应用,增加报告的学术性。

2025-01-09 08:55:12 1473 3

原创 Prompt提示工程上手指南(七)Prompt编写实战-基于智能客服问答系统下的Prompt编写

本系列文章从最初的基础原理与入门实践切入,一直延伸到主流策略、引导策略、RAG(检索增强生成)、思维树(ToT)与避免幻觉(Hallucination)的策略这种渐进的结构方便了对初学者和进阶者的双向照顾。初学者可以先理解基本概念,然后慢慢深入;有一定经验的读者则可以快速跳到策略章节,获取更高阶的经验和方法。在熟练掌握以上技能和熟悉概念理论之后,我们需付出实践,结合场景来实际操作检验一遍,达到融会贯通。

2024-12-27 10:05:11 2048 12

原创 数学建模准备工具软件一文详解(附安装下载教程

工欲善其事必先利其器,在数学建模竞赛和研究中,选择合适的软件工具对提高建模效率和结果呈现质量至关重要。本文将系统地介绍数学建模中常用的核心软件工具,帮助建模爱好者和参赛者构建一个完整的软件工具链。简单介绍一下我自己:博主专注建模五年,参与过大大小小数十来次数学建模,理解各类模型原理以及每种模型的建模流程和各类题目分析方法。作为建模工作的基础支撑,合适的软件不仅能够帮助我们更高效地处理数据、构建模型、验证结果,还能让整个建模过程更加规范化和科学化。

2024-12-27 09:20:52 1317 1

原创 2024年高教社杯全国大学生数学建模C题-农作物的种植策略详解+思路+Python源码(一)

本问题针对华北山区低温环境下的农作物种植规划与布局。在该地区,常规露天耕地每年只能种一季粮食类作物,而水浇地可以种水稻或两季蔬菜;大棚(普通与智慧大棚)则可多季种植特定作物。如何在有限的耕地和设施条件下,合理安排不同作物的轮作、搭配以及分布,从而达到最大化经济收益、满足作物轮作要求、保证土壤肥力与可持续发展成为一个重要的问题。

2024-12-12 17:41:41 2321 20

原创 大数据挖掘实战-PyODPS基础操作

PyODPS是MaxCompute的Python版本的SDK,类似于Spark的PySpark。提供简单方便的Python编程,PyODPS提供了与ODPS命令行工具类似的功能,例如上传和下载文件、创建表、运行ODPS SQL查询等,同时提供了一些高级功能,如提交MapReduce任务、使用ODPS UDF等。Python作为目前机器学习、AI模型开发的主流编程语言,提供了如NumPy、SciPy、Scikit-Learn、Matplotlib等丰富的科学计算、可视化库,用于数据科学和数据分析。

2024-11-26 09:56:06 1397

原创 互联网技术净土?原生鸿蒙开启全新技术征程

因此,在开发过程中找到有效的测试方法,以减少手动测试的工作量、提升测试准确性,成为开发者提升效率的一个关键挑战。开发者往往在应用开发的不同阶段面临挑战,包括代码质量检测、测试优化、资源分发以及应用的后续运营管理,而原生鸿蒙应用市场通过提供一系列服务,帮助开发者提升效率、加速创新,实现业务的可持续发展。当前,HarmonyOS NEXT的代码行数已超过1.1亿,开发者数量大幅增长,已有超过15000款鸿蒙原生应用和元服务上线,生态设备数量突破10亿,政企办公领域的应用也在加速推进。

2024-11-06 09:19:22 12086

原创 如何优雅的在页面上嵌入AI-Agent人工智能

IDEA启动!大模型的title想必不用我多说了,多少公司想要搭上时代前言技术的快车,感受科技的魅力。现在大模型作为降本增效的强大工具,基本上公司大多人都想要部署开发一把,更多的想要利用到这些模型放到生产中来提高生产力。但是对于我们开发者来说,找到实际落地场景可以说是产品的活,我们需要思考如何高效维护AI这个模块,如何建立项目层级结构才能更好的解耦。正巧最近遇到了这个需求,来和大家分享项目搭建流程,此项目将运用到我个人开发的网页和网站上面,感兴趣的同学可以去体验一下,再来看看项目设计结构会更有心得。

2024-11-05 15:37:14 1295

原创 2022年全国大学生数学建模竞赛E题目-小批量物料生产第三问第四问+思路+Python源码

那么我们废话不多说将剩下的问题全部补完,我们先来总结前两问我们做了什么事,首先第一问我们根据算法挑选了六种权重最高的物料,第二问根据动态规划预测出后面十周我们物料生产计划的安排。那么第一问的物料是固定的无需调整,第二问我们拿到了一个可以规划和预测的模型。

2024-11-05 15:30:48 878

原创 一文速学-知识图谱从零开始构建实战:知识图谱搭建构架实践-知识展示

系列文章的上一篇我们已经进行了UIE抽取,非结构化知识抽取整理,转化。但是目前仅在于通过分词提取实体、属性、关系,还没有通过大模型来进一步高效率高精准度来提取这些关键字段,因此后续我们都整个流程优化空间都很大,最终我们的目标就是集成数据库以及大模型,对非结构化知识(包含图片,PDF等通过OCR算法识别)自动化抽取,再落库分发接口展示。目前我们需要进一步认识知识存储数据库,这里使用Neo4j进行讲解演示。如觉得项目有用请不吝支持。Neo4j 是一个开源的图数据库管理。

2024-11-05 15:26:59 1485 2

原创 Python自动化测试一文详解

自动化测试是使用软件工具自动执行测试用例的过程。与手动测试相比,自动化测试通过脚本或程序来执行测试,提高了测试的效率和可靠性。自动化测试的主要目的是发现软件中的缺陷并验证功能是否符合预期。假设我们有一个登录系统,手动测试可能需要多次输入不同的用户名和密码来验证其有效性,而自动化测试则可以通过编写一个脚本来批量执行这些输入,节省时间。在众多的 Python 测试框架中,pytest 因其简洁易用和强大的功能而广受欢迎。它不仅支持简单的测试用例编写,还能够扩展到复杂的测试需求。

2024-10-29 17:33:00 1273

原创 一文速学-知识图谱从零开始构建实战:知识图谱搭建构架实践-信息抽取

根据系列上篇文章,我们已经了解了知识图谱的基本概念,以及现在知识图谱发展状况,与前沿AI结合方向。现在就差真正实践构建知识图谱这临门一脚,基本上就会对知识图谱这一产品有更加清晰的认识。那么工欲善其事必先利其器,就像我们对编程语言的掌握程度,更高级的用法和熟练度能更进一步提高我们做出项目产品的质量,在本篇文章将从开发环境部署写到初级知识图谱搭建实践,完成从无到有的知识图谱构建过程。

2024-10-18 17:26:28 1339 4

原创 全网最易详解-数据仓库分区详解

最近要搭某个业务域的数仓,本来设计规划的挺好的,该搭DIM,DWD,DWS的也都设计好了,结果一跑数仓,全是大大小小的BUG,最后揪出来整个过程,最大的烦人东西就是设计ETL数据入库分区的问题。那么这时候肯定有人说:咳,小事,不整那么多分区表,整全量表就不行了吗?但事实就是如果业务实际到前后两天必须要作环比审核的时候,就不得不做分区了,这几天对每个业务表设计分区有感,对数仓分区概率又多了很多新的认知和理解。

2024-10-16 11:42:08 1295 3

原创 2022年全国大学生数学建模竞赛E题目-小批量物料生产动态规划安排详解+思路+Python源码

如果按照物料需求量的预测值来安排生产,可能会产生较大的库存,或者出现较多的缺货,给企业带来经济和信誉方面的损失。企业希望从需求量的预测值、需求特征、库存量和缺货量等方面综合考虑,以便更合理地安排生产。请提供一种制定生产计划的方法,从第 101 周(将附件数据第 1 次出现的时间(2019 年 1 月 2 日)所在的周设定为第 1 周,以后的每周从周一开始至周日结束,例如,2019 年 1 月 7 日至 13 日为第 2 周,以此类推。

2024-10-15 11:29:02 222 1

原创 2022年全国大学生数学建模竞赛E题目-小批量物料生产安排详解+思路+Python代码时序预测模型

E题补完计划开始,接着之前专栏里面的E题内容写完接下来的所有问题。经过第一问得到了最佳物料编码的前六位排名:是通过聚合指标和熵权法计算得到的,现在我们需要完成第一问的接下来两个目标,分别是建立物料需求的周预测模型和利用历史数据对预测模型进行评价。按周聚合数据之后,可以拿一个6004010250来看:现在我们可以进行平稳性检验来判断我们该用什么模型,所谓平稳性,其基本思想是:决定过程特性的统计规律不随着时间的变化而变化。关于严宽平稳我之前写自回归模型(AR)已经写的很清楚了。

2024-10-11 17:52:16 413 9

原创 一文速学-知识图谱从零开始构建实战:知识图谱的基本概念

知识库:是一个用于存储和管理信息的系统,可以是结构化(如数据库)或半结构化(如文档库)的形式。它集中存储特定领域的事实、规则和信息,方便查询和管理。知识图谱:是一种以图形化方式表现知识的结构,通过节点(实体)和边(关系)来展示信息,强调实体之间的关联性和上下文。

2024-09-27 16:00:48 966 1

原创 「嘉年华观会」解锁创作的N种方式!漫步“增一行代码”开发者嘉年华大会有感

我计划将技术写作作为个人成长的重要组成部分,继续优化自己的创作流程,借助平台和工具,逐步增强自己的技术IP。同时,我将更加关注知识库的构建和品牌思维的应用,希望在未来能够通过高质量的技术内容,为行业和个人带来更多价值。进一步研究AI在数据建模、自动化运维和智能化开发中的应用,期待能够将这些技术整合到实际项目中,帮助企业在数字化转型中更快、更高效地实现业务目标。通过不断学习和应用这些前沿技术,我希望能够在技术领域探索出更多可能性,并为团队和企业带来持续的创新与价值。

2024-09-13 10:36:30 733

原创 GBI(生成式商业智能)实际业务生产落地运用上的探索和实践

最近在探索如何发展AI在业务上的驱动力时了解到了生成式商业智能这一概念,同时本人也在探索ChatBI这一技术的实际落地运用,其实二者几乎在实现效果层面是一个意思,GBI(Generative Business Intelligence)是偏向业务方面,而ChatBI更多是偏向技术方面。二者最终导向都是实现让企业可以更加快速地实现从数据到决策的转化,满足企业在不同场景下的数据分析需求。具体来说前者核心功能是通过生成式模型自动化地生成多层次的业务洞察、深度分析和预测结果。

2024-09-13 10:24:39 2243

原创 一文速学ChatBi“与数据库对话“大模型技术原理及框架一览

上期写了NL2SQL,相信看过的朋友应该都对现在大模型在数据交互办公层面的探索和发展都十分感兴趣,在此商业化的产品市场上也有很多,比如阿里云的析言GBI:腾讯云的ChatBI:像此类的产品可以说是最贴切业务的。在许多业务场景中,用户最关心的是如何快速获取最终的数据结果,而不是去理解数据是如何被提取和处理的。学习数据获取的复杂过程往往是一个高成本的障碍,而降低这一成本直接关系到产品的吸引力和用户的转化率。对于我们技术人员而言,尽管研发思维是核心,但我们开发的服务最终还是为了更好地服务于业务需求。

2024-09-03 10:02:00 3956 18

原创 2022 年高教社杯全国大学生数学建模竞赛-C 题 古代玻璃制品的成分分析与鉴别详解+分类模型Python代码源码

简单介绍一下我自己:博主专注建模四年,参与过大大小小数十来次数学建模,理解各类模型原理以及每种模型的建模流程和各类题目分析方法。参与过十余次数学建模大赛,三次美赛获得过二次M奖一次H奖,国赛二等奖。**提供免费的思路和部分源码,以后的数模比赛只要我还有时间肯定会第一时间写出免费开源思路。**博主紧跟各类数模比赛,每场数模竞赛博主都会将最新的思路和代码写进此专栏以及详细思路和完全代码且完全免费。希望有需求的小伙伴不要错过笔者精心打造的文章。

2024-08-29 15:32:51 1502 13

原创 一文速学-零成本与数据沟通NL2SQL的概念和实现技术

NL2SQL的出现,彻底改变了人与数据交互的方式。它通过将复杂的SQL查询隐藏在自然语言输入背后,极大地降低了数据获取的门槛,让业务人员无需依赖技术背景就能直接获取所需的信息。随着自然语言处理技术的不断进步,NL2SQL的应用场景将愈加广泛,覆盖从企业报表到智能客服等各个领域。未来,随着模型的泛化能力增强和实时性能优化,我们可以期待NL2SQL技术在数据驱动的决策中扮演更加重要的角色,让“零成本与数据沟通”真正成为可能。

2024-08-26 16:02:22 3052 8

原创 如何优雅的在页面上嵌入AI-Agent人工智能

IDEA启动!大模型的title想必不用我多说了,多少公司想要搭上时代前言技术的快车,感受科技的魅力。现在大模型作为降本增效的强大工具,基本上公司大多人都想要部署开发一把,更多的想要利用到这些模型放到生产中来提高生产力。但是对于我们开发者来说,找到实际落地场景可以说是产品的活,我们需要思考如何高效维护AI这个模块,如何建立项目层级结构才能更好的解耦。正巧最近遇到了这个需求,来和大家分享项目搭建流程,此项目将运用到我个人开发的网页和网站上面,感兴趣的同学可以去体验一下,再来看看项目设计结构会更有心得。

2024-08-23 09:45:50 3085 49

原创 数据开发/数仓工程师上手指南(七)CDM-DWS层搭建规范及流程

进入到了CMD公共数据层的结尾最后一层-DWS层了,该层基本就是直接与业务强关联,也就是说产品提出的需求,或是报表、用户画像统计好还是数据大屏都是在这一层给处理好数据,再放入ADS层,然后我们只需要在BI里面配备对应的数据源即可,因此可以说DWS层这一层建模是否清晰明了,简单易建是检验我们ODS层和DWD,DIM层建模的好坏。一般我们也可以从DWS这一层,也就是需求侧结果出发来逆向推理我们需要建立的ODS和DWD层,总之DWS层需要我们仔细琢磨,需要上生产的东西一定得小心再小心。

2024-08-06 08:48:55 1326

原创 数据开发/数仓工程师上手指南(六)CDM-DWD层搭建规范及流程

前言这次想聊点出工作技术方面外的内容,DWD该层在写CDM层的时候就提及很多次了大差不差,近期让我感悟较多的话那是那句宁愿犯错也不愿意什么都不做,说这句话如果能够做到,那么执行力也远超过其他人,能力和远见也会在历练中得到充分的成长。但是这也是要区分领域来说,一般我认为这句话的适用程度在自己的技术工作领域上面,可以去尝试换个技术,换个主题或者是从事新的第二事业,而不是在目前大环境下面去犯错,因为现在给你的容错机会极少,凡事还是要注意量与度。好了废话不多说,现在开始DWD层的数据建模。明细粒度事实层(DWD)在

2024-08-02 15:49:25 1328 1

原创 数据开发/数仓工程师上手指南(五)CDM-DIM层搭建规范及流程

CDM层,即Common Data Model层,是数据仓库中的核心层次,它定义了数据仓库中使用的共同数据结构和业务规则。CDM层提供了一个统一的视图,将不同的数据源和数据格式映射到一个通用的模型中,使得数据分析人员可以更容易地进行数据整合和分析。公共维度层(DIM):基于维度建模理念思想,建立整个企业的一致性维度。降低数据计算口径和算法不统一风险。公共维度层的表通常也被称为逻辑维度表,维度和维度逻辑表通常一一对应。

2024-08-01 10:57:59 1275 2

原创 数据开发/数仓工程师上手指南(四)ODS层搭建规范及流程

此系列的前三篇文章已经将整个数据仓库的所有构建逻辑流程讲的十分清晰,等于是我们已经把框架搭建好了,接下来就是填充框架内各个组件层级的内容了。我们已经将数据仓库分为三层,分别是ODS数据引入层、CDM数据公共层和ADS数据应用层,现在我们需要根据业务来逐渐将这三个层面给丰富起来。首先由下到上需要先构建ODS层,那么本章内容我们就来了解ODS数据引入层的搭建规范和对应需求业务的搭建流程。

2024-07-31 11:04:15 1289 7

原创 数据开发/数仓工程师上手指南(三)数仓构建流程

定义关键绩效指标与业务用户和管理层讨论,确定需要在数据仓库中跟踪的KPI。常见KPI招标项目数:总数、按月分布等。投标公司数:总数、每项目投标公司数等。中标率:按项目、按公司等。平均投标时间:从公告发布到投标截止的时间。评标时间:从投标截止到评标完成的时间。定义维度和构建总线矩阵(Bus Matrix)是数据仓库设计中非常重要的步骤,特别是在多个数据域之间保持一致和统一。维度是描述业务过程上下文的信息,帮助我们理解和分析事实数据,可以先构建通用维度,再构建详细定义维度。

2024-07-29 10:06:22 1482 3

原创 数据开发/数仓工程师上手指南(二)数仓构建分层概念

度量是用于量化业务活动的关键数据点,通常是数值型的,可以进行汇总和分析。度量回答了业务过程中的“多少”或“多少次”的问题,如销售金额、订单数量、库存水平等。比如。

2024-07-26 09:00:57 980 1

原创 数据开发/数仓工程师上手指南(一)数仓概念总览

数据库设计用于支持日常业务操作和事务处理。数据结构高度规范化,注重数据的一致性和实时性。优化事务处理性能,处理频繁的读写操作。数据仓库设计用于支持数据分析和决策支持系统。数据结构非规范化,存储大量的历史数据。优化查询性能,支持复杂的多维分析和大规模数据处理。数据库(Database)数据仓库(Data Warehouse)面向事务分析数据类型细节、业务综合、清洗过的数据数据特点当前的、最新的历史的、跨时间维护目的日常操作长期信息需求、决策支持设计模型。

2024-07-24 14:31:07 3111 13

chromedriver-linux64.zip 最新122.70

我们之所能操作浏览器,是因为我们有该浏览器对应的驱动。若是缺少驱动我们并不能对浏览器进行操作: 首先我们需要知道浏览器的版本,输入: chrome://version/ Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),火狐, 谷歌浏览器,360浏览器等。这个工具的主要功能包括:测试与浏览器的兼容性——测试应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建回归测试检验软件功能和用户需求。支持自动录制动作和自动生成.Net、JAVA,PHP等不同语言的测试脚本。 2.功能 框架底层使用JavaScript模拟真实用户对浏览器进行操作。测试脚本执行时,浏览器自动按照脚本代码做出点击,输入,打开,验证等操作,就像真实用户所做的一样,从终端用户的角度测试应用程序。 使浏览器兼容性测试自动化成为可能,尽管在不同的浏览器上依然有细微的差别。 使用简单,可使用Java,Python等多种语言编写用例脚本。 ——

2024-02-29

chromedriver-122.0.6261.70-64

谷歌浏览器最新122.0.6261.70-32位驱动器selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器,如 Chrome、Firefox、Edge 等,还有 Android、BlackBerry 等手机端的浏览器。可以看到从122 Stable 稳定版本以及更高版本的测试版

2024-02-29

chromedriver-122.0.6261.70-32

谷歌浏览器最新122.0.6261.70-32位驱动器selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器,如 Chrome、Firefox、Edge 等,还有 Android、BlackBerry 等手机端的浏览器。可以看到从122 Stable 稳定版本以及更高版本的测试版,我们选择对应的版本复制链接到浏览器或者下载器里面就可以下载最新版本驱动了

2024-02-29

金融风控-贷款违约预测数据

赛题以预测用户贷款是否违约为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。df2文件已经进行数据处理,具体可看博客:https://blog.youkuaiyun.com/master_hunter/article/details/129423185 Field Description id 为贷款清单分配的唯一信用证标识 loanAmnt 贷款金额 term 贷款期限(year) interestRate 贷款利率 installment 分期付款金额 grade 贷款等级 subGrade 贷款等级之子级 verificationStatus 验证状态 issueDate 贷款发放的月份 purpose 借款人在贷款申请时的贷款用途类别 postCode 借款人

2023-10-16

cchardet-2.7.1-cpy310

在https://www.lfd.uci.edu/~gohlke/pythonlibs/#cchardet上面没有看到支持python3.10版本的,但是在github上面人家发版了,先传自用,有需要可以下载。cchardet是chardet的升级版,功能和chardet完全一样(requests依赖包采用的就是chardet),用来检测一个字节数组的编码。由于是用C和C++实现的,所以它的速度非常快,非常适合在爬虫中用来判断网页的编码。

2023-04-13

jython-installer-2.7.3.jar

交互式实验-Jython提供了一个交互式解释器,可用于与Java包或运行的Java应用程序交互。这允许程序员使用Jython来实验和调试任何Java系统。 快速应用程序开发——Python程序通常比等效Java程序短2-10倍。这直接转化为程序员生产力的提高。Python和Java之间的无缝交互允许开发人员在开发过程中和产品交付过程中自由地混合这两种语言。

2022-10-26

已编译版本solr-8.11.2.tgz

Solr 8.11.2是8.x系列的最后一个版本,新版本已经是9.0版本了。 1,什么是solr? Solr是一个独立的企业级搜索应用服务器,他对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务提供一定格式的xml文件,生成索引;也可以通过http get 操作提供查找请求,并得到xml格式的返回结果 2.,solr特点 Solr是一个高性能,采用java语言,基于Lucene开发的全文搜索服务器。并对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置,可扩展并对查询性能进行了优化,提供了一个完善的功能管理页面,是一款非常优秀的全文搜索引擎。 3,solr工作方式 文档通过http利用xml加到一个搜索集合中。solr查询该集合也是通过http收到一个xml/json响应来实现。他的主要特性包括:高效,灵活的缓存功能,垂直搜索功能,高亮下试搜索结果,通过索引复制来提高可用性,提供一套强大的data schema 来定义字段,类型和设置文本分析,提供基于web的管理界面等。

2022-08-26

apache-maven-3.8.6-bin+安装教程

远程仓库分类 分类 本地仓库 maven本地仓库的默认位置:无论是Windows还是Linux,在用户的目录下都有一个.m2/repository/的仓库目录,这就是Maven仓库的默认位置,变更maven默认的本地仓库的位置可更改存在于maven的settings.xml文件中localRepository的标签中的地址 远程仓库 中央仓库 maven官方的远程库,中央仓库包含了绝大多数流行的开源Java构件,以及源码、作者信息、SCM、信息、许可证信息等。一般来说,简单的Java项目依赖的构件都可以在这里下载得到 私服 私服是一种特殊的远程仓库,它是架设在局域网内的仓库服务,私服代理广域网上的远程仓库,供局域网内的Maven用户使用。当Maven需要下载构件的时候,它从私服请求,如果私服上不存在该构件,则从外部的远程仓库下载,缓存在私服上之后,再为Maven的下载请求提供服务。我们还可以把一些无法从外部仓库下载到的构件上传到私服上 其他公共库 mirror元素和rep

2022-08-24

hive3.1.0-antrl3.5.2-Hivegrammar源码.zip

Antlr是一种语言识别的工具,可以用来构造领域语言。 使用antlr需要我们提前定义好识别字符流的词法规则和用于解释Token流的语法分析规则。然后,antlr会根据我们提供的语法文件自动生成相应的词法/语法分析器。hive借助Antlr定义SQL的词法规则和语法规则,完成SQL词法,语法解析,将SQL转化为抽象语法树AST Tree。HiveSql后续的编译过程全都基于AST Tree,所以我们想要完整理解hive sql的编译过程,需要前置了解一下antlr是怎么工作的。 HiveLexer.g:词法解析文件,定义了所有用到的token。 HiveParser.g:语法解析文件,实现了所有的Hive语法解析。 FromClauseParser.g:FROM语句解析。 IdentifiersParser.g:自定义函数解析,标识符定义 函数名称、系统函数、关键字等。 nonReserved,非保留的关键字可以作为标识符的。比如 select a as date from mytable 这个date不添加转义会报错的,但是该处如果添加 “ | KW_DATE ” dat

2022-08-23

Dependency Walker2.2

Dependency Walker 之前一直用Dependency Walker看DLL导出接口,今天总结一下 Dependency Walker 使用说明。如果你想学习如何使用Dependency Walker, 可以仔细阅读这篇文章,了解一下Dependency Walker对你以后调试DLL有所帮助。 1.什么是DLL? 在Windows世界中,有无数块活动的大陆,它们都有一个共同的名字——动态链接库。现在就让我们走进这些神奇的活动大陆,找出它们隐藏已久的秘密吧! 初窥门径:Windows的基石 随便打开一个系统目录,一眼望去就能看到很多扩展名DLL的文件,这些就是经常说的“动态链接库”,DLL是Dynamic Link Library(即“动态链接库”)的缩写。从Microsoft公司推出首个版本的Windows以来,动态链接库就一直是这个操作系统的基础。 2.DLL有什么? 与其用晦涩的专业术语来解决DLL是什么,不如先来看看DLL里有什么。DLL和EXE文件一样,其中包含的也是程序的二进制执行代码和程序所需的资源(比如图标、对话框、字符串等),可是为什么要把代码放在D

2022-08-23

pyjnius-1.4.2-cp37-cp37m-win32.whl

PyJNIus 是一个神奇的 Python 第三方模块。它能使用Java本地接口将Java类作为Python类访问的Python模块。 如果你需要在Python中使用Java 类,这个第三方模块是你最好的选择。 1.准备 开始之前,你要确保Python和pip已经成功安装在电脑上 请选择以下任一种方式输入命令安装依赖: 1. Windows 环境 打开 Cmd (开始-运行-CMD)。 2. MacOS 环境 打开 Terminal (command+空格输入Terminal)。 3. 如果你用的是 VSCode编辑器 或 Pycharm,可以直接使用界面下方的Terminal. pip install pyjnius 2.快速开始 使用Jnius导入Java类特别简单,你只需要引入 autoclass 并引用你所需要的类即可: >>> from jnius import autoclass >>> autoclass('java.lang.System').out.println('Hello world') Hello world

2022-08-23

pyjnius-1.4.2-pp37-pypy37_pp73-win_amd64.whl

PyJNIus 是一个神奇的 Python 第三方模块。它能使用Java本地接口将Java类作为Python类访问的Python模块。 如果你需要在Python中使用Java 类,这个第三方模块是你最好的选择。适用场景:极个别的加密算法等内容,用python不方便实现或者实现较耗时,可基于Pyjnius把java类当做python库使用。如果出现ImportError,一般是java环境变量或者path没有配置好。先安装Java JDK 和JRE、Cython注意:jnius安装的坑比较多,请参考http://stackoverflow.com/search?q=jnius 如果出现ImportError,一般是java环境变量或者path没有配置好。 jnius/jnius.c:4:20: fatal error: Python.h 一般为缺python-dev, yum -y install python-devel pip 安装不成功可以尝试 setup.py方式。

2022-08-23

antlr-repackaged-4.0.jar

antlr是指可以根据输入自动生成语法树并可视化的显示出来的开源语法分析器。ANTLR—Another Tool for Language Recognition,其前身是PCCTS,它为包括Java,C++,C#在内的语言提供了一个通过语法描述来自动构造自定义语言的识别器(recognizer),编译器(parser)和解释器(translator)的框架。 antlr有 v2 v3 v4多个版本并存,中文文档多数是v2的, hive 1.1.0版本在注释中提到了antlr 3.4。ANTLR将上述结合起来,它允许我们定义识别字符流的词法规则和用于解释Token流的语法分析规则。然后,ANTLR将根据用户提供的语法文件自动生成相应的词法/语法分析器。用户可以利用他们将输入的文本进行编译,并转换成其他形式(如AST—Abstract Syntax Tree,抽象的语法树)。

2022-08-23

antlrworks-1.5.1.jar

Antlr是一种语言识别的工具,可以用来构造领域语言。 使用antlr需要我们提前定义好识别字符流的词法规则和用于解释Token流的语法分析规则。然后,antlr会根据我们提供的语法文件自动生成相应的词法/语法分析器。hive借助Antlr定义SQL的词法规则和语法规则,完成SQL词法,语法解析,将SQL转化为抽象语法树AST Tree。HiveSql后续的编译过程全都基于AST Tree,所以我们想要完整理解hive sql的编译过程,需要前置了解一下antlr是怎么工作的。通过ANTLRWorks可以更加直观的理解解析过程。 对ANTLR的支持——源代码图。编辑ANTLR语法文件时,“语法图”窗口显示当前规则的直观表示。此功能提供语法元素的自然表示,并且是提供自定义功能以增强特定语言的特征的示例。另外,双击源代码图中的元素将立即跳转到相关的源代码。antlrworks:专门用于开发antlr的ide,(不同版本的antlrworks)其内部集成了某个版本的antlr。 换句话说,你即使下载了antlr-x.x-complete.jar,将其添加到了CLASSPATH中,其也和an

2022-08-22

antlr-3.4.jar

antlr是指可以根据输入自动生成语法树并可视化的显示出来的开源语法分析器。ANTLR—Another Tool for Language Recognition,其前身是PCCTS,它为包括Java,C++,C#在内的语言提供了一个通过语法描述来自动构造自定义语言的识别器(recognizer),编译器(parser)和解释器(translator)的框架。 antlr有 v2 v3 v4多个版本并存,中文文档多数是v2的, hive 1.1.0版本在注释中提到了antlr 3.4。ANTLR将上述结合起来,它允许我们定义识别字符流的词法规则和用于解释Token流的语法分析规则。然后,ANTLR将根据用户提供的语法文件自动生成相应的词法/语法分析器。用户可以利用他们将输入的文本进行编译,并转换成其他形式(如AST—Abstract Syntax Tree,抽象的语法树)。

2022-08-22

hadoop3.3.3-winutils

Scala项目中的winutils.exe详解 作用: 模拟linux环境 意义: hadoop基于linux开发和布署运行,故不能将hadoop环境原始运行在windows上。 操作系统环境差异说明 因为模拟linux环境,所以在linux原生环境中就不需要他了 在windows环境中需要配置 如何配置: 配置到运行环境当前目录下的/bin目录下 如果是eclipse开发,就配置到项目根目录下/bin/下即可 在Hadoop1.x 时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大。 在Hadoop2.x时代,增加了Yarn。Yarn只负责资源的调度,MapReduce 只负责运算。 Hadoop3.x在组成上没有变化Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。 (1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。 (2)DataNode(dn):在本地文件系统存储文件块数据,以及块

2022-07-19

scrt-sfx-9.0.0.2430+使用教程

内带使用教程你懂得! SecureCRT 9.1是一款专业强大的SSH远程终端服务软件,该软件在所以平台上都支持SSH2,SSH1,Telnet,串行和Raw。从多种仿真中选择大多数采用ANSI颜色。具有多会话选项样式或者平铺式界面,具有大范围的会话管理以及自定义功能。使用时用户可以创建在指定会话的基础上使用各个配置。并且这款软件整体界面简洁,操作方便易用,支持可视化界面,将本地主机和远程主机的目录结构以树形结构的方式显示出来,文件的传输可以直接手动拖动而无需使用命令。 同时,SecureCRT 9.1版本进行了全方面的新增和优化,支持在会话管理器过滤器框中使用通配符,优化搜索以显示您感兴趣的确切会话,最大程度地减少错误,还提供了新的自定义选项,新增了对Python 3的支持,对选定文本进行Google搜索的功能以及对多行粘贴确认的增强等等,致力于为组织中的每个人提供安全的远程访问、文件传输和数据隧道。添加了Windows、macOS和Linux支持本地Shell;新增书签管理器,使您可以更轻松地添加,删除书签,以及从其他会话中复制书签,提高用户工作效率。

2022-06-13

机器学习之数据均衡算法种类大全+Python代码一文详解

以Imbalancd sklearn库收录的算法来看,过采样共有11种方法,欠采样共有8种方法,组合采样有2种方法。 1.欠采样算法: ClusterCentroids CondensedNearestNeighbour EditedNearestNeighbours RepeatedEditedNearestNeighbours AlIKNN InstanceHardnessThreshold NearMiss NeighbourhoodCleaningRule OneSidedSelection RandomUnderSampler TomekLinks 2.过采样方法 RandomOverSampler SMOTE SMOTENC SMOTEN ADASYN BorderlineSMOTE KMeansSMOTE SVMSMOTE 3.组合采样 SMOTEENN SMOTETomek

2022-06-05

dbeaver+navicat

DBeaver 是一个基于 Java 开发,免费开源的通用数据库管理和开发工具,使用非常友好的 ASL 协议。可以通过官方网站或者 Github 进行下载。 由于 DBeaver 基于 Java 开发,可以运行在各种操作系统上,包括:Windows、Linux、macOS 等。DBeaver 采用 Eclipse 框架开发,支持插件扩展,并且提供了许多数据库管理工具:ER 图、数据导入/导出、数据库比较、模拟数据生成等。 DBeaver 通过 JDBC 连接到数据库,可以支持几乎所有的数据库产品,包括:MySQL、PostgreSQL、MariaDB、SQLite、Oracle、Db2、SQL Server、Sybase、MS Access、Teradata、Firebird、Derby 等等。商业版本更是可以支持各种 NoSQL 和大数据平台:MongoDB、InfluxDB、Apache Cassandra、Redis、Apache Hive 等。“Navicat”是一套可创建多个连接的数据库管理工具,用以方便管理 MySQL、Oracle、PostgreSQL、SQLite、

2022-05-30

sqldeveloper-21.4.3.x64+jdk1.8

Oracle SQL Developer是Oracle公司出品的一个免费的集成开发环境。是一个免费非开源的用以开发数据库应用程序的图形化工具,使用 SQL Developer 可以浏览数据库对象、运行 SQL 语句和脚本、编辑和调试 PL/SQL 语句。另外还可以创建执行和保存报表。该工具可以连接任何 Oracle 9.2.0.1 或者以上版本的 Oracle 数据库,支持 Windows、Linux 和 Mac OS X 系统。 Oracle SQL Developer是针对Oracle数据库的交互式开发环境(IDE)。 Oracle SQL Developer简化了Oracle数据库的开发和管理。 SQL Developer提供了PL/SQL程序的端到端开发,运行查询工作表的脚本,管理数据库的DBA控制台,报表接口,完整的数据建模的解决方案,并且能够支持将你的第三方数据库迁移至Oracle。 SQL Developer可以连接到任何Oracle 10g及其后续版本的数据库,并且能在 是连接Hive以及mysql常用的图形化工具之一,此安装包还自带jdk1.8.可以直接部署进行开发。

2022-05-26

熵权法实战代码,根据港口研发投入数据进行熵值法确定权重。

熵权法实战代码,根据港口研发投入数据进行熵值法确定权重。

2022-02-28

hadoop-common-2.6.0-bin-master.zip

设置本地为master而进行hadoop编程所必须文件

2021-04-07

操作系统调度算法.zip

操作系统作业调度算法C代码实现,进程入队与出队模拟,FCFS调度算法,时间片轮转调度算法

2021-03-04

机器学习实战Logistic回归举例数据

本资源是机器学习实战Logistic回归举例中的数据

2020-12-20

使用朴素贝叶斯过滤垃圾邮件数据集

数据集说明: 数据集下包含两个文件夹,其中spam文件夹下为垃圾邮件,ham文件夹下为非垃圾邮件。  数据集格式: txt文件

2020-12-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除