自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (1)
  • 收藏
  • 关注

原创 人工智能驱动的数据仓库优化:现状、挑战与未来趋势

现代数据仓库的复杂性和规模正以前所未有的速度增长,这主要是由于数据量、种类和产生速度的急剧增加所致。传统的数据仓库技术在应对这些现代数据需求方面显得力不从心,这催生了对更先进解决方案的需求。数据工程师在手动优化存储和计算过程(例如在MapReduce中)时面临诸多挑战3。这一过程不仅需要专业的知识,而且非常耗时,可能会阻碍创新。人工智能(AI)和机器学习(ML)的出现为自动化和增强这些优化过程提供了巨大的潜力,使工程师能够更专注于数据创新和战略性工作。

2025-04-05 09:20:10 887

原创 大模型上下文协议(MCP)技术

Model Context Protocol(MCP)是Anthropic提出的一项开放标准协议,旨在重构AI系统与外部数据、工具之间的连接方式,通过统一接口解决传统大语言模型(LLM)在实时数据访问、领域特化和系统集成中所遇到的知识局限、集成碎片化等问题1。从技术原理、应用场景、安全风险与隐私保护以及未来发展趋势四个方面进行系统论述,并结合丰富的实践案例与可视化图表,详细阐述MCP的架构设计、工作流程、安全机制和未来演进方向。

2025-04-03 10:20:09 722

原创 机器学习6--GBDT 梯度提升决策树

GBDT与传统的Boosting区别较大,它的每一次计算都是为了减少上一次的残差,而为了消除残差,我们可以在残差减小的梯度方向上建立模型,所以说,在GradientBoost中,每个新的模型的建立是为了使得之前的模型的残差往梯度下降 的方向,与传统的Boosting中关注正确错误的样本加权有这很大的区别在GrandientBoosting算法中,关键就是利用损失函数的负梯度方向在当前模型的值作为残差的近似值,进而拟合一棵CART回归树。

2025-03-11 22:45:39 972

原创 万字总结数据分析思维

令人不悦的两种情况对于核心数据,如日活,只知道数据在变化,但不知道为何变化,特别是处于一个较大跌幅时,产品为了解释这种现象,就会向数据分析师要各种纬度的数据每隔一段时间,产品都会拉上数据、研发一起对埋点,总是觉得当前的字段不够用,底层日志越来越大,数仓修改的越来越多,取数越来越慢,错误越来越多根本原因都是在于缺少指标体系的建设、宣贯以及实施业务方不重视指标体系是感觉指标体系是基建活,离完成KPI太远,只有出现问题时才会临时重视数据方。

2025-03-09 22:46:12 1125

原创 机器学习5-Adaboost

Adaboost算法的核心思想是在每一轮的迭代中,通过增加上一轮弱学习器错误分类的样本权重,并减少那些被正确分类的样本权重,来“迫使”新的学习器更加关注那些“难以分类”的样本。随后,算法将所有弱学习器的预测结果进行加权平均或加权投票,以得到最终的强学习器。

2025-03-05 20:33:01 843

原创 机器学习4-PCA降维

在数据处理过程中,会碰到维度爆炸,维度灾难的情况,为了得到更精简更有价值的信息,我们需要进一步处理,用的方法就是降维。降维有两种方式:特征抽取、特征选择过滤式(打分机制):过滤,指的是通过某个阈值进行过滤,比如经常会看到但可能并不会去用的,根据方差、信息增益、互信息、相关系数、卡方检验、F检验来选择特征。(什么是互信息?在某个特定类别出现频率高,但其他类别出现频率比较低的词条与该类的互信息比较大。通常互信息作为特征词和类别之间的测度,如果特征词属于该类的话,他们的互信息就大)

2025-03-05 07:57:17 1079

原创 DataLab | 基于LLM的统一BI平台

DataLab由两个主要组件组成:LLM-based Agent Framework 和 Computational Notebook Interface在 DataLab 中,根据用户需求为不同的 BI 任务设计了多个 Agent。为了实现这一目标,我们首先确定了几种常见的 BI 程序,并将它们抽象为代理在推理过程中可以调用的数据工具。示例工具包括用于代码执行的 Python 沙箱和用于可视化渲染的 Vega-Lite 环境。为不同的数据角色提供了一个统一的交互式协作环境,以完成其专业任务。

2025-03-04 15:51:37 1195

原创 机器学习3-聚类

与Single-Linkage算法相似,Complete-Linkage的迭代思想是一样的,不同的是合并类时,Single-Linkage是用两个类中距离最小的两个点作为类之间的距离,而Complete-Linkage恰恰相反,用距离最远的两个数据点之间的距离作为两个类之间的距离。每次聚类后,每个样本得到一个轮廓系数,当SC=1时,说明这个点与周围簇距离较远,结果非常好,当SC=0时,说明这个点可能处在两个簇的边界上,当值为负时,该点可能被误分。在聚类不规则形态的点,如果用K-means,效果不会很好。

2025-02-26 22:39:12 1215 1

原创 机器学习2-决策树

将原始数据集进行筛选,分裂成子数据集(每次分几份,以什么条件分)对生成的子数据集不断分裂,直到停止(停止的条件是什么)利用最终生成的n份数据的共性来代表这个节点(如何用节点共性代表未来预测值?总结,决策树的生成说白了就是数据不断分裂的递归过程,每一次分裂,尽可能让类别一样的数据在树的一遍,当树的叶子节点的数据都是一类的时候,则停止分裂。基尼系数是国际上通用的、用来衡量一个国家或地区收入差距的常用指标基尼系数最大为“1”,最小为“0”,越接近0表明收入分配越趋于平等。

2025-02-24 23:04:47 991

原创 机器学习1-SVM 支持向量机

svm总结

2025-02-21 08:20:02 670

原创 Transformer

本文总结自https://www.bilibili.com/video/BV1XH4y1T76e/?spm_id_from=333.337.search-card.all.click&vd_source=cff3eef3abcdb3fcf7537244dd23cb21,认为讲解的transformer很不错,对视频进行了整理总结

2025-02-21 07:38:31 985

原创 书生大模型4期进阶岛闯关3--LMDeploy 量化部署实践

W4:这通常表示权重量化为4位整数(int4)。这意味着模型中的权重参数将从它们原始的浮点表示(例如FP32、BF16或FP16,Internlm2.5精度为BF16)转换为4位的整数表示。这样做可以显著减少模型的大小。A16:这表示激活(或输入/输出)仍然保持在16位浮点数(例如FP16或BF16)。激活是在神经网络中传播的数据,通常在每层运算之后产生。那么标题中的W4A16又是什么意思呢?激活保持为16位浮点数。权重被量化为4位整数。

2025-01-29 11:38:23 311

原创 书生大模型4期进阶岛闯关6-- MindSearch深度解析及实践

MindSearch 是一个开源的 AI 搜索引擎框架,具有与 Perplexity.ai Pro 相同的性能。🤔任何你想知道的问题:MindSearch 通过搜索解决你在生活中遇到的各种问题📚深度知识探索:MindSearch 通过数百个网页的浏览,提供更广泛、深层次的答案🔍透明的解决方案路径:MindSearch 提供了思考路径、搜索关键词等完整的内容,提高回复的可信度和可用性。💻多种用户界面:为用户提供各种接口,包括 React、Gradio、Streamlit 和本地调试。

2025-01-29 11:33:04 252

原创 书生大模型4期进阶岛闯关4--InternVL 部署微调实践

多模态大模型(Multimodal Large Models)旨在处理多种类型数据(如文本、图像、音频、视频等),并通过融合不同模态的信息来完成复杂任务(如跨模态检索、生成、问答等)。在这种模式中,图像和文本数据分别通过独立的编码器进行处理,但它们的输出被联合编码器整合在一起,以捕捉两模态之间的关系。对齐机制:通过预训练或监督学习对齐不同模态的特征空间(例如,文本和图像在CLIP中通过对比学习对齐)。生成任务:使用解码器(如Transformer Decoder)生成目标模态数据(如文本生成图像)。

2025-01-28 13:53:52 547

原创 书生大模型4期进阶岛闯关2-Lagent自定义你的agent智能体

根据教程,安装命令依次执行就行,其中一个重要的点是SSH映射到本地电脑,才能打开链接。创建Multi-Agents博客写作系统的搭建。创建Arix_search agent。创建weather agent。上传至Hugging Face。

2025-01-24 17:24:29 256

原创 书生大模型4期基础岛闯关7-评测 InternLM-1.8B 实践

使用 OpenCompass 评测浦语 API 记录复现过程并截图。

2024-11-17 07:57:45 160

原创 书生大模型4期基础岛闯关6-XTuner 微调个人小助手认知

记录复现过程并截图。

2024-11-16 16:27:54 249

原创 书生大模型4期基础岛闯关4-InternLM + LlamaIndex RAG 实践

任务要求1(必做,参考readme_api.md):基于 LlamaIndex 构建自己的 RAG 知识库,寻找一个问题 A 在使用 LlamaIndex 之前 浦语 API 不会回答,借助 LlamaIndex 后 浦语 API 具备回答 A 的能力,截图保存。注意:写博客提交作业时切记不要泄漏自己 api_key!

2024-11-13 21:32:18 198

原创 书生大模型4期基础岛闯关3-LangGPT结构化提示词编写实践

个人感觉提示词的技巧是在有一个想法时,如何表达的逻辑清晰、具体是很重要的,让他人能理解到你所表达的信息,即写出好的提示词需要好的逻辑表达能力。任选下面其中1个任务基于LangGPT格式编写提示词 (优秀学员最少编写两组),使用书生·浦语大模型 进行对话评测。利用对提示词的精确设计,引导语言模型正确回答出“strawberry”中有几个字母“r”在写完提示词后,直接去问还是有错误,在经过和它交流,修正了它的逻辑,统计就正确了。提示词框架:CRISPE框架、CO-STAR框架、Role-based框架。

2024-11-10 11:04:26 319

原创 书生大模型4期基础岛闯关2-玩转书生「多模态对话」与「AI搜索」产品

基础任务MindSearch书生·浦语书生·万象进阶任务https://www.zhihu.com/question/1841339763/answer/26166179278

2024-11-08 14:09:42 248

原创 书生大模型4期基础岛闯关1-书生大模型全链路开源体系

介绍书生大模型全链路开源体系

2024-11-07 13:14:12 252

原创 书生大模型4期入门岛闯关4-玩转HF/魔搭/魔乐

深入探索如何充分利用 Hugging Face、魔搭社区和魔乐社区的资源和工具,学习模型下载、上传以及创建您的专属Space,玩转三大平台。

2024-10-24 15:32:54 395

原创 书生大模型4期入门岛闯关3-git

根据教程一步一步操作将https://github.com/InternLM/Tutorial/blob/camp4项目fork到自己的github上再将其拉到clone到vscode中根据要求格式创建md文件创建完成后将其push到github上。

2024-10-23 16:20:07 266

原创 书生大模型4期入门岛闯关2-python

书生大模型实战入门关卡2-python,https://github.com/InternLM/Tutorial/tree/camp4/docs/L0/Python

2024-10-23 11:17:59 432

原创 书生大模型4期入门岛闯关1-Linux+InternStudio

书生大模型学习班学习,学习资料:https://github.com/InternLM/Tutorial/blob/camp4/

2024-10-22 21:10:02 339 1

转载 第二章 程序语言基础知识

低级语言和高级语言汇编、解释、编译高级程序语言必须进行翻译才能为计算机硬件所理解,常用的翻译有汇编,解释和编译解释程序和编译程序编译和解释的区别编译和解释的比较。

2022-10-06 18:04:38 175

转载 第一章 计算机系统基础

备考数据库系统工程师笔记

2022-09-26 21:33:52 821

原创 js逆向-常见的加密算法

梳理js逆向基础知识,为爬虫抓包打好基础

2022-09-14 22:44:16 607

原创 概率论入门

学习刘嘉概率论进行的总结,是对自己学习知识的巩固,也是方便概率论入门同学参考,帮助建立概率论的框架,了解概率论的发展过程,及掌握概率轮的相关概念

2022-09-04 14:51:20 4535 1

原创 大数据工程专业技术证书考试-数据分析与应用

数据分析与应用根据大纲整理

2022-08-30 07:21:52 8383 3

原创 用openpyxl读取文件夹中excel到数据库

读取文件夹中excel到数据库

2022-08-12 13:01:51 473

原创 爬虫入门,了解爬虫机制

爬虫入门,了解爬虫机制

2022-07-26 08:01:02 511

根据黑马程序员的b站公开课整理的spark

主要介绍spark框架,原理及应用 适用于大数据开发人员

2025-02-11

自己总结的机器学习数学基础

机器学习数学基础 适用于机器学习初学者

2025-02-11

大数据领域中阿里巴巴数据体系架构及关键技术实践,涵盖数据采集、同步、建模与优化

阅读《大数据之路》整理的笔记 适用于大数据行业人员 设计数仓建模,数据开发,数据管理

2025-02-11

山东大数据考试。。。。。

山东大数据考试。。。。。

2022-08-29

客户流失情况分析,简单做下分析

从网上找的一个数据分析项目,涉及pandas,sklearn,matplotlib的使用

2022-08-21

数据分析思维笔记,不断提升自己

适合培养数据分析思维,数据分析学习路径 哔哩哔哩视频:【数据分析【数据分析思维与实战23讲】 https://www.bilibili.com/video/BV1FW4y1S7PX?p=25&share_source=copy_web&vd_source=8f9078186b93d9eee26026fd26e8a6ed

2022-08-20

爬虫笔记,自己学习爬虫时总结课程笔记

爬虫入门、了解爬虫概况

2022-07-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除