自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 收藏
  • 关注

原创 众数、中位数、平均数、百分位数

一组数据中,某个数据出现的次数称为这个数据的频数,出现次数最多的数据称为这组数据的众数。

2025-09-27 16:27:40 635

原创 标签编码(Label Encoding)

标签编码(Label Encoding)是一种数据预处理技术,它把分类变量(比如 “男”“女”)转换成机器学习模型可以理解的数值(比如 0、1)。

2025-09-25 09:55:09 308

原创 One-Hot 编码

One-Hot 编码是处理无序分类特征的 “标准操作”,它通过 “位置唯一标识” 的方式将类别转为数值,避免了整数编码的逻辑偏差。但在面对高基数特征时需谨慎,可结合嵌入编码或目标编码等更高效的方法。(注:文档部分内容可能由 AI 生成)

2025-09-19 09:27:25 1340

原创 什么是正态分布

正态分布本质是描述 “数据围绕均值对称分散” 的概率模型,其核心是钟形曲线和均值、标准差两个参数。它不仅是理解随机现象的基础,更是从数据中挖掘规律、进行预测和决策的核心工具,贯穿于科学研究与实际应用的方方面面。

2025-09-18 23:17:21 2137

原创 生成式AI与分析式AI的区别

生成式AI的核心功能是创造新内容,包括文本、图像、音乐、代码等。它通过分析大量数据学习模式,并生成类似但全新的输出。典型模型如GPT系列、DALL·E、Stable Diffusion。生成式AI的底层技术通常基于生成对抗网络(GAN)或变分自编码器(VAE)。分析式AI专注于从现有数据中提取洞察、分类或预测结果。其核心任务是理解、解释或优化数据,而非创造新内容。典型应用包括推荐系统、欺诈检测、预测分析等。常用技术涵盖决策树、支持向量机(SVM)和传统统计模型。两类AI常结合使用。

2025-09-18 15:40:13 721

原创 Kaggle 是什么?

Kaggle 是全球知名的数据科学和机器学习竞赛平台,由 Anthony Goldbloom 于 2010 年创立,2017 年被 Google 收购。平台提供数据集、代码共享、竞赛和协作工具,旨在帮助数据科学家和机器学习从业者提升技能并解决实际问题。

2025-09-17 20:10:53 844

原创 RAG是什么?

RAG是一种结合检索(Retrieval)与生成(Generation)的AI模型框架,旨在通过外部知识库增强生成模型的输出质量。其核心思想是在生成答案前,先从大型文档集合中检索相关信息,再基于检索内容生成更准确、可靠的回答。检索到的文档与用户问题一起输入生成模型(如GPT系列),模型结合检索内容和自身知识生成最终答案。无需重新训练模型,仅需更新检索库即可扩展知识范围,解决传统大语言模型(LLM)静态知识的局限性。相比纯生成模型,RAG减少了对海量参数的需求,通过检索精准信息降低计算开销。

2025-09-17 19:52:43 578

原创 大模型中token与tokenizer的区别

在大模型(如GPT系列)中,是文本处理的最小单位。模型将输入的文本分割成token序列,每个token对应一个唯一的整数ID,用于模型的内部处理。例如,英文单词"apple"可能被编码为一个token,而较长单词或短语可能被拆分为多个token。

2025-09-16 13:10:40 303

原创 MinerU本地化部署

支持多模态 PDF(含图片、表格、公式等)的结构化转换。自动去除页眉、页脚、脚注等干扰信息,保留标题、段落、列表等结构。MinerU 专注于高效解析和提取复杂的 PDF 文档、网页和电子书,并将其转换为易于分析的 Markdown 或 JSON 格式。• 电子书转换:支持epub、mobi、docx、pptx、chm、azw等格式批量转Markdown。• 网页内容提取:从网页中剔除广告等干扰信息,精准提取正文、评论、视频文字等内容。布局检测:基于LayoutLMv3微调,识别文本、表格、图片等区域。

2025-08-30 16:20:47 443

原创 使用LangChain搭建一个简单的模型应用

LangChain是一个用于开发语言模型(LLM)驱动应用程序的开源框架。它通过模块化设计,帮助开发者将大型语言模型(如GPT-3、Claude等)与外部数据源、工具或工作流结合,构建更复杂的应用场景,如问答系统、自动化代理、数据分析工具等。

2025-08-27 18:15:01 351

原创 ModelScope介绍

ModelScope 作为国内重要的模型开放平台,为AI开发者提供了丰富的资源和便捷的工具,大大降低了AI技术的应用门槛。ModelScope 是,由阿里巴巴集团旗下的通义实验室推出的模型开放平台。它致力于为开发者和研究者提供一站式模型服务,包括模型探索、推理、训练、部署和应用。

2025-08-23 16:21:31 240

原创 在通义灵码中配置MCP服务

打开,找到自己想调用的第三方工具,以高德地图为例,点击高德地图。点击右侧的SSE,输入高德的api_key,就会显示出下图所示的json,这个是高德地图MCP SSE协议的连接方式。

2025-08-22 23:23:27 483

原创 AI Agent与LLM区别

‌大模型(如GPT、BERT)‌。‌定义‌:基于海量数据预训练的语言模型,擅长文本生成、翻译、问答等自然语言处理任务。‌‌‌功能局限‌:依赖用户输入的明确提示(Prompt),输出质量受提示清晰度影响,无法自主执行物理或虚拟环境中的动作。‌定义‌:以大模型为核心,整合感知、记忆、工具调用和行动模块的智能系统,可独立完成复杂任务(如订票、数据分析)。‌‌‌功能扩展。

2025-08-21 13:01:20 412

原创 实战:本地大模型+function Calling,获取北京天气

‌ 是大型语言模型(LLM)连接外部工具和系统的核心技术,通过结构化参数生成实现模型与真实世界交互的能力。‌。

2025-08-20 18:57:09 237

原创 实战:本地大模型+Qwen Agent+本地数据库,高校录取助手

使用 ollama 运行 qwen2:7b。

2025-08-18 17:06:55 359

原创 实战:macOS Ollama本地部署deepseek-r1:1.5b

地址:https://ollama.com/download。

2025-08-17 15:11:01 830

原创 实战:Text2SQL

主要部署到企业中,私有搭建。QWen 3,提供各种尺寸的模型8B、32B、mini MOE等。

2025-08-13 18:54:53 503

原创 macos mysql忘记密码,如何重置

1、通过系统偏好设置关闭MySQL服务(Stop MySQL Server)

2025-08-13 18:19:46 194 2

原创 大模型中的Token指的是什么?

‌Token(词元)是大语言模型(如GPT、BERT等)处理文本时的基础单元,其作用类似于人类语言中的“词汇”或“字词组合”。它通过将文本分割为离散的语义块,使模型能够将非结构化的语言转化为可计算的数值向量。‌‌。

2025-08-12 15:16:19 333

原创 NativeRAG的实现过程

• 向量化处理:使用嵌入模型(如BGE、M3E、Chinese-Alpaca-2等)将文本块转换为向量,并存储在向 量数据库中。• 向量化处理:使用嵌入模型(如BGE、M3E、Chinese-Alpaca-2等)将文本块转换为向量,并存储在向 量数据库中。• 文档分块:将文档切分为适当大小的片段(chunks),以便后续检索。• 文档分块:将文档切分为适当大小的片段(chunks),以便后续检索。• 查询处理:将用户输入的问题转换为向量,并在向量数据库中 进行相似度检索,找到最相关的文本片段。

2025-08-09 11:07:21 191

原创 常见的向量数据库

特点:开源,支持分布式架构和动态数据更新。优势:具备强大的扩展性和灵活的数据管理功能。特点:由Facebook开发,专注于高性能的相似性搜索, 适合大规模静态数据集。特点: 强大的分布式搜索和分析引擎,将向量搜索 (k-NN)作为其众多功能之一。优势: 具备业界领先的混合搜索能力,可以无缝结合传统的。局限性:主要用于静态数据,更新和删除操作较复杂。优势:完全托管,易于部署,适合大规模生产环境。优势:检索速度快,支持多种索引类型。向量数据库,支持高性能的向量搜索。

2025-08-02 16:58:49 220

原创 TF-IDF 算法原理以及源码实现

看完TF的计算之后,我们看一下IDF的定义,公式和对应的实现吧,IDF的定义是:即逆文档频率,也可以叫词的区分度,反映了词的稀有程度,IDF越高,说明词越稀有。注意:(t,d)中的t表示的是文档中的词汇,d表示的是文档的词汇集合,通过计算TF也就是进行词频率的统计,好的,那么看一下代码的实现。第三种情况(TF高+ IDF低)‌:常见词(如标点符号)虽全局分布广,但因IDF低,最终得分应该被抑制。其中,( D )是词总数,( df_t )是包含词( t )的词数量。好的,最后看一下TF-IDF的公式吧,

2025-07-31 23:06:06 401

原创 日志分析工具traceView

后续添加。

2016-03-03 11:02:54 511

原创 静态代码扫描--OCLint

1、下载https://github.com/oclint/oclint/releases2、规则http://docs.oclint.org/en/stable/rules/index.html3、使用说明:http://docs.oclint.org/en/stable/4、安装xcprettygem install xcpretty5、配置环境变量OCLI

2016-03-03 09:59:57 706

原创 静态代码扫描--Clang Static Analyze

最新版本的XCode已经集成了Clang Static Analyzer工具,具体使用可以参考苹果官网:https://developer.apple.com/legacy/library/featuredarticles/StaticAnalysis/FeaturedArticle.html通过Xcode来使用1、Xcode—>product—>analy

2016-03-03 09:59:07 2187

原创 静态代码扫描工具-Faux Pas

下载地址:http://fauxpasapp.com/try/Faux Pas功能如下:CodeProject configuration (e.g. build settings)Interface Builder filesStatic assets (e.g. images)Version control使用方法:打开Faux Pas--> Open Proj

2016-03-03 09:54:23 780

原创 页面响应时间计算

页面响应时间 ,就是结束位置与起始位置的时间差而已。可以使用录屏的方式录制视频,然后通过导成图片的方式查看起始位置与结束位置,最后算出时间差。但是这种方法不高效。1、下载地址:http://www.macroplant.com/adapter/2、使用方法:1)拖动 mov文件至adapter中2)、设置export frame rate,设置成【100、images

2016-02-23 09:57:36 3245

原创 charles使用方法

1、下载:http://www.charlesproxy.com/download/2、安装:3、破解方法:下载jar包,地址为:http://download.youkuaiyun.com/detail/menongeroj/9387872替换方法:3、配置:在下图中的Proxy Settings中可以配置端口4、截取到的数据,如下图所示

2016-02-23 09:51:57 450

原创 使用appium进行iOS App测试

环境准备mac笔记本通过USB连接手机安装ideviceinstaller参考:http://macappstore.org/ideviceinstaller/appium如何查看控件1)、打开 appium—>mac设置,弹出如下图所示的界面,添加并勾选BundleID、UDID2)、打开 appium—>设置,弹出如下图所示的界面,勾选Prelaunch Applica

2016-02-23 09:48:40 744

原创 (Android)代码覆盖率统计

使用JaCoCo进行代码覆盖率

2016-02-23 09:37:55 3136

原创 Android静态代码检查

准备环境1、  安装SDK此处忽略2、  安装gradle1)、下载:从http://gradle.org/gradle-download/中下载gradle2)、存放到本地把下载的gradle文件存放到本地,例如:D:\Program Files\gradle-2.83)、配置环境变量在path中加入gradle地址

2016-02-23 09:36:27 1758

原创 IOS通过AirServer录屏

环境准备:确保mac与手机同在一个局域网内具体步骤:1、下载:http://bbs.feng.com/read-htm-tid-8608146.html,选择AirServer 6.0.3.dmg  进行下载。2、安装:下载之后,点击进行安装。3、打开AirServer:在LaunchPad中打开AirServer,会在屏幕右上角中显示,

2016-02-23 09:35:03 2441

原创 iOS非wifi下查看H5详情

方式:真机与mac全部使用Safari查看H5网络请求H5详情:步骤: iOS设备中Settings > Safari > Advanced > Web Inspector to enable Web Inspector在iOS设备中打开Safari.把手机通过USB线连上mac.在mac中打Safari.在Safari-->偏好设置-->高级中

2016-02-23 09:33:27 363

原创 android非wifi下查看H5详情

目的:由于在wifi的情况,一般通过增加代理方式使用Fiddler、Charles抓包查看请求的响应时间与流量,但是4G时如果没有公网的PC的话,就没有办法获取请求的流量与响应时间了。解决办法:手机与PC上面各装上chrome,通过USB连接线查看4G、3G的环境下的请求情况。具体步骤:1、pc端安装最新的chrome2、手机端安装最新的chrome ( Andro

2016-02-23 09:30:59 740

原创 视频录制命令 screenrecord

帮助:adb shell screenrecord --help用法:adb shell screenrecord 参数 .mp4文件名与路径Usage: screenrecord [options] 参数:--size WIDTHxHEIGHT 分辨率大小,adb shell screenrecord --size 1280x720例如:128

2015-08-26 15:35:08 593

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除