- 博客(35)
- 收藏
- 关注
原创 标签编码(Label Encoding)
标签编码(Label Encoding)是一种数据预处理技术,它把分类变量(比如 “男”“女”)转换成机器学习模型可以理解的数值(比如 0、1)。
2025-09-25 09:55:09
308
原创 One-Hot 编码
One-Hot 编码是处理无序分类特征的 “标准操作”,它通过 “位置唯一标识” 的方式将类别转为数值,避免了整数编码的逻辑偏差。但在面对高基数特征时需谨慎,可结合嵌入编码或目标编码等更高效的方法。(注:文档部分内容可能由 AI 生成)
2025-09-19 09:27:25
1340
原创 什么是正态分布
正态分布本质是描述 “数据围绕均值对称分散” 的概率模型,其核心是钟形曲线和均值、标准差两个参数。它不仅是理解随机现象的基础,更是从数据中挖掘规律、进行预测和决策的核心工具,贯穿于科学研究与实际应用的方方面面。
2025-09-18 23:17:21
2137
原创 生成式AI与分析式AI的区别
生成式AI的核心功能是创造新内容,包括文本、图像、音乐、代码等。它通过分析大量数据学习模式,并生成类似但全新的输出。典型模型如GPT系列、DALL·E、Stable Diffusion。生成式AI的底层技术通常基于生成对抗网络(GAN)或变分自编码器(VAE)。分析式AI专注于从现有数据中提取洞察、分类或预测结果。其核心任务是理解、解释或优化数据,而非创造新内容。典型应用包括推荐系统、欺诈检测、预测分析等。常用技术涵盖决策树、支持向量机(SVM)和传统统计模型。两类AI常结合使用。
2025-09-18 15:40:13
721
原创 Kaggle 是什么?
Kaggle 是全球知名的数据科学和机器学习竞赛平台,由 Anthony Goldbloom 于 2010 年创立,2017 年被 Google 收购。平台提供数据集、代码共享、竞赛和协作工具,旨在帮助数据科学家和机器学习从业者提升技能并解决实际问题。
2025-09-17 20:10:53
844
原创 RAG是什么?
RAG是一种结合检索(Retrieval)与生成(Generation)的AI模型框架,旨在通过外部知识库增强生成模型的输出质量。其核心思想是在生成答案前,先从大型文档集合中检索相关信息,再基于检索内容生成更准确、可靠的回答。检索到的文档与用户问题一起输入生成模型(如GPT系列),模型结合检索内容和自身知识生成最终答案。无需重新训练模型,仅需更新检索库即可扩展知识范围,解决传统大语言模型(LLM)静态知识的局限性。相比纯生成模型,RAG减少了对海量参数的需求,通过检索精准信息降低计算开销。
2025-09-17 19:52:43
578
原创 大模型中token与tokenizer的区别
在大模型(如GPT系列)中,是文本处理的最小单位。模型将输入的文本分割成token序列,每个token对应一个唯一的整数ID,用于模型的内部处理。例如,英文单词"apple"可能被编码为一个token,而较长单词或短语可能被拆分为多个token。
2025-09-16 13:10:40
303
原创 MinerU本地化部署
支持多模态 PDF(含图片、表格、公式等)的结构化转换。自动去除页眉、页脚、脚注等干扰信息,保留标题、段落、列表等结构。MinerU 专注于高效解析和提取复杂的 PDF 文档、网页和电子书,并将其转换为易于分析的 Markdown 或 JSON 格式。• 电子书转换:支持epub、mobi、docx、pptx、chm、azw等格式批量转Markdown。• 网页内容提取:从网页中剔除广告等干扰信息,精准提取正文、评论、视频文字等内容。布局检测:基于LayoutLMv3微调,识别文本、表格、图片等区域。
2025-08-30 16:20:47
443
原创 使用LangChain搭建一个简单的模型应用
LangChain是一个用于开发语言模型(LLM)驱动应用程序的开源框架。它通过模块化设计,帮助开发者将大型语言模型(如GPT-3、Claude等)与外部数据源、工具或工作流结合,构建更复杂的应用场景,如问答系统、自动化代理、数据分析工具等。
2025-08-27 18:15:01
351
原创 ModelScope介绍
ModelScope 作为国内重要的模型开放平台,为AI开发者提供了丰富的资源和便捷的工具,大大降低了AI技术的应用门槛。ModelScope 是,由阿里巴巴集团旗下的通义实验室推出的模型开放平台。它致力于为开发者和研究者提供一站式模型服务,包括模型探索、推理、训练、部署和应用。
2025-08-23 16:21:31
240
原创 在通义灵码中配置MCP服务
打开,找到自己想调用的第三方工具,以高德地图为例,点击高德地图。点击右侧的SSE,输入高德的api_key,就会显示出下图所示的json,这个是高德地图MCP SSE协议的连接方式。
2025-08-22 23:23:27
483
原创 AI Agent与LLM区别
大模型(如GPT、BERT)。定义:基于海量数据预训练的语言模型,擅长文本生成、翻译、问答等自然语言处理任务。功能局限:依赖用户输入的明确提示(Prompt),输出质量受提示清晰度影响,无法自主执行物理或虚拟环境中的动作。定义:以大模型为核心,整合感知、记忆、工具调用和行动模块的智能系统,可独立完成复杂任务(如订票、数据分析)。功能扩展。
2025-08-21 13:01:20
412
原创 实战:本地大模型+function Calling,获取北京天气
是大型语言模型(LLM)连接外部工具和系统的核心技术,通过结构化参数生成实现模型与真实世界交互的能力。。
2025-08-20 18:57:09
237
原创 大模型中的Token指的是什么?
Token(词元)是大语言模型(如GPT、BERT等)处理文本时的基础单元,其作用类似于人类语言中的“词汇”或“字词组合”。它通过将文本分割为离散的语义块,使模型能够将非结构化的语言转化为可计算的数值向量。。
2025-08-12 15:16:19
333
原创 NativeRAG的实现过程
• 向量化处理:使用嵌入模型(如BGE、M3E、Chinese-Alpaca-2等)将文本块转换为向量,并存储在向 量数据库中。• 向量化处理:使用嵌入模型(如BGE、M3E、Chinese-Alpaca-2等)将文本块转换为向量,并存储在向 量数据库中。• 文档分块:将文档切分为适当大小的片段(chunks),以便后续检索。• 文档分块:将文档切分为适当大小的片段(chunks),以便后续检索。• 查询处理:将用户输入的问题转换为向量,并在向量数据库中 进行相似度检索,找到最相关的文本片段。
2025-08-09 11:07:21
191
原创 常见的向量数据库
特点:开源,支持分布式架构和动态数据更新。优势:具备强大的扩展性和灵活的数据管理功能。特点:由Facebook开发,专注于高性能的相似性搜索, 适合大规模静态数据集。特点: 强大的分布式搜索和分析引擎,将向量搜索 (k-NN)作为其众多功能之一。优势: 具备业界领先的混合搜索能力,可以无缝结合传统的。局限性:主要用于静态数据,更新和删除操作较复杂。优势:完全托管,易于部署,适合大规模生产环境。优势:检索速度快,支持多种索引类型。向量数据库,支持高性能的向量搜索。
2025-08-02 16:58:49
220
原创 TF-IDF 算法原理以及源码实现
看完TF的计算之后,我们看一下IDF的定义,公式和对应的实现吧,IDF的定义是:即逆文档频率,也可以叫词的区分度,反映了词的稀有程度,IDF越高,说明词越稀有。注意:(t,d)中的t表示的是文档中的词汇,d表示的是文档的词汇集合,通过计算TF也就是进行词频率的统计,好的,那么看一下代码的实现。第三种情况(TF高+ IDF低):常见词(如标点符号)虽全局分布广,但因IDF低,最终得分应该被抑制。其中,( D )是词总数,( df_t )是包含词( t )的词数量。好的,最后看一下TF-IDF的公式吧,
2025-07-31 23:06:06
401
原创 静态代码扫描--OCLint
1、下载https://github.com/oclint/oclint/releases2、规则http://docs.oclint.org/en/stable/rules/index.html3、使用说明:http://docs.oclint.org/en/stable/4、安装xcprettygem install xcpretty5、配置环境变量OCLI
2016-03-03 09:59:57
706
原创 静态代码扫描--Clang Static Analyze
最新版本的XCode已经集成了Clang Static Analyzer工具,具体使用可以参考苹果官网:https://developer.apple.com/legacy/library/featuredarticles/StaticAnalysis/FeaturedArticle.html通过Xcode来使用1、Xcode—>product—>analy
2016-03-03 09:59:07
2187
原创 静态代码扫描工具-Faux Pas
下载地址:http://fauxpasapp.com/try/Faux Pas功能如下:CodeProject configuration (e.g. build settings)Interface Builder filesStatic assets (e.g. images)Version control使用方法:打开Faux Pas--> Open Proj
2016-03-03 09:54:23
780
原创 页面响应时间计算
页面响应时间 ,就是结束位置与起始位置的时间差而已。可以使用录屏的方式录制视频,然后通过导成图片的方式查看起始位置与结束位置,最后算出时间差。但是这种方法不高效。1、下载地址:http://www.macroplant.com/adapter/2、使用方法:1)拖动 mov文件至adapter中2)、设置export frame rate,设置成【100、images
2016-02-23 09:57:36
3245
原创 charles使用方法
1、下载:http://www.charlesproxy.com/download/2、安装:3、破解方法:下载jar包,地址为:http://download.youkuaiyun.com/detail/menongeroj/9387872替换方法:3、配置:在下图中的Proxy Settings中可以配置端口4、截取到的数据,如下图所示
2016-02-23 09:51:57
450
原创 使用appium进行iOS App测试
环境准备mac笔记本通过USB连接手机安装ideviceinstaller参考:http://macappstore.org/ideviceinstaller/appium如何查看控件1)、打开 appium—>mac设置,弹出如下图所示的界面,添加并勾选BundleID、UDID2)、打开 appium—>设置,弹出如下图所示的界面,勾选Prelaunch Applica
2016-02-23 09:48:40
744
原创 Android静态代码检查
准备环境1、 安装SDK此处忽略2、 安装gradle1)、下载:从http://gradle.org/gradle-download/中下载gradle2)、存放到本地把下载的gradle文件存放到本地,例如:D:\Program Files\gradle-2.83)、配置环境变量在path中加入gradle地址
2016-02-23 09:36:27
1758
原创 IOS通过AirServer录屏
环境准备:确保mac与手机同在一个局域网内具体步骤:1、下载:http://bbs.feng.com/read-htm-tid-8608146.html,选择AirServer 6.0.3.dmg 进行下载。2、安装:下载之后,点击进行安装。3、打开AirServer:在LaunchPad中打开AirServer,会在屏幕右上角中显示,
2016-02-23 09:35:03
2441
原创 iOS非wifi下查看H5详情
方式:真机与mac全部使用Safari查看H5网络请求H5详情:步骤: iOS设备中Settings > Safari > Advanced > Web Inspector to enable Web Inspector在iOS设备中打开Safari.把手机通过USB线连上mac.在mac中打Safari.在Safari-->偏好设置-->高级中
2016-02-23 09:33:27
363
原创 android非wifi下查看H5详情
目的:由于在wifi的情况,一般通过增加代理方式使用Fiddler、Charles抓包查看请求的响应时间与流量,但是4G时如果没有公网的PC的话,就没有办法获取请求的流量与响应时间了。解决办法:手机与PC上面各装上chrome,通过USB连接线查看4G、3G的环境下的请求情况。具体步骤:1、pc端安装最新的chrome2、手机端安装最新的chrome ( Andro
2016-02-23 09:30:59
740
原创 视频录制命令 screenrecord
帮助:adb shell screenrecord --help用法:adb shell screenrecord 参数 .mp4文件名与路径Usage: screenrecord [options] 参数:--size WIDTHxHEIGHT 分辨率大小,adb shell screenrecord --size 1280x720例如:128
2015-08-26 15:35:08
593
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
2