程序员转战大模型
文章平均质量分 87
这个合集名为程序员转战大模型,主要是帮助传统开发者转战到目前正🔥的 AI 领域,用最浅显易懂的话语来讲解。
后续还会有一个step by step以代码方式助你成为算法工程师!
更多请关注微 《程序员转战大模型》 信,您的支持是我创作的动力!
ox180x
更多请关注微 《程序员转战大模型》 信,您的支持是我创作的动力!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
CLIP、ViLT 与 LLaVA:多模态模型是如何看图说话的?
这三种模型可以形成一条多模态的发展路径:模型图文处理方式能力优点不足CLIP图文分开编码 + 对比学习图文检索、匹配训练数据丰富、表现稳定不会说话,只能匹配ViLT图文融合 + Transformer图文匹配、分类模型轻巧、统一结构图像理解能力弱,不生成语言LLaVA图像理解 + LLM生成图像问答、对话能看图说话、回答灵活拼接结构、效率较低至此,我们大致初步讲清楚了多模态的历史发展,以及从能力角度和痛点来进行还原与分析。目前多模态的发展也是很快的,例如。原创 2025-05-21 16:59:06 · 1447 阅读 · 0 评论 -
CNN vs ViT:图像世界的范式演进
想象你正在处理一张图片,比如一张猫的照片。你不是用人眼看,而是交给一个“滤镜系统”处理。这时候,卷积核就像是一组特定用途的图像滤镜,比如:有些滤镜专门“强调边缘”;有些滤镜“只在看到竖线时有反应”;有些滤镜“喜欢曲线”或“角落状的区域”;当你用这些滤镜一层层地扫描整张猫图时(如上图):第一层滤镜可能捕捉到了猫耳朵的轮廓、胡须的线条、眼睛的对比边缘;第二层把这些低级特征组合起来,形成“猫眼睛”或“猫耳朵区域”的高级特征;更深的层能捕捉出“这可能是一只猫”的抽象概念。这个过程可以理解成是。原创 2025-05-21 11:05:40 · 1088 阅读 · 0 评论 -
多模态大模型MLLM:不仅能聊,还能看,还能听!
在之前讲Word2Vec、Bert到ChatGPT,我们发现大模型虽然对文字理解表现不错,但是似乎无法理解图片。例如:“为什么 ChatGPT 看不懂截图?“为什么你上传的发票,Qwen3模型读不出金额?“Deepseek能写论文,但不会读一张图?为什么会这样?从根本来讲,大模型最初是为了“读文字”而设计的,而不是“看世界”。但现实世界远不止文本。发票、表格、网页、商品图片、甚至手写体文字,。如果模型不能“看图”,它就无法真正参与现实世界的任务。原创 2025-05-20 11:49:57 · 996 阅读 · 0 评论 -
如何让大模型更聪明?带你理解 RAG、MCP与微调
RAG是指Retrieval-Augmented Generation, 检索增强搜索,即在回复用户问题前,先进行搜索获取相关资料然后由大模型进行汇总整理输出答案给用户。RAG 的数据流程图(用户提问 → 检索 → 拼接prompt → 模型回答)针对R,这里其实是个比较老生常谈的话题。搜索领域,例如大家所知道的Google、Bing、Baidu搜索,技术上例如耳熟能详地关键词检索,使用ElasticSearch构建大数据搜索系统等等。原创 2025-05-19 17:24:04 · 1018 阅读 · 0 评论 -
9.11 > 9.8?错的不是模型,是你对它的期待
过去几年,大模型(LLM)几乎成了AI的代名词,从ChatGPT 到 Qwen、Claude,再到火出圈的DeepSeek,每一个新模型的发布都伴随着参数量的飞涨,百亿、千亿、万亿模型层出不穷。但很多开发者会有一个直观感受:“模型越来越大了,参数越来越多了,但为什么用起来仍然感觉它?能对对联,能写诗,但是对于一个简单的“9.11和9.8哪个大”都搞错。能上知天文,下知地理,但是仍可能会前言不搭后语。那么问题出在哪?原创 2025-05-19 14:03:52 · 995 阅读 · 0 评论 -
从 BERT 到大模型时代:AI 研究人员这几年都在忙什么?
在絮絮叨叨与压缩近来发展史导致不严谨、疏漏的前文下,我们也真切感受到了探索、失败、再来、小高潮、发展的过程,但这仅仅只是开始。你现在的加入,刚刚好。原创 2025-05-19 13:54:32 · 863 阅读 · 0 评论 -
从 Word2Vec 到 BERT:AI 不止是词向量,更是语言理解
在上篇文章中,我们介绍了Word2Vec以及它的作用,总的来说:Word2Vec是我们理解NLP的第一站Word2Vec将词变成了“向量”—— 终于可以用机器理解词语的相似度我们获得了例如“国王 - 男人 + 女人 ≈ 女王” 的类比能力我们可以将Word2Vec这种算法能力,应用到各种创新场景,例如基于Graph的推荐系统,后续如果小伙伴有需要,可以一起深入交流。但同时也指出了它的不足:一个词=一个固定向量(静态词向量)上下文无感知:“苹果”无论是手机还是水果,向量相同。原创 2025-05-19 13:42:59 · 1200 阅读 · 0 评论 -
[特殊字符] Word2Vec:将词映射到高维空间,它到底能解决什么问题?
在 Word2Vec 出现之前,自然语言处理更多是“工程方法”,例如字符串匹配、关键词提取、正则规则...。但这些表示通常缺乏语义,词与词之间看不出任何联系以及非常浅显。例如:关键词匹配非常快速和结果可控,算法层面例如AC自动机、Trie等。但同时也取决于用的人,例如早前“在港台电影中,刘德华为什么很少演反派?会出现“华为”相关内容,有网友指出是因为触发了关键词“华为”。TF-IDF的升级版BM25,广泛应用于搜索引擎,例如ElasticSearch。原创 2025-05-19 11:45:21 · 1126 阅读 · 0 评论 -
起点与破圈
作为一名拥有10年开发经验的“全栈工程师”,作者经历了从网站开发到大数据系统构建、服务器架构设计、数据库优化以及客户端应用开发等多个技术阶段。然而,随着技术深度的增加,作者感到传统开发技能更多是“技术体力劳动”,难以推动产品的质变,且个人成长速度放缓。在接触到NLP领域后,作者开始转向算法研究,并最终投身于大模型领域。这一转变不仅颠覆了作者对传统开发的理解,也为其打开了新的技术视角。本系列文章旨在帮助有Python和Web后端/数据开发经验的读者快速上手AI项目,无需深入数学和模型理论,即可具备实操能力。原创 2025-05-19 11:32:07 · 202 阅读 · 0 评论
分享