
数据挖掘
文章平均质量分 74
robot_learner
留美博士,AI专家,《人工智能原理与实践》作者
展开
-
程序员必备技巧:Git 和 GitHub 中高效地将单个文件还原为特定提交
由该领域的领先专家撰写,这本综合指南涵盖了从机器学习的基础知识到构建智能系统的高级技术的所有内容。在文件上方,您应该会看到一个 7 位数字的提交 ID 和一个日期,指示修改文件的最近一次提交。这可以在您发现文件的提交 ID 的同一 GitHub 屏幕上找到。确保只复制没有工作目录名称的路径,因为它将是您在使用此文件路径时所在的目录。Git 和 GitHub 用于存储您的旧代码,允许您在出现问题时回滚并安全地恢复以前的准确代码。恢复文件后,有必要提交更改,在本例中,这是对单个文件的恢复。原创 2023-04-14 04:30:14 · 868 阅读 · 0 评论 -
更多更长,1分钟总结新版GPT4的主要特点
最具颠覆性特点,相比之前chatGPT最多输入4000 tokens的字数限制,新版GPT4最多能让用户输入3万2千token(大概50页英文文字长度。所以写长篇小说没有问题了。原创 2023-03-15 08:30:55 · 5320 阅读 · 0 评论 -
python 一点通:CURL 和 python requests的相互转换
curl和 Python requests都是发送 HTTP 请求的强大工具。虽然 curl 是一种命令行工具,可让您直接从终端发送请求,但 Python 的请求库提供了一种更具编程性的方式来从 Python 代码中发送请求。在本文中,我们将探讨如何在 curl 和 Python 请求之间进行转换,以便您可以使用最适合您的工作流程的工具。原创 2023-03-13 04:50:59 · 6736 阅读 · 0 评论 -
data or json? Python requests 库 中发送带有 JSON 数据的 HTTP POST 请求
HTTP POST 请求是从客户端应用程序向 Web 服务器发送数据的常用方法。当将 JSON 数据作为 POST 请求的主体发送时,Python 中的 requests 库提供了两种选择:使用 json 参数或手动将有效负载字典转换为 JSON 字符串并使用 data 参数。在这篇文章中,我们将讨论这两个选项以及何时使用每个选项。原创 2023-03-13 04:31:05 · 1500 阅读 · 0 评论 -
Python一点通:一行代码搞定列表去重和维持原始顺序
在Python中处理列表时,您可能会遇到需要在保持元素原始顺序的情况下删除重复项的情况。在本博客文章中,我们将探讨如何使用一行Python代码实现此操作以及为什么我们可以在Python 3.7及以上版本中这样做。如果我们想要在此列表中删除重复项,我们可以使用内置的set()函数。这将创建一个仅包含my_list中唯一元素的新列表。然而,此方法不会保持元素的原始顺序。新列表中元素的顺序将是任意的。原创 2023-03-02 08:38:24 · 524 阅读 · 0 评论 -
AI一点通:一文讲清推荐系统的两塔系统(two tower system)
两塔推荐系统是一种在推荐系统中使用的协同过滤算法。它被称为“两塔”系统,因为它由两个神经网络或“塔”组成,这两个网络共同工作以为用户生成个性化推荐。原创 2023-02-27 07:11:36 · 1022 阅读 · 0 评论 -
广告排名、平衡相关性和出价以获得最佳结果的一般规则
广告排名是在线广告中的一个重要方面,它影响展示广告的网站和创建广告的广告主。为了优化广告排名,网站需要平衡不同因素,如广告相关性和出价,以确保向用户展示最有价值和相关的广告。广告相关性是广告排名中最重要的因素之一。用户更有可能与与他们的兴趣、需求和搜索查询相关的广告互动。因此,网站需要评估广告的质量并优先考虑最相关于用户的广告。这可以通过使用算法来实现,该算法考虑了多个因素,如点击率、广告质量分数和用户人口统计信息。另一个需要考虑的重要因素是出价。原创 2023-02-23 09:41:55 · 273 阅读 · 0 评论 -
AlphaGo 和 ChatGPT有何相似之处? 附AlphaGo核心算法开源链接
AlphaGo 和 ChatGPT 是迄今为止最著名、最具开创性的两个 AI 系统之一。尽管它们被设计用于不同的目的,但它们共享一些重要的相似之处,包括使用深度学习、神经网络以及专注于达到人类水平表现等。而不久前, DeepMind 悄悄开源了AlphaGo的核心算法。原创 2023-02-17 09:33:23 · 6406 阅读 · 3 评论 -
AI一点通:使用 ColumnTransformer 转换 Pandas DataFrame 的一个或多个列
在处理表格数据时,常常需要对一个或多个列进行转换以使它们更适合于分析或建模。在许多情况下,可以使用 Pandas 库轻松完成这些转换。然而,在处理大型数据集或构建机器学习管道时,使用 scikit-learn 的 ColumnTransformer 类来将转换应用于数据的特定列可能更有效。原创 2023-02-15 11:06:51 · 1419 阅读 · 2 评论 -
ChatGPT 的未来挑战和风险
ChatGPT火爆全场,但是机遇和风险并存原创 2023-02-11 11:43:22 · 11047 阅读 · 2 评论 -
Python一点通: ‘python -m pip install’ 和 ‘pip install‘ 什么区别?
在 Python 中安装包可以使用包管理器 pip。有两种方法运行 pip 来安装包:python -m pip install 和 pip install。在本文中,我们将讨论这两者的区别。原创 2023-02-09 09:11:11 · 14306 阅读 · 2 评论 -
机器学习最好用的scikit-learn中的pipeline操作区别彻底搞清
scikit-learn 中的pipeline是一个实用程序类,可帮助将 ML 工作流的多个步骤组装到单个 scikit-learn estimator中。 pipeline由一系列转换或预处理步骤组成,然后是根据转换后的数据进行预测的estimator。 pipeline通过自动化转换数据和训练模型所涉及的步骤来帮助简化 ML 过程。 pipeline还确保数据在整个工作流程中得到一致处理,并有助于防止pipeline不同阶段之间的数据泄漏。 流水线类是封装整个机器学习流程的便捷工具,可以更方便地管理和共原创 2023-02-08 02:54:44 · 1168 阅读 · 1 评论 -
PySpark 中如何使用来自另一个数据框的列所在的独特值过滤数据框
AI日新月异,但是万丈高楼拔地起,离不开良好的基础。您是否有兴趣了解人工智能的原理和实践?不要再观望!我们关于 AI 原则和实践的书是任何想要深入了解 AI 世界的人的完美资源。由该领域的领先专家撰写,这本综合指南涵盖了从机器学习的基础知识到构建智能系统的高级技术的所有内容。无论您是初学者还是经验丰富的 AI 从业者,本书都能满足您的需求。那为什么还要等?立即下单,开始以一种易于访问、引人入胜且实用的方式学习 AI。人工智能原理与实践 全面涵盖人工智能和数据科学各个重要体系经典。原创 2023-01-29 04:31:30 · 620 阅读 · 0 评论 -
使用深度学习嵌入和 FAISS 进行实时内存语义搜索
我们使用基于BERT的句子转换器对短文本进行编码,然后使用内存搜索引擎 FAISS 对结果进行索引;最终很容易的在 CPU 平台上实现语义搜索的实时查找。原创 2023-01-18 09:47:35 · 360 阅读 · 0 评论 -
关于GPT4,我们都知道什么?
我们生活在一个AI激动人心的时代,你会不停看到各种新型模型的推出,它们彻底改变了 AI 领域。2022 年 7 月,OpenAI 推出了DALLE2,这是一种最先进的文本到图像模型。几周后,Stability.AI 推出了 DALLE-2 的开源版本,名为Stable Diffusion。这两种模型都很受欢迎,并且在质量和理解提示的能力方面都显示出可喜的结果。原创 2023-01-16 02:42:30 · 8941 阅读 · 4 评论 -
ChatGPT 能干掉谷歌吗?
人工智能正在颠覆一切,甚至是数万亿美元的企业。原创 2023-01-09 01:14:47 · 1562 阅读 · 0 评论 -
如何利用深度学习中的AutoEncoder进行特征降维和特征可视化,pytorch代码
我们将使用 Pytorch 中的 AutoEncoder(自动编码器架构)来减少特征维度和可视化。首先,要安装 PyTorch,您可以使用以下 pip 命令,包含可在 PyTorch 中使用的图像数据集。原创 2022-12-20 11:33:22 · 2177 阅读 · 0 评论 -
GPT3动口,RT-1动手,智能机器人开卷; 代码开源!
为了进一步推动 RT-1,我们使用从另一个机器人收集的数据对其进行训练,以测试 (1) 模型在出现新数据源时是否保持其在原始任务上的性能,以及 (2) 模型是否在泛化方面得到提升具有新的和不同的数据,这两者对于通用机器人学习模型都是可取的。具体来说,我们使用在QT-Opt 项目的固定底座Kuka 手臂上自主收集的 209k 次不加区别的抓握事件. 我们转换收集的数据以匹配我们使用 EDR 收集的原始数据集的动作规范和边界,并用任务指令“选择任何东西”标记每一集(Kuka 数据集没有对象标签)。原创 2022-12-16 12:05:31 · 1057 阅读 · 1 评论 -
最常见,难度系数高,码工面试题总结,试试你的算法水平?
下面是常见和较难的科技公司算法面试题总结,代码见文末。原创 2022-12-15 08:01:35 · 284 阅读 · 0 评论 -
免费搜索vs付费搜索:百度谷歌的有力竞争者刚刚出现!
搜索引擎的游戏刚刚被改变!人们对昨天(12月1号)OpenAI 发布的最新聊天机器人产品的反应非常积极。想要体验它的人数之多使网站崩溃了一整天,足以证明该产品的受欢迎程度。很明显,人们很高兴探索这项技术的潜力,并了解如何使用它来帮助改善他们的生活。多年来,谷歌和百度等搜索引擎巨头一直在努力更好地了解用户的意图。搜索引擎不再只是搜索特定的关键字,而是越来越原创 2022-12-03 12:36:58 · 1278 阅读 · 0 评论 -
AI内容生成时代:该如何和AI对话?
一幅新艺术风格的画作,画的是年轻漂亮的章子怡,身着中国传统朴素的高领绣花真丝长袍,面前是虎龙雕花屏风,繁复、细致、流畅、复杂、精致, 阿尔方斯·慕夏、詹姆斯·格尼和约翰·威廉·沃特豪斯)(翻译:年轻漂亮的棕色女人晚上带着她的狗在墨西哥梅里达的一个公园里散步,满月,插图,真实感,幻想,趋势。原创 2022-11-25 10:45:55 · 2055 阅读 · 0 评论 -
2022世界杯结果预测,简单AI模型最有效?附代码!
如果我们将此predict_points函数应用于小组赛阶段的所有比赛,我们将获得每个小组的第 1 和第 2 名,从而在淘汰赛中获得以下比赛对抗阵容。在我对欧洲前 4 联赛的预测中,我考虑了主客场因素,但由于在世界杯上几乎所有球队都在中立场地比赛,因此我在分析时没有考虑这个因素。在收集了 1930 年到 2018 年所有世界杯比赛的数据后,我可以计算出每个国家队的平均进球数和失球数。一旦我获得了每支国家队的进球数/失球数,我就创建了一个函数来预测每支球队在小组赛阶段将获得的积分数。这将我们带到下一点。原创 2022-11-21 03:16:35 · 12255 阅读 · 5 评论 -
AI图像合成技术如何用于数字营销和创意领域?
OpenAI 的 DALL·E 2 以及我们现在看到的其他许多基于 AI 的图像生成模型的进步无疑令人印象深刻,我认为它们在数字营销和创意领域中的作用更多的是支持,而不是对基于创意和营销的角色的直接威胁。在图像采购方面,ShutterStock、iStockPhotos 或 Unsplash 等库存照片库通常是流行的选择,但我们可能会看到人们越来越多地转向 DALL·E 2 之类的工具,以寻求更快、成本更低的替代方案,以及创建真正独特的图像,在网上其他任何地方都不存在。这是一个人从山谷中向外看的照片示例。原创 2022-11-04 21:14:46 · 1211 阅读 · 0 评论 -
如何在 Python 中引发错误之前使用 try 和 catch 多次调用函数
这是我们可能正在做的一项任务:在 for 循环中抓取一些网页。然后其中一个页面发生了一些错误, 然后整个过程中断,我们还没有将结果存储到磁盘。所以我们必须再次重新启动该过程。我们为什么不多次重试其中一个步骤,我们可能会在第二次做对呢?这是一个函数示例,在最终引发错误之前,使用 try 和 catch 块多次运行相同的任务。{}原创 2022-10-29 11:46:48 · 1399 阅读 · 0 评论 -
9个小时即获超2千star, OpenAI最新开源语音识别模型,附链接
语音识别在人工智能和机器学习中仍然是一个具有挑战性的问题。为了解决这个问题,OpenAI 今天开源了 Whisper,这是一种自动语音识别系统,该公司声称该系统可以实现多种语言的“强大”转录以及从这些语言翻译成英语。无数组织已经开发出功能强大的语音识别系统,这些系统位于谷歌、亚马逊和 Meta 等科技巨头的软件和服务的核心。但据 OpenAI 称,Whisper 的不同之处在于它接受了从网络收集的 680,000 小时多语言和“多任务”数据的训练,从而提高了对独特口音、背景噪音和技术术语的识别能力。原创 2022-09-22 08:59:27 · 1855 阅读 · 0 评论 -
如何利用python编辑图片,删除其中一部分?
删除图像的一部分是什么意思?在数学和编程上,大多数时候,这意味着将图像对应区域的数组转换为(0,0,0) 表示 RGB 通道值,或黑色。在许多情况下,删除图像的一部分很有用。比如在文字转图片应用中,使用Dallie2,我们可以通过AI修复来编辑图像的一部分。而重新智能生成新图片的准备工作就是把需要修改的部分先删掉。原创 2022-09-19 09:45:47 · 2139 阅读 · 0 评论 -
如何让Pandas操作加快100倍?
今天我们讨论三种在 Python 数据分析库 Pandas 中加速运算的方法。 Pandas 对于处理存储在电子表格和数据库中的表格数据非常有用。它提供了许多用于操作和转换数据帧或结构数据的功能。原创 2022-09-11 03:35:11 · 1353 阅读 · 0 评论 -
AWS API gateway api CORS错误处理方法
我们开发了一个 AWS lambda 函数,然后我们使用 AWS API gateway服务将它上线。我们已经测试 API 并验证它是否按照我们的预期工作,看起来真的很棒。现在我们准备好将 API 端点发送到我们的前端并从网站调用它。一旦我们这样做了,我们就发现了一些这样的 CORS 错误:错误信息:CORS 错误代表跨域资源共享 (CORS) 错误。默认情况下,服务器端和 Web 端不能从不同的域通话。所以我们需要从双方放宽这个要求。原创 2022-09-04 11:03:04 · 1472 阅读 · 0 评论 -
None 和 NaN分不清? pandas 难点彻底搞懂
Pandas 和 Numpy 是数据挖掘和数据科学中广泛使用的工具,但有时人们会对 None 和 NaN 感到困惑,它们非常相似但略有不同的数据类型。在这里,我们通过一些示例彻底把问题弄清楚。原创 2022-08-26 10:25:34 · 1837 阅读 · 0 评论 -
美国信用卡返现率优化到3%-5%,AI优化算法的应用
一般来说,在美国,有许多信用卡针对特定消费类别提供良好的现金返还率,从 1% 到 5% 不等。主要消费类别包括汽油、餐饮、杂货、在线购物(不包括亚马逊、目标、沃尔玛等)和亚马逊购物。还有其他更小更具体的类别,但上述类别是主流类别,对我们大多数人来说都很重要。选择信用卡的一个基本方法是尝试考虑您最大的支出类别,然后选择在该类别中提供最大现金返还百分比的信用卡。借助 AI 中的优化算法,我们可以做得更好。首先,我们大概估计一下在不同支出类别中的年度消费额。原创 2022-08-22 08:52:42 · 465 阅读 · 0 评论 -
python常见错误总结
所以,无论是多出来空格,还是缺少空格,整个代码都不会运行,并且仅返回一个错误函数。例如,有一个包含10个元素的列表,索引在0到9之间,如果试图访问索引10或11或更多的元素,就会产生IndexError。索引是项目在数组或列表中的位置,当我们尝试从列表中访问元素或从列表中不存在的索引中访问元组时,就会发生这种异常。出现变量名错误,可以查看变量是否赋值,是否存在大小写不统一或者变量名写错了的情况,找到后加以修正。错误原因:在使用“+”做拼接的时候,必须使用字符串,或者 把数字用str()函数转化成字符串。..原创 2022-08-16 02:50:44 · 5343 阅读 · 0 评论 -
我对世界最聪明的AI写作家GPT3提问:AI写作的大规模使用会有什么风险?
GPT3 可以说是目前用于文本生成的最佳 AI 工具,这是一种使用深度学习生成类人文本的机器学习模型。原创 2022-08-12 10:07:44 · 811 阅读 · 0 评论 -
数据科学家的经验,python中dataframe的最常用设置!
数据科学家最常用的数据表格工具当属 pandas; 通过pandas表格,可以方便的展示表格(dataframe)和分析表格。而表格的格式设置不好,会影响分析效率。原创 2022-08-07 06:46:52 · 2912 阅读 · 0 评论 -
经典的机器学习columnTransformer 示例,用于预处理在线文章 SOV 预测的数据
数据中特征已经创建,理解这些特征名称就可以极大地帮助我们理解影响在线文章排名的因素。数据的具体构成如下原创 2022-07-16 23:53:19 · 1130 阅读 · 0 评论 -
如何用javascript生成网络计算器
简单但方便。link北大出版社,人工智能原理与实践 人工智能和数据科学从入门到精通 详解机器学习深度学习算法原理 人工智能原理与实践 全面涵盖人工智能和数据科学各个重要体系经典原创 2022-07-06 10:58:47 · 374 阅读 · 0 评论 -
超级好用的机器学习的超参数优化,OPTUNA,随机森林代码示例
对于一些流行的机器学习算法,如何设置超参数会极大地影响机器学习算法的性能。一种简单暴力的方法是遍历超参数空间的不同组合并选择最佳配置。 这称为网格搜索策略 (Grid Search)。 但是这种方法收敛速度非常慢。更好的方法是使用某种优化方法来优化我们的优化算法。 Optuna 和 Hyperopt 等工具在此发挥作用。在下文中,我们将使用 Optuna 作为示例,并将其应用于随机 森林 分类器。2. 使用 TfidfVectorizer 和 RandomForestClassifier 定义机器学习Pi原创 2022-07-03 10:35:57 · 3099 阅读 · 7 评论 -
Databricks notebook里面插入图片步骤图示
以下步骤显示了如何将图像上传到 databricks 文件存储,并将该路径放入到笔记本单元格中。如下图,在你的databricks账号首页,点击导入和探索数据部分。在此之后,在上传文件菜单中,进一步单击放置文件的位置,然后从本地计算机中选择图像文件。成功后,你会看到刚刚上传的图片的路径,这里我们的文件名为dbx_test.png,文件路径如下图所示:请注意,图片存储的路径以 /FileStore/ 开头,但我们在markdown中需要替换为 file/,...原创 2022-06-25 08:09:24 · 436 阅读 · 0 评论 -
智能风控建模全流程--看这篇就够了
信贷风控是数据挖掘算法最成功的应用之一,这在于金融信贷行业的数据量很充足,需求场景清晰及丰富。信贷风控简单来说就是判断一个人借了钱后面(如下个月的还款日)会不会按期还钱。更专业来说,信贷风控是还款能力及还款意愿的......原创 2022-06-21 07:45:38 · 3796 阅读 · 0 评论 -
人工智能原理与实践,北大出版社
人工智能被广泛应用和普及,极大地提高了人们学习和工作的效率。而要深入理解人工智能,必须全面理解底层各类机器学习算法的基本原理。只有全面掌握机器学习的基础知识,才能更好地理解、提高和驾驭人工智能的各种应用。本书分为13章,前7章为原理篇,重点讨论了机器学习模型建模的全部流程、各类常用的机器学习算法原理、深度学习和强化学习、机器学习涉及的优化原理,以及自然语言处理算法原理;后 6章为实践篇,重点讨论了信用卡客户细分、保险公司时间序列生活事件预测、电商网站交易欺诈预测、信用卡和信用贷款风险预测、美国旧金山房屋成交原创 2022-06-15 08:18:48 · 345 阅读 · 0 评论 -
读后感:人工智能原理与实践
为什么这真是一本难得的好书?请往下看。人工智能被广泛应用和普及,极大地提高了人们学习和工作的效率。而要深入理解人工智能,必须全面理解底层各类机器学习算法的基本原理。只有全面掌握机器学习的基础知识,才能更好地理解、提高和驾驭人工智能的各种应用。本书分为13章,前7章为原理篇,重点讨论了机器学习模型建模的全部流程、各类常用的机器学习算法原理、深度学习和强化学习、机器学习涉及的优化原理,以及自然语言处理算法原理;.........原创 2022-06-14 10:27:40 · 182 阅读 · 0 评论