- 博客(23340)
- 资源 (971)
- 问答 (2)
- 收藏
- 关注
原创 布客沉思录(一):【历史垃圾时间】就是彻头彻尾的伪概念
所以新的方向之一必须是能从市场上直接赚到钱的,对于程序员来讲,我们没有什么时间,但我们有自动化能力,有AI能力,所以最好的方式就是量化交易。《单干》一书中提到,最好的商业方式必须离钱最近,必须变现环节最小,轻资产大于重资产,自动大于手动,这样才能降低不可控性,那么量化交易一定是最符合这个描述的了。就算当时赚不到钱,也算是技术储备,等待经济好了,就一定能发挥作用。看到了吧,这个伪概念就是个自证预言:如果你觉得现在是【历史垃圾时间】,你放弃了自己的主观能动性,啥都不做,当然啥都不出错,但是啥都做不出来。
2024-08-14 14:43:16
3655
24
原创 布客社区及饱和式翻译计划 Q&A
A1:如果你现在,在AIGC大爆发之后问我这个问题,我只想告诉你们,翻译是 AIGC 中一种重要的形式,输出稳定,没有幻觉,比什么扩写仿写之类的好多了。当然我也尝试过很多其他的AIGC形式,比如源码解析、课程笔记之类的,但都没有翻译方便省事。翻译一定是未来几年技术自媒体 AIGC 的主流形态。
2024-08-06 13:52:20
1143
13
原创 Quant文艺复兴计划正式启动!
此时此刻恰如彼时彼刻,所以我深知,如果我不自己动手写出一批教程,中文互联网就永远没有面向新手的开放教程可用。幸好现在我们有了ChatGPT,它减轻了我的主业工作量,让我有时间投入这个方面;同时,它也大大减轻了编写教程的工作量,能让这些想法迅速实现。再者,良好的量化实现是保证回测准度和自动化的前提之一。总结paperwithbacktest上的Quant前沿论文【自动】,解析代码【自动】寻找gh上的机器学习或深度学习的Quant代码,做源码解析【自动】挑选主流量化框架,翻译文档【自动】,做源码解析【自动】
2024-04-10 22:56:08
1130
60
原创 一些用 GPT 翻译的计算机科学/人工智能 PDF 讲义
3D成像.pdf3D成像.pdf3D成像技术.pdf3D成像技术.pdf3D点云分析.pdf3D点云分析.pdfAAAI 2019 笔记.pdfAAAI 2019 笔记.pdfCMU 10.708 概率图模型讲义.pdfCMU 10.708 概率图模型讲义.pdfCMU 15-312 编程语言基础讲义.pdfCMU 15-312 编程语言基础讲义.pdfCMU 15-411 编译器设计讲义.pdfCMU 15-411 编译器设计讲义.pdfCMU 15-819 同伦类型论讲义.
2024-02-20 22:59:55
2332
原创 环材化生劝退文章汇总 2019.3
本人的 优快云 博客、简书专题和博客园正式加入“环材化生劝退”计划,接受相关内容的投稿。ApacheCN 开源社区接受各种环材化生转行咨询。写给分子科学与工程大一大二的学弟学妹们为什么要劝退分子科学与工程?是什么让你开始劝退的?(@韩冬)现在学生物出路真有那么不济吗?(@Mengjie Chen)盘点2018年化工行业大事故!回顾那些令人心痛的瞬间…触目惊心!2017年化工行...
2019-03-28 21:31:02
40841
原创 手动深入了解自注意力机制✍︎
这就是 Transformer 架构的内部工作原理。将其与外部结构结合起来,以下是 Transformer 机制的总结:Transformer 架构中的两个关键思想是加权注意力和前馈层(FFN)。这两者结合在一起,使得 Transformer 可以从两个方向分析输入序列。注意力基于位置查看序列,FFN则基于特征矩阵的维度来分析。驱动注意力机制的部分是缩放点积注意力,它由QK 模块组成,并输出加权注意力特征。‘注意力才是你所需要的一切’
2025-11-28 00:25:03
113
原创 深入探讨多线程、多进程和 Asyncio
就这些了,大家。这一话题还有很多内容要讨论,但我希望我已经向你介绍了各种概念,以及何时使用每种方法。我定期写关于 Python、软件开发和我构建的项目的文章,所以关注我,不要错过。下篇文章见 😃。
2025-11-28 00:24:10
102
原创 手动深入探讨 LSTMs 和 xLSTMs ✍️
再次,我们复制来自上一迭代的隐藏状态和记忆值,即 h2 和 C2。输入门、遗忘门和输出门。正如这些名称所示,这些门控决定了哪些部分的信息是相关的,以及要保留多少信息,哪些部分可以被丢弃。简要来说,执行的步骤如下:从前一状态初始化隐藏状态和记忆值。执行线性变换,帮助网络开始关注隐藏状态和记忆值。对数据应用非线性变换(sigmoid 和 tanh),以确定保留/丢弃哪些值,并获得新的候选记忆值。基于步骤 3 中获得的决策(值),我们进行记忆更新。
2025-11-28 00:23:38
152
原创 深入了解 LlamaIndex 工作流程:事件驱动的 LLM 架构
越来越多的 LLM 应用正在转向智能代理架构,期望 LLMs 通过调用不同的 API 或多次迭代调用来满足用户请求。然而,这种转变也带来一个问题:随着代理应用进行更多的 API 调用,程序响应速度变慢,代码逻辑变得更加复杂。一个典型的例子是ReActAgent,它涉及思考、行动、观察和最终答案等步骤,至少需要三次 LLM 调用和一次工具调用。如果需要循环,会有更多的 I/O 调用。一个典型的 ReAct 代理至少会调用 LLM 三次。图片由作者提供。
2025-11-28 00:23:07
108
原创 手动深度探讨 LlaMA 3 ✍️
原文:towardsdatascience.com/deep-dive-into-llama-3-by-hand-%EF%B8%8F-6c6b23dc92b2?
2025-11-28 00:22:36
235
原创 深入探讨 Anthropic 的稀疏自编码器 ✍️
想象一个作家,他的桌子上散乱着各种纸张——有的是他写故事的笔记,有的是最终稿的副本,还有的是为他的动作故事绘制的插图。在这种混乱中,很难找到重要的部分——尤其是当作家很匆忙,出版社在电话中催促他两天内交书时。幸运的是,作家有一个非常高效的助手——这个助手确保杂乱的桌面被定期清理,类似的物品被分组整理,并把东西放到合适的位置。而且,当作家需要时,助手会帮助他快速找到正确的物品,帮助他按时完成出版社设定的截止日期。嗯,这个助手的名字叫做自动编码器。它主要有两个功能——编码和解码。
2025-11-28 00:22:05
108
原创 解码 Medium 写作成功
分析您的 Medium 统计数据可以帮助您实现写作目标。虽然 Medium 提供了内置的表格和图表来帮助您,但它们缺乏足够的粒度,无法深入理解哪些方法有效,哪些无效。通过将您的指标导出到电子表格,并为您的故事添加特定类别的额外列,您可以解决您对结果的关键问题。此外,您还可以过滤数据集到特定类别,进行“如果…会怎样”的游戏,并预测未来的收入。当然,这种分析假设你将继续在相同的主题上写作。它无法告诉你你尚未涉猎的话题。据我所知,如果我只写关于乐高迷你人偶和糟糕的吸血鬼电影,我的收入可能会翻四倍!
2025-11-28 00:21:35
110
原创 解码时间:揭开 LSTM 与 N-BEATS 在精确时间序列预测中的力量
N-BEATS 和 LSTM 为预测领域带来了独特的优势。N-BEATS 在捕捉长期预测中的多样模式方面表现突出,同时具有较高的可解释性。而 LSTM 则是一个快速、稳定且复杂的神经网络机制,能够实现准确的预测。
2025-11-28 00:21:03
188
原创 解密准确天气预报背后的黑客技巧:变分数据同化
天气预报模型是混沌动力系统,由于模型状态中的微小扰动,预报变得不稳定,因此盲目相信预报是有风险的。尽管当前的预报服务,如欧洲中期天气预报中心(ECMWF),在预测中期(15 天)到季节性天气方面取得了高精度。良好预报背后的黑客技巧在于自 1997 年以来在 ECMWF 使用的四维变分数据同化(4D-Var)。该算法结合实时观测来改善预报。作为最小化蝴蝶效应(对初始条件的高度敏感性)的主要技术,4D-Var 在许多其他领域的操作时间序列预报系统中也被广泛使用。ECMWF 数据同化的示意图。
2025-11-28 00:20:32
189
原创 解码 One-Hot 编码:分类数据的入门指南
在学习机器学习时,理解最基本算法的内部工作原理是至关重要的。这样做有助于理解算法在流行的库和框架中的操作方式,如何调试它们,更容易选择更好的超参数,并确定哪种算法最适合给定的问题。虽然算法是机器学习的核心,但没有高质量的数据,它们无法产生有效的结果。由于在某些问题中数据可能是一种稀缺资源,因此学习如何有效地预处理数据以提取最大价值至关重要。此外,预处理不当的数据可能会降低算法的性能。即使是一个非常简单的模型,如果数据准备得当,也可能比一个大型模型表现更好。
2025-11-28 00:20:00
98
原创 声明式与命令式绘图
命令式绘图在 Python 中涉及一种逐步的方法,用户明确地指定图表的细节,处于相当低级别。当构建需要高度定制的复杂图表时,命令式库,如 Matplotlib,非常有用。声明式绘图在 Python 中围绕高级方法,这些方法允许用户仅用几行代码就创建基本可视化。仍然允许进行不同程度的定制。主要的绘图库都附带高级声明式组件。Matplotlib 有 seaborn,Plotly 有 Plotly Express,而 HoloViews 有 hvplot。
2025-11-28 00:18:34
128
原创 决策树分类器,解释:适合初学者的可视化指南与代码示例
决策树分类器创建一个倒置的树来进行预测,从顶部开始,提出一个关于数据中重要特征的问题,然后根据答案分支。沿着这些分支往下走,每一个停靠点都会问另一个问题,逐步缩小可能性。这个问答游戏会一直持续,直到到达最底部——一个叶节点——在这里你将得到最终的预测或分类。决策树是最重要的机器学习算法之一——它是一个一系列的“是”或“否”问题。决策树分类器是解决机器学习中许多问题的绝佳工具。它们易于理解,能够处理复杂数据,并能展示它们如何做出决策。这使得它们在多个领域都非常有用,从商业到医学。
2025-11-28 00:05:22
155
原创 高手处理缺失数据:多元和迭代插补算法
原文:towardsdatascience.com/deal-with-missingness-like-a-pro-multivariate-and-iterative-imputation-algorithms-23f7769da02c实际世界的数据通常很混乱,在使用任何机器学习(ML)模型之前需要仔细预处理。我们几乎总是会在数据集中遇到空值,如果观察到这些空值,它们可能对我们的分析或建模非常有价值。我们将其称为。
2025-11-28 00:03:45
135
原创 DBSCAN,5 分钟讲解
原文:towardsdatascience.com/dbscan-explained-in-5-minutes-133f6a9766e4?
2025-11-27 00:16:35
179
原创 数据流架构
恭喜你坚持到这里!在第一部分中,我们从一个简单的请求-响应系统发展到一个事件驱动系统,流式传输处理和保存来自各种健身器械传感器和医疗设备的数据。在这第二部分中,我们扩展了那些保存的记录,并对其进行了定期和按需处理。这使得增强用户运动体验的新功能成为可能,体验变得更加集体却又个性化。随着我们的摄取管道的发展,我们的数据流架构也在扩展,能够满足新的需求。基于数据摄取管道的 SmartGym 功能总结我们的演变故事并未就此结束。
2025-11-27 00:13:57
157
原创 数据库数据转换针对数据工程师
原文:towardsdatascience.com/database-data-transformation-for-data-engineers-6404ed8e6000使用生成的 AI 图像在这个故事中,我想讨论我们如何转换数据。无论是数据库、数据仓库还是报告解决方案,我们都是基于数据模型进行数据转换,但我们如何组织它们呢?我想谈谈您使用的现代数据转换工具。我们将触及模块化方法、调度和数据转换测试的一些细微差别。在本文的结尾,我将提供一个示例应用程序,用于运行具有数据溯源和自文档功能的建模任务。
2025-11-27 00:13:07
303
原创 数据仓库,重新定义
我认为这值得一个明确的答案,而答案的出现又带来了重新定义数据仓库的需求。为了立即明确,我并不是轻率地说这番话。我甚至在我的咨询公司的基础上建立起了数据仓库概念的思想。因此,承认对我的客户和我自己来说,这是实现公司真正通用数据供应的错误方法并不容易。让我解释一下为什么我认为数据仓库并没有完全实现这一承诺。让我们回顾一下起点,当时比尔·英蒙(Bill Inmon)提出了数据仓库的想法。(重新)整合由运营应用程序在孤立数据库中存储业务数据而产生的信息孤岛。适当分离分析工作负载和运营工作负载。
2025-11-27 00:12:19
115
原创 数据仓库设计模式
原文:towardsdatascience.com/data-warehouse-design-patterns-d7c1c140c18b最近,我需要一个数据仓库工具来处理我的新数据项目。这个故事讲述了我是如何从头开始构建它并组织其中的所有内容的。设计数据平台不是一个简单任务,并且现代数据仓库解决方案通常是其架构的核心。它提供了强大的数据治理功能、使用 ANSI SQL 简化数据查询以及增强的数据建模能力。
2025-11-27 00:11:32
162
原创 使用大型语言模型和图像生成模型进行数据可视化生成——结合 LIDA
发布于·阅读时间 12 分钟·2024 年 6 月 25 日最近我发现了LIDA——这是一个与语法无关的库,旨在使用大型语言模型(LLMs)和图像生成模型(IGMs)自动生成数据可视化和信息图。LIDA 支持多种大型语言模型提供商,例如 OpenAI 和 Hugging Face。在这篇文章中,我将提供该库的高层次概述,展示如何入门,列出一些示例,并分享我对在数据可视化和商业智能(BI)领域中使用 LLMs 和 IGMs 的思考与考虑。照片来自于Unsplash。
2025-11-27 00:10:46
195
原创 基本机器学习算法数据可视化备忘录
原文:towardsdatascience.com/data-visualization-cheat-sheet-for-basic-machine-learning-algorithms-770c8e61729dCharlesdeluvio 在上的照片。备忘录可以作为指南,为我们提供初步想法。我个人有时会使用一些备忘录,并发现它们非常有帮助,尤其是在我开始学习机器学习算法时。除了理解和应用之外,检查获得的结果是重要的步骤,这有助于我们了解或看到数据发生了什么。
2025-11-27 00:09:58
188
原创 数据可视化入门:吸引眼球的可视化操作手册
在这篇文章中,我们已经介绍了数据可视化的关键方面:去除不必要的噪声,以避免分心,使用强调来吸引观众的注意力,通过颜色和大小,添加上下文,帮助你的观众理解你的信息。如果你有任何后续问题或评论,请在评论区留言。
2025-11-27 00:09:18
227
原创 数据价值血统,终于有了意义?
我一直对那些能够完美捕捉概念本质的词汇情有独钟。在一次前往日本的旅行中,我发现了一个词——Tsundoku。它指的是购书并将其堆积,却没有阅读的习惯。我立即爱上了这个词,因为像许多人一样,我也有买书多于能读完的习惯。有些书我最终会读到,而另一些则会悄悄堆积起来。它们作为我们智力追求的见证,即使我们并不总是能实现这些追求。作为Kindata.io的创始人,以及在数据价值方面为大公司提供咨询的顾问,我经常遇到一些让我想大喊“Tsundoku!”的情况。
2025-11-27 00:08:36
236
原创 数据估值——简明概述
现在我们知道数据评估对不同应用有多么重要。接下来,我们将了解数据评估是如何工作的。正如在我们的论文中所描述的,数据评估方法大致可以分为四个分支:基于再训练的方法基于梯度的方法基于数据的方法“其他”
2025-11-27 00:07:53
196
原创 使用 Pandera 进行 Python 数据验证
有时需要添加自定义验证。Pandera 允许你注入列/索引检查(单列的自定义检查)和数据框检查(多个列之间的检查)。""""""""""""""""""请记住,你正在处理整个列对象(Series),因此检查中的操作应向量化以提高性能。
2025-11-27 00:07:11
171
原创 关于 Voronoi 图的一切:分析东京公共交通站点的服务区域
Voronoi 图(图片来源:作者)Voronoi 图和 Delaunay 三角剖分在许多科学领域得到了广泛应用。4Voronoi 图,也被称为Voronoi 网格,用于将平面表面划分为对应于特定点的独立区域。这个问题在许多不同的情况下频繁出现。[5]下面是一些例子:墨尔本政府(2024-),当他们将学生分配到最近的学校时[6约翰·斯诺(1813–1853),当他将伦敦霍乱爆发与水泵的位置相关联时[4勒内·笛卡尔(1596–1650),当他研究物质相对于恒星的分布时[4。
2025-11-27 00:06:24
92
原创 数据科学家在云端工作。作为学生如何练习这一点(第二部分:Python)
原文:towardsdatascience.com/data-scientists-work-in-the-cloud-heres-how-to-practice-this-as-a-student-part-2-python-5b5550a5944c数据科学家在云端工作。作为学生如何练习这一点(第二部分:Python)由在上的图片如果你想要成为一名数据科学家,仅仅知道如何编码是不够的——你还需要知道如何在云端运行你的代码。当我申请我的第一份数据科学工作时,这是一个真正的问题。
2025-11-27 00:05:41
214
原创 数据科学家如果不能掌握这些函数,就无法在 Python 中表现出色
用户定义函数(UDFs)是由开发者创建的用于实现特定逻辑/操作、处理复杂任务或在不同项目部分重用代码的自定义函数。代码清晰度:在将重复或复杂的代码封装在函数中之后,脚本可以变得更加简洁和易于阅读。调试:UDF 可以单独测试和调试。这一特性使得在数据处理管道中识别和修复错误变得更加容易。可扩展性:精心设计的 UDF 有助于开发者扩展代码库,并在项目增长时使其更易于管理。协作:模块化函数允许团队成员一起工作,每个人专注于一个大项目的一个不同部分。优化。
2025-11-27 00:04:56
212
原创 数据科学家解答最常见的数据科学问题
原文:towardsdatascience.com/data-scientist-answers-the-most-popular-data-science-questions-4e77aa46336f我现在已经是一名数据科学家三年多了,所以我想要写一篇文章,回答我在 YouTube 频道和 Medium 文章评论区收到的最常见的数据科学问题。问题按照技术、职业建议和杂项进行分类。希望你能找到你想要的信息!
2025-11-27 00:04:13
173
原创 数据科学独角兽、RAG 管道、新的相关系数,以及其他四月必读文章
原文:towardsdatascience.com/data-science-unicorns-rag-pipelines-a-new-coefficient-of-correlation-and-other-april-must-reads-b1325bf78fce?·发表于·发送至 新闻简报 ·4 分钟阅读·2024 年 5 月 2 日感到受到启发,想写第一篇 TDS 文章吗?我们始终欢迎新作者的投稿。
2025-11-27 00:03:30
350
原创 数据科学支持循环经济实施
您是一个国际服装集团的物流部门的数据科学经理,该公司在全球拥有门店。该公司在亚洲的工厂生产服装、包包和配饰。供应链网络 — (图片来自作者)这些工厂向中央仓库交付货物,以补充商店的库存。去年,你的首席执行官公开承诺支持联合国可持续发展目标,并特别关注地球的目标。链接] — (图片来源:作者)因此,可持续发展团队正在制定一个路线图,计划到 2030 年减少碳足迹。可持续发展路线图项目团队 — (图片来源:作者)
2025-11-27 00:02:45
222
原创 数据科学作品集、加速 Python、KANs 及其他 5 月必读文章
原文:towardsdatascience.com/data-science-portfolios-speeding-up-python-kans-and-other-may-must-reads-b096bdd0382c?·发布于·以 新闻简报 形式发送 ·4 分钟阅读·2024 年 5 月 30 日感到受启发,准备写下你的第一篇 TDS 帖子吗?我们始终欢迎新作者的投稿。
2025-11-27 00:01:56
265
原创 数据科学与政治的结合
原文:towardsdatascience.com/data-science-meets-politics-709cf00c88e2?
2025-11-27 00:01:11
177
公司的自建邮件服务器投不进 163,显示“451 DT:SPM”
2020-02-19
imagemagick 从 png 转换的 pdf 太大了
2020-02-19
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅