自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

w4wise

记录工作

  • 博客(16)
  • 问答 (2)
  • 收藏
  • 关注

原创 DSPy: 用数据驱动的方式优化AI应用

DSPy 是一个专门用于算法优化语言模型(LM)提示和权重的框架,特别适用于在管道中多次使用 LM 的情况。将问题分解为多个步骤逐步优化每个步骤的提示,直到它们单独运行良好调整这些步骤以确保它们协同工作生成合成示例来微调每个步骤使用这些示例微调较小的 LM 以降低成本目前,这个过程既复杂又混乱:每次更改管道、LM 或数据时,所有提示(或微调步骤)可能都需要重新调整。为了使这一过程更加系统化且更强大,DSPy 提供了两大功能。

2024-08-01 08:43:37 1395 1

原创 星球播报-2024W22

星球播报。

2024-04-22 09:09:10 274 1

原创 Devin:一位半吊子程序员,还是即将成为编程超级特工?

Devin按照提示列出了工作清单,然后自己去学习了三份线上的api文档,再写出一个后端(类似one-api的东西),运行了测试并把测试结果做成了前端页面。展示了Devin完成了某个Upwork上的程序工作,而这个工作本身的要求就是希望你可以将某个开源仓库在AWS的EC2实例上玩一遍,并且给出完整的操作指引。还是展示强大的调bug能力。这里不得不说我连视频这个小伙子给Devin提的什么问题和指示都看不懂(c++不熟),所以意味着Devin的能力更适合给工程师使用,而不是给不懂编程的小白去用。

2024-03-14 12:54:32 1127

原创 sora参考文献整理及AI论文工作流完善(更新中)

OpenAI最新发布的Sora效果惊为天人,除了阅读研究原文(openai.com/research/video-generation-models-as-world-simulators)之外,其引用的32篇参考文献也是了解对应技术路线的重要信息。借此机会,也顺便探索一下整个AI论文的工作应该是什么样子的?AI可以如何帮助我们快速地获取、总结并复现论文。

2024-02-18 07:38:44 2938 1

原创 数据领域难题:大模型的切入点

然后,从数据科学的角度,收集成熟的算法,将它们整合成算子平台,方便快速得出计算结果。这是一个项目计划书,计划做一个元数据采集以及探索性分析为一体的工具,第一期先以实现cli为主要方式,单个数据库的Ingest可以整合为这样的过程:通过JDBC连接对应数据库,假设是postgres,然后将其元数据提取出来,并且使用GPT将数据字典补充完整。说白了,B端真正的难题在于,数字化/信息化的大目标总是绕不开降本增效,那首当其冲的就必然是削减人力,用更少的资源做更多的事,进而从人力花费最多的地方着手。

2023-11-27 10:42:08 136 1

原创 开源元数据管理平台OpenMetadata开发环境搭建

开源的元数据管理平台很多。开源元数据管理平台是一种用于收集、存储和管理数据的工具,它们提供了一种可扩展的方式来组织和维护数据的元数据信息。这些开源元数据管理平台都提供了各种功能,如元数据存储、搜索、浏览、数据资产关系管理、数据血统跟踪等,帮助组织更好地管理和利用数据的元数据信息。而今天我们要介绍的OpenMetadata,希望提供一种元数据的管理标准,来让我们更好的管理元数据。以上介绍来源。另外,关于元数据管理架构的发展,可参考之前我的一篇笔记。下面是本次开发环境搭建的操作记录,供大家参考。

2023-10-24 14:49:34 3189

原创 python google-re2包安装问题解决

你可以仍然会遇到类似报错,于是查看setup.py中的环境配置代码。可通过以下命令进行查找,或根据对应报错信息进一步调整。在尝试使用pip安装google-re2的问题记录。调整好setup.py之后再执行。

2023-10-19 18:28:44 1268 1

原创 shp批量导入Postgres并输出值域

查询结果导出Excel之后可以快速根据字段的最大、最小值,空值个数,总个数,去重个数来判断字段是否有用,以及字段的含义。如果自己猜不准,还可以将表格直接丢给GPT去分析,特别是字段名称为拼音首字母缩写的情况,亲测GPT判断得还蛮准。工作中常常会通过各种提资收集到大量shp以及dwg文件,经常会遇到shp中属性表字段命名不规范问题。跟表与字段信息进行关联查询,一次性导出值域分析结果。全部执行成功之后,可以在pg里面查询所有的元数据,然后再关联上相应的值域分析结果。GIS工具辅助:QGIS。

2023-09-01 16:06:10 241 1

原创 我眼中的CIM平台

人类持续努力在建设虚拟空间,各行各业的数字化转型是大潮中的一粟。但花在转型重点的研判做得太少,在许多“口号”的引领之下,曾经以为可如同基建般大搞特搞的建设,在资金不足的情况下越发力不从心。CIM是什么其实不太重要,那只是其中一种共识,而其他更多的还没达成共识的东西,还有很长很长的路要走。

2023-08-29 10:09:16 429 3

原创 【论文笔记】城市科学-地理学First Law

这篇论文主要描述了作者开发的一个计算机模拟模型,用于模拟底特律地区的城市增长过程。主要内容包括:模型背景和基本思路:作者提出“一切事物都与其他一切事物相关”的假设,并基于这个前提来建立一个简单的模型。作者认为简单模型更易于理解和展示洞察力。模型设计:作者提出使用二维矩阵来表示地理空间分布,不同于一维的状态向量。模型假设每个单元格的增长与周围单元格以及过去时间段内的单元格相关。模型方程:作者给出了一系列可能的增长方程形式。最后采用的是每个单元格的人口增长与过去邻近单元格的人口总和线性相关的方程。

2023-08-21 18:04:34 205 1

原创 数据思维02:数据孪生 Data Twins

综合下来,如果人类社会是一个整体,那第二层则是行业,行业之下还有领域,不同行业之间的领域共性区域有大有小,比如说财务领域在各行各业的共性域会较大,但销售域或者是客户域的差别就会大很多,这取决于你在售卖的商品和服务是什么。比如最近几年开始逐渐增多的关于GeoAI的研究,就花了很多力气再解决时空数据异质性的问题,而该方向大量的AI研究者,也没有共识出一个效果较好的模型,有点像NLP在早期各种奇淫巧技的阶段。一开始这种抽象是极为原始的,比如说在计算机诞生之前所使用的打孔机,所记录的数据是简单的0和1的组合。

2023-08-20 10:10:07 273 1

原创 Python+whisper.cpp纯本地化语音转文字

纯本地化语音转文字

2023-08-06 17:57:22 1161

原创 笔记-三代元数据目录架构

源头文章:https://engineering.linkedin.com/blog/2020/datahub-popular-metadata-architectures-explained核心诉求:如何快速并准确地找到分析所需要的数据集?数据资产在技术上的分类涉及哪些东西?表格,流,AI features,指标,仪表盘……一个数据目录常见的需求搜索和发现:数据模式、字段、标签、使用信息访问控制:访问控制组、用户、政策数据流传:管道执行、查询、API日志、API模式。

2023-07-28 08:38:16 244 1

原创 笔记-windy气象数据获取

Github上仅有的windy爬虫通过查看源代码判断基本已不可使用,底部信息栏数据并没有通过html直接返回。API被墙,项目侧使用需考虑合规专线网络调用。windy的数据来源在API文档中有详细说明。API费用约一年7-8k RMB。

2023-07-27 10:39:16 2832 1

原创 笔记-隧道工程智慧化场景

在碳排放边界确定时,学术侧更多是通过文献综述获得了碳排放各环节的比例关系。采用数据来源于相关文献的统计值。关于算例分析中各方案的监测和仿真结果,针对单个案例进行的专门分析,而非来自第三方的现成数据。衬砌的主要功能是支撑周围的岩土,防止隧道塌陷,同时也可以防止水和其他物质渗入隧道内部。衬砌的设计和施工是隧道工程的重要部分,需要考虑到地质条件、隧道用途、施工方法等多种因素。因此,论文的研究更多停留在理论和方法层面,实际数据获取仍有欠缺,而且在工程落地过程中数据获取也会因为成本问题而最终不了了之。

2023-07-27 08:54:48 177 1

原创 数据思维01:数据迷阵 Data Matrix

徐子沛在他的《数文明》中提出两种类型的数据。一是量数:对事物进行测量的结果,通常是数值;二是据数:对周围环境的记录,比如图片,音视频等。在社会学语境下,通常有量化研究和质化(质性)研究的区分:量化研究是指着重探讨研究对象的数量特征、关系和变化,并以此预测社会现象的发展趋势的研究方法。典型的量化研究方法包括实验方法、统计方法等。质性研究主要是通过对社会现象发展过程及其特征的深入分析.以及对社会现象的详细考察,解释社会现象的本质和变化发展的规律的方法。典型的质性研究方法包括实地研究、文献研究等。

2023-07-27 08:40:42 298 2

人工智能赋能可持续发展和投资白皮书

人工智能赋能可持续发展和投资白皮书

2023-10-26

infoQ-开源前端生态图谱报告

infoQ-开源前端生态图谱报告

2023-10-26

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除