- 博客(14)
- 收藏
- 关注

原创 GroupRAG-Deepseek应用
与传统的 RAG方法依赖向量相似性检索不同,GraphRAG利用 知识图谱 来显著增强语言型的问答能力,特别是在处理私有数据集或大型、复杂数据集时表现尤为出色。当需要对复杂数据进行推理时,GraphRAG展示了优于基线 RAG的性能,特别是在知识图谱 的帮助下。局部搜索:如果问题关注于某个特定的实体,GraphRAG 会向该实体的 邻居(即相关实体)扩展搜索,以获得更详细和精准的答案。DRIFT 搜索:这是对局部搜索的增强,除了获取邻居和相关概念,还引入了 社区信息 的上下文,从而提供更深入的推理和连接。
2025-02-05 16:18:06
1394
1
原创 A/B测试(1)
在单尾检验中,研究者针对假设提出了明确的方向性,例如“新设计的落地页转化率比原设计高”、“将按钮颜色从灰色政为红色将导致更多的点击"因此只检验这个方向是否具有统计显著性,被称为单侧检验。以往该公司全年转化率平均在13%左右,现在希望设计的新页而能够带来更高的转化率,希望新页面的转化率能有2%的提升,达到15%。根据上面最小样本量的计算,我们知道此次AB测试至少需要9440个用户参与测试,假如该落地页以往每天的平均浏览量为1000,则实验周期至少需要的天数为:。此外,需要特别注意的是:想支持的结论通常放在。
2025-02-12 15:40:16
536
原创 yolo 数据增强之仿射变换(Affine)&透视变换(perspective)
仿射变换是一种二维坐标变换,它保持了图像中直线的直线性,即变换前后的直线仍然保持为直线。仿射变换可以通过一个线性变换矩阵和一个平移向量来描述。透视变换是一种更为复杂的图像变换,它可以模拟相机的透视效果,即物体随距离增加而变小的视觉效果。透视变换通过一个3x3的变换矩阵来实现。
2025-02-04 22:02:43
348
原创 Yolo 数据增强之Mosaic
2、再从数据集中,随机取出3张图像的index,加上getitem取出的1张图像,一共四张图像。从320~960范围内随机出2个数值(xc,cy),4张图像会在(cx,cy)位置进行对齐拼接。代码实现:1、dataset 的getitem方法会根据规则取出一张图片的index。3、打乱4张图像的顺序。
2024-03-25 17:41:30
384
1
原创 DETR论文精读
在目标检测任务中,尤其是在使用基于锚点(anchor-based)的方法时,如Faster R-CNN、SSD、YOLO等,模型通常会为每个类别生成多个候选边界框(bounding boxes),这些框可能包含对同一目标的多次检测,即存在重叠的边界框。NMS的目的是减少这些重叠的边界框,确保对于每个检测到的目标,只保留一个最有可能的边界框。绿色点为小的bounding box,红色为大的横向的bounding box,蓝色的代表竖向的大的bounding box。编码器的层数越深,学到的特征越好。
2024-03-04 17:50:17
1600
原创 PYTHON可视化
【箱型图】表示数据的分布--最大值、最小值、中位数等。若散点图趋向圆则数据前后相关性差,反之。【核密度估计图(KDE图)】【时间序列滞后散点图】
2024-03-02 17:02:47
264
1
原创 Sora视频生成大模型原理
LLM 大语言模型仍然是核心,多模态(文生图、图生文)都需要文本语义去牵引和约束生成的内容,CLIP/BLIP/GLIP 等关联模型会持续提升能力;数据工程很重要,如何设计视频的输入(e.& 是否截断、长宽比、像素优化2.等)、patches 的输入方式、文本描述和文本图像对质量;AI系统(AI框架、AI编译器、AI 芯片、大模型)工程化能力是很大的技术壁垒决定了 Scaling 的规模。模型规模的增大对视频生成质量的提升具有明确意义,从而很好地解决视频致性、连续性等问题;
2024-03-01 10:00:00
502
1
原创 GPT大模型技术体系
【分类】语言类大模型:GPT-3、GPT-3.5、GPT-4系列模型。并且,OpenAI在训练GPT-3的同时训练了参数不同、复杂度各不相同的A、B、C、D四项大模型(基座模型),用于不同场景的应用;A、B、C、D模型的全称分别是ada、babbage、curie和davinci,四个模型并不是GPT-3的微调模型,而是独立训练的四个模型;四个模型的参数规模和复杂程度按照A-B-C-D顺序依次递增;虽不如GPT-3.5和GPT-4那么有名,但A、B、C、D四大模型却是目前OpenAl大模型生态中功
2024-02-17 10:00:00
632
1
原创 Informer开源项目(3)
为了解决不同地区的电力分配问题,需要提前预测特定地区的电力需求情况。该团队认为油温(数据集中的OT列)可以反映变压器的用电情况,只要油温安全就可以避免电力变压器的损坏。:基础的 informer 模型,它是为长期时间序列预测设计的。InformerStack 适用于那些需要从时间序列中提取更深层次、更复杂模式的场景,例如复杂的财经数据分析或高级气候模式预测。不是专业领域的伙伴可以不用在意各列的实际意义,只要明确我们数据集有8列,1列时间,使用其中6列特征的值,来预测最后一列的OT值即可。
2024-02-03 10:30:00
1428
2
原创 Informer开源项目(2)
需要根据数据集的特征数量和前面features的设定来配合设置。进一步影响预测进度的参数,需要根据数据的特性来设置。一般不改变的默认参数。
2024-02-02 11:47:51
327
原创 Informer开源项目(1)
所有的流程都是被封装好的,我们数据的预处理、数据配置、模型选择、模型结构、模型输入输出、训练过程中的学习率、batch_size等等信息全都是通过参数来控制的,甚至连数据的导入都是以参数的形式进行,我们需要修改的只有参数本身而已。|data|str|数据,这个并不是数据集文件,而是你想要用官方定义的方法还是你自己的数据集进行定义数据加载器,如果是自己的数据集就输入custom(这也是这个开源项目做的比较好的地方,项目本身可以选择用自己的数据集)|d_model|int|用于设置模型的维度,默认值为512。
2024-02-02 11:21:56
2313
原创 长时间序列预测模型Informer
此外,Informer采用了一种独特的序列下采样策略,有效地减少了序列的长度,从而进一步提升了处理长序列的能力。(随机抽取1/4,每个Q和1/4的K之间的相关性(96*96 —> 96*25)、得到了所有的Q是否活跃的排序,找到分布差异最大的top25个Q),由于ProbSparse自相关机制有很多都是用V的mean填充的,所以天然就存在几余的attention sorce,因此在相邻的Attention Block之间应用卷积与池化来对特征进行下采样,所以作者在设计Encoder时,采用。
2024-02-01 21:31:12
2207
1
原创 潜在语义分析(实验)
一个良好的主题模型可以识别出相似的语,并将它们放在一组或一个主题下。在上面的示例中,这段话最重要的主题是:主题 2 -- 表明这段文字主要是关于虚假视频的。潜在狄利克雷分配(latent Dirichlet Alocation,LDA),作为基于贝叶斯学习的话题模型,是潜在语义分析、概率潜在语义分析的扩展,于 2002 年由 Blei等提出。主题数 ,必须由用户给定。潜在语义分析的目的是利用词语周国的上下文,以捕获隐藏的概念或主题,LSA 最初是用在语义检索上,为了解决一词多义和一义多词的问题。
2024-01-28 16:01:35
362
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人