秉寒-优快云博客

原创量化选股策略升级

本次升级增加股票名称，能够有效知道代码和股票名称。

2025-02-27 19:30:27 153

今天我们不聊ds ，而是基于ds背后老板，我们聊聊量化投资。量化听起来很高大山，本质是通过技术选择合适的指标（策略）对市场上的股票进行买入和卖出。今天运行了下周五的数据，满足指标买入要求的大概是 40只左右，大家可以加入自选股中，做一个观察仓，如果发现有突破或是起量的趋势，可以逐步买入，建仓。最近，在IT领域最火的必然是deepseek了，不仅在应用领域火的一塌糊涂，在国家政客也频频提起，并受到相关领导人的多次接见。

2025-02-22 16:43:23 221

原创数据门户与决策支持系统：双剑合璧，解锁企业增长新引擎

在数字化转型的浪潮中，企业如何高效利用数据资产，已成为决定竞争力的关键。：某零售企业通过数据门户整合线下门店、电商平台、供应链数据，DSS基于此分析出爆品趋势，动态调整库存分配，缺货率降低30%。：网约车平台通过实时交通数据+乘客需求预测，动态调价并优化司机调度，高峰期订单完成率提升22%。的分析结果（如用户分群标签、销售预测）反哺至门户，形成动态数据资产。结合流数据进行即时计算，触发自动化决策（如动态定价、异常告警）。整合多源数据（数据库、API、外部平台），打破数据孤岛。

2025-02-07 10:24:37 294

原创【3分钟极速部署】在本地快速部署deepseek

在试运行时首先是要下载deepseek的，在这里我们尝试用8b 参数，“b” 是 “billion” 的缩写，代表十亿。我个人用的是Windows 我就先尝试用Windows版本了，文件不是很大，下载也比较的快。8b模型已经挺大了，5G，好在我磁盘还够，安装完成后，让我们看看运行效果。，根据自己的电脑下载对应的版本。表示该模型大约有 15 亿个参数。

2025-02-05 09:40:01 3131 3

原创 DeepSeek 等 AI 技术能否推动股市的繁荣？

在整个 AI 产业链中，从上游的芯片研发企业、云计算服务提供商，到中游从事数据标注工作的数据服务企业，再到下游智能驾驶、医疗 AI 等应用场景的企业，均因 AI 技术的蓬勃发展迎来了前所未有的发展黄金期。这些企业经营业绩的显著提升，必然会对股市产生积极的拉动作用。数据安全和隐私问题日益受到重视，一旦 AI 企业在数据管理方面出现漏洞，必将面临严厉的监管处罚，这对企业的声誉和股价都会造成严重的损害。此外，政府对 AI 行业的政策调整也可能对企业的发展产生重大影响，进而传导至股市，引发股市的波动。

2025-02-04 10:07:06 404

原创文明的基因：在传承中破茧重生

紫禁城里的"样式雷"家族，七代人执掌皇家建筑，他们的建筑图样里藏着对前人营造法式的深刻理解，这种敬畏让中国古建技艺成为世界建筑史上的孤本。紫禁城里的自鸣钟与日晷并置，坤宁宫萨满祭台与佛堂共存，这种文明的包容性让北京中轴线成为人类文明的十字路口。今天的量子科学家在敦煌壁画中寻找算法灵感，故宫文物修复师用显微技术还原宋代织锦，传统与现代的碰撞正在创造新的文明范式。文明的基因从来不是博物馆里的标本，而是流动的星河。文明的基因从未停止生长，就像莫高窟的壁画师们在临摹前朝壁画时，总会在衣袂处添一笔本朝的云纹。

2025-01-31 19:15:55 306

原创探秘 DeepSeek：AI 领域的创新力量

在当今人工智能飞速发展的时代，新的技术和公司不断涌现，其中 DeepSeek 以其独特的技术和迅猛的发展态势，成为了 AI 领域备受瞩目的焦点。今天，就让我们一同深入了解这家公司。

2025-01-27 11:31:54 1004

原创苹果2025年AI战略重磅曝光：智能家居与Siri升级，未来可期！

在科技行业的浩瀚星空中，苹果公司始终是那颗备受瞩目的璀璨之星。2025年1月25日，彭博社的一则报道，将苹果在AI领域的新动作推到了公众视野之中，再次引发了行业内外的广泛关注和热议。今天，我们就来深入剖析一下苹果2025年的AI战略，看看这一次，苹果又将给我们带来哪些惊喜。

2025-01-26 10:55:21 491

原创一文读懂业务数据化与数据业务化，解锁企业数字化转型密码

大家好我是秉寒在数字化浪潮奔涌的当下，数据早已成为企业的核心资产，宛如一座蕴藏无限可能的宝藏。而业务数据化和数据业务化，正是开启这座宝藏大门、实现数字化转型的关键密码。今天，就让我们一起深入探寻这两个概念，看看它们如何重塑企业发展格局，助力企业在激烈的市场竞争中脱颖而出。

2025-01-26 09:55:48 1502

原创认知计算与 AI 大模型：数据仓库、数据湖与数据分析的变革力量

大家好，我是秉寒，今天是龙年腊月 27 了，还有两天就是蛇年除夕了，在此借优快云，给大家拜年！祝愿大家在新的一年里，技术精进，工作顺遂，代码无 Bug，项目都超神，家庭幸福美满，事业蒸蒸日上，让我们一起在新的一年里继续探索技术的无限可能，共同成长，收获满满！在数字化进程高歌猛进的当下，数据已无可争议地成为企业发展的核心驱动力。如何高效管理和深度剖析这些数据，挖掘其中蕴藏的宝贵信息，已然成为企业在激烈竞争中脱颖而出的关键。

2025-01-26 09:24:29 1856

原创破解数据模型相似度计算难题：为数据应用清障

计算数据模型相似度是解决数据仓库和数据湖中相似模型过多问题的有效途径。通过本文提出的方案，企业可以准确计算数据模型之间的相似度，为数据模型的管理和优化提供有力支持。在未来的数据管理中，合理运用相似度计算方案，将有助于企业提升数据资产的价值，实现更高效的数据驱动决策。

2025-01-24 10:48:56 519

原创探秘数据仓库新势力：网络建模

网络建模作为数据仓库领域的新势力，以其独特的优势和广阔的应用前景，正逐渐改变着我们对数据仓库的认识和应用方式。虽然它还面临着一些挑战，但随着技术的不断进步和创新，这些挑战必将被克服。让我们拭目以待，见证网络建模在数据仓库领域创造更多的精彩。

2025-01-24 09:55:20 1349

原创 Flink SQL 与 Flink API：实时数仓建设的得力助手

Flink SQL 和 Flink API 在实时数仓建设中各有所长。Flink SQL 以其简洁易用的特点，适合快速搭建实时数仓的基本数据处理流程；而 Flink API 则凭借高度的定制化能力，为复杂的数据处理需求提供了强大的解决方案。在实际项目中，我们可以根据具体的业务场景和需求，灵活选择使用 Flink SQL 或 Flink API，或者将两者结合起来，充分发挥 Flink 的优势，构建高效、可靠的实时数仓系统。随着大数据技术的不断发展，实时数仓的重要性日益凸显。

2025-01-21 09:04:34 653

原创巧用 Kimi、豆包、元宝，实现技能突破

Kimi、豆包、元宝等工具为我们提供了丰富的学习资源和强大的辅助功能，通过合理利用这些工具，我们能够在编程、写作、语言学习、逻辑思维等多个技能领域实现突破。在未来的学习和工作中，我们应不断探索这些工具的更多应用场景，充分发挥它们的潜力，让它们成为我们提升技能、实现自我价值的有力武器。希望本文能为大家在利用智能工具实现技能突破的道路上提供一些启发和帮助，让我们一起借助科技的力量，开启技能提升的新篇章。

2025-01-20 11:42:38 498

原创数据模型：解锁业务发展的 “超级引擎”

在数字化浪潮席卷而来的当下，数据已成为企业的核心资产，如同隐藏在深海中的宝藏，蕴含着无尽的价值。而数据模型，就像是一把神奇的钥匙，能够开启这座宝藏的大门，让数据在支撑业务发展中发挥出巨大的能量。今天，咱们就一起来聊聊数据模型在业务发展中的关键作用和深远意义，以电信行业为例，深入探究数据模型如何重塑行业格局。

2025-01-16 20:11:21 373

原创京东20薪水真的不是画饼！

回顾京东这三年的涨薪历程，每一步都走得相当扎实。2021年7月1日至2023年7月1日，京东用两年时间将员工平均年薪由14薪逐步涨至16薪。2024年7月1日起，通过一年半时间，京东采销年度固定薪酬由16薪提升至20薪，业绩激励上不封顶。这是什么神仙公司啊？今年 9 月，京东零售集团和职能体系放话，要用两年时间达成 20 薪的目标。这还不算完，京东科技更是紧随其后 2025 年实现全员 20 薪计划！这简直就是打工人的福音啊！给大家分享一个超重磅消息！京东科技也宣布2025年全员20薪！

2025-01-16 11:30:47 192

原创怎们解析json key值是变化的数据

主要是通过新的结构获取到key ，通过组装新的key 实现数据的解析；

2025-01-15 17:34:37 155

原创业务和数据的关系

综上所述，业务和数据紧密相连，形成了一个相互促进、共同发展的良性循环。企业只有充分认识到业务和数据的这种关系，加强业务与数据团队之间的协作与沟通，才能更好地利用数据驱动业务发展，在激烈的市场竞争中取得优势。

2025-01-15 10:31:07 428

原创 ExtJS：从概念到实践的探索之旅

它提供了一套完整的工具和组件，用于构建跨浏览器、跨平台的富客户端应用。通过这个示例，我们可以看到ExtJS如何简化复杂的Web应用开发，使得开发者能够专注于业务逻辑，而不是底层的DOM操作和浏览器兼容性问题。ExtJS的核心在于其组件体系，这些组件可以分为容器组件和元件组件。容器组件能够包含其他容器组件或元件组件，是单元化组件开发的基础。ExtJS的组件体系是基于面向对象的方法构建的。：ExtJS提供了大量的UI组件，从基础的按钮、文本框到复杂的表格、树形视图和窗体，几乎涵盖了所有常见的界面元素。

2024-11-07 16:53:46 440 1

原创取上一行不为空的数据值

在大促看打点数据时候，按照分钟看数，如果某个分钟没有数据，则取上一行的数据。经过验证本代码是可用的，具体的解析看正文的comments。

2024-10-08 20:58:15 184

原创 Flink 技术与应用（一）

是一个开源的大数据处理框架，其起源可以追溯到一个名为 Stratosphere 的研究项目，旨在建立下一代大数据分析引擎，2010 年，从 Stratosphere 项目中分化出了 Flink 的前身。到了 2014 年，Flink 项目被捐赠给了 Apache 软件基金会，并在同年 4 月成为 Apache 的孵化项目，12 月成为 Apache 的顶级项目。

2024-07-25 20:48:29 1144

原创 Flink ui 本地flink ui 报错 {“errors“:[“Not found: /“]}

在学习flink 的过程中，伊始的flink 版本是1.17.2 报题目的错误，百思不得其解，尝试更替了1.19.1 然后就成功了，期间未做任何的修改。柳暗花明又一村，死磕到底的勇气，不断试错，新时代的爱迪生，努力寻找答案。ui 默认地址： http://localhost:8081。

2024-07-10 09:02:23 764

原创 hive sql 函数集合（持续更新）

结论：可以用hive presto spark得出正确的结果值。

2024-06-20 15:30:12 372

原创 hive sql 生成分钟级别的表格

SELECTFROMSELECTa。

2024-06-14 20:33:16 424

原创 hive sql 下日期时间加一分钟的语句

京东presto 执行上面的语句报错：用spark 执行则是有正常的结果：

2024-06-14 20:15:06 528

原创错误码：spark_error_00000004

2）减少单个executor的并发数（cores），以减少每个executor的负载和内存需求，例如，--executor-cores 2表示将executor的CPU设置为2核。2）减少单个executor的并发数（cores），以减少每个executor的负载和内存需求，例如，--executor-cores 2表示将executor的CPU设置为2核。2）可以尝试减少不必要的cache缓存操作，避免对比较大的数据进行广播（broadcast）操作，并对程序逻辑和底层数据进行优化，减少内存消耗。

2023-09-15 17:42:28 512

原创离线数仓和实时数仓割裂的痛点,数据湖方案

2)实时加工可观测性，可运维性较弱。1)离线加工数据产出时效性不足。4)全天计算资源高峰集中在凌晨。流表二像性，可流式消费，可批查。3)批流双链路，双份资源开销。增量计算将凌晨计算打散到整天。数据入湖增量计算，提升时效。计算存储批流一体，可重跑。

2023-09-15 11:31:21 300

原创数仓的主数据出数据指标是否有意义，单调递增的数据指标作为虚荣指标是否对公司的业务发展有实际的指导意义

例如，一些与用户行为相关的指标，如总活跃数、下载量、粉丝数等，虽然会随着时间的增长而单调递增，但是这些指标并不能传达出用户的任何信息，因此是没有指导意义的。因此，公司需要对这些指标进行深入分析，找出其背后的原因和影响因素，并制定相应的策略来改善和优化这些指标，从而推动公司业务的发展。数仓的主数据出数据指标如果能够指导公司的业务发展，那么这些指标是有意义的。然而，如果这些指标只是单调递增的虚荣指标，那么它们并不能对公司的业务发展提供实际的指导意义。

2023-09-13 10:57:00 180

原创指标的业务负责人和技术负责人

业务负责人和技术负责人需要密切合作，以确保指标项目的成功实施。他们需要共同制定项目计划、沟通项目进展、解决问题，并确保项目成果能够真正为业务带来价值。他们与利益相关者沟通，确保指标与业务目标相一致，并负责推动项目的实施。技术负责人：负责确定如何收集、处理和报告指标数据，以及如何确保数据的。他们与技术团队合作，设计和实现技术解决方案，以满足业务需求。业务负责人：负责确定指标的。

2023-09-11 11:54:35 193

原创在互联网行业，运营和量化的关系与区别

在互联网运营中，常常使用A/B测试、用户行为分析、渠道管理等方法和工具，来验证运营策略和优化用户体验。运营更注重日常的运营管理和实时的决策调整，关注点更倾向于用户的行为、产品的改进等近期效果。互联网企业通过收集和分析大量用户行为数据、市场数据等，借助数据科学和统计模型等方法进行预测、分析和决策优化。量化的目标是通过数据驱动的方式，提升运营的效率和精确度，从而实现更好的商业结果。综上所述，在互联网行业中，运营和量化在方法、工具、关注点和时间尺度等方面存在一定的差异。在互联网行业，运营和量化的关系与区别。

2023-07-28 14:04:54 372

原创数据仓库和数据集市的边界

数据集市通常从数据仓库中选择和提供一部分的数据，经过适当的转换和整合，以支持特定业务部门的自主数据分析和决策。数据仓库是一个中心化的数据存储和管理系统，用于集成、存储和处理各种类型和来源的数据。数据仓库通常用于长期存储和分析历史数据，以支持企业级的决策分析和报告，它主要关注数据的存储和数据模型的设计。然而，数据仓库和数据集市之间的边界并不是固定的，可以根据具体的组织需求和业务场景进行调整和领域划分。数据仓库和数据集市是企业中常见的数据管理和分析架构组件，它们之间存在一定的边界，但也有相互关联和重叠的部分。

2023-07-26 20:49:42 198

原创 hive sql 时效突然降低的原因分析

map 的时间特别长，然后一直没有紧张。

2023-05-17 14:13:28 116

原创充电书库-study

推荐书目详细介绍，请参阅文件：序号书名作者序号书名作者。

2022-10-14 12:26:24 1058

原创 date_format(‘{TX_DATE}‘, ‘yyyyMM‘)

no

2022-09-02 18:07:27 353

原创 kafka flink es hive streaming

1.kafka create topic kafka-topics.sh --create --bootstrap-server 172.19.68.12:9092 --replication-factor 1 --partitions 1 --topic dev-yuqing-topic-test2.kafka producer kafka-console-producer.sh --broker-list 172.19.68.12.9092 --topic dev-yuqing-topic-t.

2021-09-09 11:07:57 429

原创怎么跳过hive文件的第一行

烦人在数据上报的过程中，每个文件都是有文件头的，用hive 的建表语句跳过tblproperittes('skip.header.line.count'='1')

2021-09-01 11:20:43 464 1

原创在做分区刷新报错时候，曾加set

set hive.msck.path.validation=ignore;MSCK REPAIR TABLE table_name;

2021-09-01 11:17:12 407

原创 kafka命令

启动：bin/kafka-server-start.sh config/server.properties --nohup创建topic：/bin/katopics.sh --create --zookeeper 172.16.29.231:2181 --replication-factor 1 --partitions 1 --topic topic1kafka查看topic和消息内容命令： /bin/kafka-console-consumer.sh --zookeeper localhost:..

2021-08-31 10:46:00 169

原创 hudi flink 集成error ，未解决

2021-08-07 10:29:55org.apache.flink.util.FlinkException: Error from OperatorCoordinatorat org.apache.flink.runtime.operators.coordination.OperatorCoordinatorHolder.notifySubtaskReady(OperatorCoordinatorHolder.java:426)at org.apache.flink.runt...

2021-08-07 17:22:54 1046 5

原创对 Hive 数仓表进行高效小文件合并

小文件如何产生动态分区插入数据，产生大量的小文件，从而导致 map 数量剧增 reduce 数量越多，小文件也越多( reduce 的个数和输出文件是对应的) 数据源本身就包含大量的小文件小文件带来的问题小文件会开很多 map，一个 map 开一个 JVM 去执行，所以这些任务的初始化，启动，执行会浪费大量的资源，严重影响性能小文件会给底层文件系统带来很大压力，如在 HDFS 中，每个小文件对象约占150 byte，如果小文件过多会占用大量内存。这样 NameNode 内...

2021-08-02 09:58:30 448

清华大学的DeepSeek从入门到精通

etl 数据加载

数据库

空空如也