一头老黄牛@-优快云博客

原创从事实与指标到媒体机器学习：Netflix 数据工程职能的演变

为了支撑下一代媒体分析与机器学习，我们正在 Netflix 构建媒体数据湖——一个专为 Netflix 媒体资产设计的数据湖，并使用先进的向量存储（vector storage）方案。我们与数据平台团队合作，试点将LanceDB集成到我们的大数据平台（Big Data Platform）中。

2025-12-25 21:22:20 299

原创面向文学空间的“建成环境 + AI”可检索数据库/平台

文学空间不是“地图上的点”，而是叙事中的空间经验：路径、视角、边界、社会分区、场所气味与秩序。你的平台要解决的不是“在哪”，而是三连问：文本中如何说到一个地方（话语与修辞）这个地方对应现实何处/何时（可考证与不确定性）它如何映射建成环境（街巷、建筑类型、基础设施、公共空间）本章交付物研究对象界定：作品集/作者群/时期/城市（必须明确）每个空间结论必须能回链到具体段落（章回、页码、行号）平台定位：研究检索为主（可附轻量可视化）

2025-12-25 14:34:00 403

原创数字人文语境的“建成环境 + AI”

史料海量且异构：文本、地图、照片、地籍、图纸、口述史彼此割裂“看起来很美”的可视化多，“可复核的结论”少地名、门牌、行政区、街巷在历史中频繁变更，导致空间定位不稳定。

2025-12-25 14:31:08 492

原创论文解读|基于姓名的日本族裔身份算法判定

Holmes 的回答不是用一个黑箱模型替代人工判断，而是提出一种他自己称为“有原则的算法式务实主义”的工作流：以透明的证据链和可审计的决策理由为前提，将可自动化的部分尽可能自动化，并把无法达到高确定性的边缘案例系统地交还给人工研究，再把人工研究的结论持续反馈回算法，以降低未来的人工负担。答：它是一个以日语音系为基础的“可行性过滤器”。作者明确说明，很多非日本姓名“恰好由符合该模式的音节构成”，因为日语音节表里包含诸如 “be”“pa”“ge”“ro”“bi”“so”等组合，鼻音 n 还可单独成音节。

2025-12-25 00:38:52 714

原创论文解读|迁徙的人，迁徙的数据：面向移民遗产的数字化方法

English中文世界各地的移民在不同国家留下了多重痕迹，而这些文化遗产正日益引起研究者以及移民社群自身的关注。然而，文化遗产机构的资金与资源正在减少，难以满足保护移民社群遗产的需求。本文提出，弥合这一鸿沟的关键，在于当资源被连接起来、从而能够对档案记录与馆藏进行数字化探索时所开启的新可能性。尤其是，我们强调围绕移民的生命历程（life course）构建一种复合型、分布式资源的价值。若采用这种方法，并将遗产机构所持有的分散馆藏连接起来，那么移民社群便可获取关于家族的细致信息；

2025-12-25 00:33:04 541

原创论文解读|《数据挖掘真言宗僧侣文观（1278–1357）的著作：用数字方法评估日本中世三部宗教文本的争议作者归属》

*英文：**This article uses character n-grams methods to assess the authorship of three religious texts written in medieval Japan, comparing them to the works of Monkan (1278-1357), a Shingon monk active during the first half of the 14th century.中文：本文使用。

2025-12-25 00:29:00 766

原创论文解读|《真言宗僧人文观（1278–1357）作品中的数据挖掘：用数字方法评估日本中世纪三部宗教文本的争议作者归属》

*英文：**This article uses character n-grams methods to assess the authorship of three religious texts written in medieval Japan, comparing them to the works of Monkan (1278-1357), a Shingon monk active during the first half of the 14th century.中文：本文使用。

2025-12-25 00:27:06 431

原创论文解读｜探究古代中国学者与政治家之间的关系：以元祐时期为例

摘要：本文以宋代元祐时期（1086-94）为例，探究古代中国学者与政治家的关系。通过中国历代人物传记资料库（CBDB）收集文学关系（如共同为第三方写作）和政治关系（如政治派系关联）数据，构建两个矩阵并采用泊松-伽马分解模型分析。研究发现学者可分为三组，政治家分为两组及中间派；共同文学活动者更可能共享政治目标，证实了元祐时期文人政治的特征。该研究为理解宋代"唐宋变革"中的政治文化转型提供了新视角。（148字）

2025-12-25 00:18:24 743

原创论文解读｜无监督词向量从材料科学文献中捕获潜在知识

这篇论文提出了一种无监督方法，通过词向量（word embeddings）从材料科学文献中自动提取潜在知识。研究人员收集了1922-2018年间330万篇材料科学相关论文摘要，使用Word2vec的skip-gram模型训练得到200维词向量。结果表明，这些未经人工标注的词向量不仅能捕捉元素周期表结构等复杂概念，还能预测未来可能发现的材料。研究发现表明，大量科学文献中蕴含着尚未被充分挖掘的知识，这种方法为大规模科学文献挖掘提供了新思路。

2025-12-24 20:54:22 589

原创论文解读 | 佛教禅修与人类增强伦理：基于印度佛教禅修理论的视角

人类增强是指利用生物技术、信息技术等手段提升人类的体力、感官或认知能力。它与传统医疗的区别在于，医疗（治疗）旨在恢复缺失或受损的功能，使人回到“正常”水平；而增强则旨在超越正常的人类极限，创造出非凡的知识、行动或感知模式。

2025-12-24 14:25:24 606

原创论文解读 | 历史社会网络分析在中国佛教研究中的应用：以道安、慧远与鸠摩罗什为例

这是一个由法鼓文理学院等机构历时十三年开发的数据库，记录了中国佛教史上约17,500名人物及其互动关系。数据主要提取自《高僧传》等僧传文学和谱系资料。它将人物视为“节点”，将相遇、通信、师徒关系视为“边”，从而构建出一个可量化的历史模型。

2025-12-24 14:25:09 457

原创论文解读|佛教启发的自我追踪应用：数字时代的商业情绪与价值观追踪

应用依赖”是指技术限制了用户的操作程序，使用户必须依赖应用才能完成某种体验（如只有看着Calm屏幕才能平静）；而“应用使能”则是将应用作为通往新体验、知识和关系的跳板，最终目的是让用户超越应用本身。

2025-12-24 14:24:41 716

原创完整的数据科学基础设施知识体系（六）

数据流通交易平台建设要点摘要数据流通交易平台面临确权难、定价难、交易难、监管难和隐私难五大核心挑战。平台采用三层架构：基础层（身份认证、区块链等）、服务层（隐私计算、智能合约等）和应用层（数据商城、交易撮合等）。通过数据资产登记系统实现数据确权，该系统包含资产注册、指纹计算、所有权验证和转移功能，利用区块链技术确保交易可追溯和防篡改。平台采用联邦学习、安全多方计算等隐私保护技术，在保障数据安全的前提下促进数据要素市场化流通。

2025-12-24 09:53:25 211

原创完整的数据科学基础设施知识体系（五）

文章摘要本章探讨行业数据基础设施建设的特殊性及实践路径。行业级数据基础设施区别于企业级，具有多主体数据主权、跨组织标准协商、市场化利益分配等特点，其核心价值在于打破数据孤岛、促进协同创新、提升监管效能。典型架构分为汇聚层（数据归集）、流通层（交易平台）和应用层（公共服务）三层，技术实现可采用集中式（性能优但主权争议）或联邦式（数据不出域但复杂）方案。不同行业需根据监管要求、数据敏感性等因素选择合适路径，通过标准协商、技术适配和机制设计构建符合行业特性的数据基础设施。

2025-12-24 09:52:25 725

原创完整的数据科学基础设施知识体系（四）

本文介绍了四种常见的数据脱敏方法及其Python实现：1）遮盖（Masking）通过部分隐藏敏感信息（如手机号、身份证号）实现脱敏；2）替换（Substitution）使用假名或哈希值替代真实数据；3）加噪（Noise Addition）通过添加高斯或拉普拉斯噪声保护数值隐私；4）泛化（Generalization）将具体值转换为区间或类别（如收入区间）。此外还提供了脱敏策略配置类，支持按表和字段灵活配置脱敏规则。这些方法适用于不同场景的数据隐私保护需求，从基础脱敏到差分隐私均有覆盖。

2025-12-24 09:51:09 559

原创完整的数据科学基础设施知识体系（三）

摘要：本文介绍了MLOps工具和模型开发的关键流程。实验跟踪推荐MLflow（记录参数、指标、模型）和Weights & Biases（可视化更强）。模型评估需根据场景选择指标（如不平衡数据用F1-Score）。交叉验证推荐分层K折或时序验证。超参数调优对比了网格搜索、随机搜索和贝叶斯优化。模型解释性工具包括SHAP值（全局特征重要性）和部分依赖图（PDP）。完整MLOps平台推荐Hopsworks和Tecton。

2025-12-24 09:50:16 365

原创完整的数据科学基础设施知识体系（二）

摘要本章节详细探讨了数据加工环节，重点聚焦数据清洗与整合两大核心任务。数据清洗部分系统性地介绍了缺失值处理、异常值检测、重复数据识别和格式标准化四大关键技术，并提供了Python代码示例和业务规则建议。数据整合部分阐述了多源数据关联的挑战与实体解析解决方案，包括基于规则和模糊匹配的方法。文章强调数据加工是将原始数据转化为可用资产的关键增值过程，需要结合统计方法、机器学习算法和业务规则来构建自动化、可配置的数据质量保障体系。

2025-12-24 09:48:34 718

原创完整的数据科学基础设施知识体系（一）

本文提出以"数据驱动决策闭环"为核心框架，系统构建数据科学基础设施体系。文章将十大模块整合为五个有机部分：基础设施底座（数据采集、存储、计算）、数据治理与安全（质量、合规）、分析与建模（统计学习、工具生态）、工程化与MLOps（模型部署）、行业落地（场景适配）。通过"业务问题→数据获取→分析建模→决策落地→反馈迭代"的闭环逻辑，阐明各模块在数据价值链中的定位与协同关系，为不同角色读者提供针对性阅读路径。全文强调基础设施不是技术堆砌，而是支撑数据价值闭环的能力体系。

2025-12-24 09:46:22 305

原创论文解读 | 基于百万级最近邻搜索的汉传佛教文献平行文本计算方法

tokensequencetextTokenSequenceText(注：由于篇幅限制，此处翻译为论文核心内容的完整呈现。下文将进入深度解读与问答环节。

2025-12-23 00:29:33 614

原创论文解读|古汉语佛教文献分词研究

分支熵衡量的是一个序列后面跟随不同字符的不确定性。在词的内部，后续字符通常比较固定（熵值低）；而在词的边界，后续字符的选择会突然变多（熵值高）。通过监测这种熵值的变化，可以预测词的边界。

2025-12-23 00:29:03 621

原创论文解读 | 错误扭曲、序列打破与代码驰骋：《塞尔达传说：时光之笛》速通中的系统连续性与叙事架构

摘要：本文以任天堂经典游戏《塞尔达传说：时光之笛》（OoT）为例，探讨速通玩家（speedrunners）如何通过创造性玩法颠覆传统游戏体验。速通玩家结合精湛操作与对游戏机制的深入理解，以Any%速通为例，仅用17分钟就完成原需60小时的主线剧情。他们通过穿墙、反向移动等非常规操作，跳过剧情关键点，完全重构了游戏叙事与空间逻辑，形成与原版截然不同的游戏体验。这种玩法既展现了玩家对游戏系统的极致探索，也重新定义了游戏的可能性。

2025-12-23 00:22:04 1120

原创论文解读 | 重混复古：保留“经典感”

摘要：文章探讨了通过将复古游戏元素与现代设计重混来保留“经典感”的有效性。研究表明，游戏保存不仅需要硬件维护，更需识别核心体验要素（Newman 2012）。以《洛克人9》为例，其复古风格成功融合新内容与经典体验（Takeshita 2008）。马里奥等角色的持久魅力正源于频繁的迭代重构（Suominen 2012）。在技术快速迭代的背景下（Schrey 2014），这种重混方式成为对抗数字废弃、延续游戏文化记忆的创新实践。

2025-12-23 00:21:12 468

原创论文解读|重玩日本与红白机

《重玩日本与红白机》一文探讨了电子游戏作为文化传承媒介的价值。作为红白机主设计师，上村雅之回忆开发初衷仅是创造电视游戏设备，却未料到游戏能承载如此丰富的内容。他指出，儿童通过不断"重玩"游戏进行无意识的"研究"，这种重复体验与创新正是游戏发展的核心动力。日本自古吸收外来游艺形式，经本土化传承，最终催生了电子游戏这一专门用于"重玩"的平台。作者在参与红白机开发30年后，终于理解"重玩"不仅是游戏行为，更是文化传承的深刻过程。

2025-12-23 00:19:18 647

原创论文解读|Replaying Japan 会议：将日本游戏研究与数字人文相结合

文章最终将电子游戏定义为“受跨国流动动力影响的文化对象”。这意味着日本游戏研究不再仅仅是关于日本的研究，而是一个关于全球数字流变、技术接受史和跨文化身份构建的宏大课题。

2025-12-23 00:18:44 707

原创论文解读|弹珠机：混合物理与虚拟界面的案例研

正村规制是由正村竹一在1948年发明的一种复杂的钢钉布局。它改变了弹珠随机落下的路径，使游戏更具技巧性和观赏性。它是现代弹珠机的雏形，确立了通过物理布局来控制游戏节奏和概率的艺术。

2025-12-23 00:18:10 737

原创论文解读|侦探小说的要素与基于日本侦探漫画的情节模式提取

本文通过分析134部日本侦探漫画，提取了37种情节要素、10种诡计类型、9种犯罪动机和10种人物关系，并基于因子分析得出11个关键因子。研究发现，情节转移网络的结构会随不同因子组合而变化，这为计算机自动生成自然有趣的侦探故事提供了量化依据。该研究结合传统叙事学理论与计算分析方法，填补了侦探故事模式化研究的实证空白，对实现智能化故事创作具有重要参考价值。

2025-12-23 00:06:45 916

原创论文解读|Entity-fishing：一项面向DARIAH的实体识别与消歧服务

本文介绍了entity-fishing这一命名实体识别与消歧(NERD)在线服务，它基于维基百科和维基数据实现实体提取与消歧。作为欧洲DARIAH数字人文基础设施的组成部分，该服务采用REST API设计，支持多语言处理，并符合Web标注数据模型。文章详细阐述了其工作流程、知识库构建和服务部署方案，展示了该服务在HIRMEOS项目中的实际应用，为数字人文领域的可持续技术服务提供了参考范例。

2025-12-23 00:06:12 616

原创论文解读|数据库的“胶带修补术”：如何利用碎片化在线数据研究“日本”电子游戏

本文探讨如何利用互联网上碎片化的游戏爱好者数据来研究日本电子游戏的历史发展。作者提出"胶带修补术"方法，通过整合来自全球游戏爱好者社区收集的异构、零散信息，构建稳健的研究数据集。研究指出"日本电子游戏"概念存在多重模糊性，既涉及生产地、市场分布，也包含文化美学特征。随着游戏产业全球化趋势加强，传统国家产业概念正在重构，但可靠数据往往难以获取。该方法为克服数据匮乏问题提供了创新思路，有助于更深入理解日本游戏产业与本土及全球市场的复杂互动关系。

2025-12-23 00:05:17 374

原创论文解读|虚拟世界中的“不再之地”：从佛教视角看数字宗教场所的脆弱性与无常

答：“不再之地”是指那些曾经在虚拟世界（如“第二人生”）中存在，但后来被移除、删除或因无人维护而消失的数字空间。它们不同于现实中的废墟，因为它们没有物理实体，其存在仅能通过数字痕迹（如博客、截图）或人类记忆来证实。

2025-12-22 23:54:40 463

原创论文解读|导言：佛教与技术

本特刊《佛教与技术》所收录的论文，最初发表于2019年9月20日至22日在温哥华不列颠哥伦比亚大学举行的一次会议上。此次题为“佛教与技术：历史背景与当代挑战”的会议由陈金华和马库斯·宾根海默组织，是加拿大社会科学与人文研究委员会资助的“自下而上：佛教与东亚宗教”项目的一部分。在活动中，超过25位学者就佛教与技术在过去和现在的各种关系维度提交了论文。“佛教与技术”乍一看似乎是一个奇怪的组合，有些人可能会将其视为研究这一有着2500年历史的宗教的一种时髦、甚至轻浮的方法。

2025-12-22 23:53:45 663

原创论文解读|恐怖电影预告片配乐的计算分析

本文采用计算电影分析方法，结合统计学、数据科学与音频可视化技术，对韩国恐怖电影《鬼镜》（2003）预告片配乐进行量化研究。通过语谱图和归一化聚合功率包络等工具，分析了配乐随时间演变的特征及其在不同尺度上的功能表现。研究探讨了单声道/立体声文件、采样率和音频归一化等技术因素对分析的影响，并提供了基于R语言的开源代码。该研究填补了电影声音计算分析的空白，为理解配乐如何通过节奏、氛围等元素影响观众情感体验提供了新视角。支持网站：https://rpubs.com/nr62_rp33/CFA-into-the-mi

2025-12-22 23:52:36 833

原创论文解读|台湾总督府行政文书目录的时空特征研究

这些文献包含大量的古语、特定的官职名称（如“抚垦署”、“弁务署”）、殖民地特有的术语（如“隘勇”、“土匪”、“蕃务”）以及古地名。其核心价值在于，研究者并未局限于传统史学的文本细读，而是通过对“目录”这一元数据的深度挖掘，勾勒出了日本在台湾殖民统治初期的行政重心转移轨迹。答：它展示了一套完整的“历史大数据”处理流程：从非结构化文本的清理、历史词典的构建、到多维度的量化分析（时间、空间、关联网络）。综上所述，本研究证明了即使是看似枯燥的“目录数据”，在经过科学的量化处理后，也能释放出宏观的历史洞察力。

2025-12-22 23:51:17 995

原创论文解读|丁尼生特征性语气副词使用的对应分析

本文采用对应分析法（CA）研究丁尼生诗歌中语气副词的特征性用法。研究发现，与其他11位奥古斯都、浪漫和维多利亚时期诗人相比，"maybe"和"mayhap"是丁尼生最常用的两个独特语气副词。虽然仅分析了15个语气副词和11位诗人的作品，但研究揭示了丁尼生风格的新特征，并证实了CA在诗歌文本分析和解读文学作品"未读"部分的有效性。这一定量方法为传统文学研究提供了新的分析维度。

2025-12-22 23:45:18 926

原创论文解读|MAPS 在线档案与库：利用 CollectionBuilder 构建基于社区的文化遗产数字孪生

社区文化遗产档案的数字化转型面临可持续性挑战，特别是志愿者主导的跨国项目。本文以缅因州-青森县版画协会(MAPS)在线档案为例，探讨利用开源平台CollectionBuilder创建"数字孪生"的可行性。研究表明，这种元数据驱动、可定制且支持多语言的工具能帮助友好城市项目在缺乏机构支持的情况下自主管理文化遗产。研究评估了此类平台在知识传承和技术可及性方面的优势，展示了数字人文工具如何助力社区文化项目扩大影响力，实现跨文化传承。

2025-12-22 23:44:44 574

原创论文解读|性别化的情感：日本原爆文学中男性与女性写作的情感模式

摘要本文通过情感分析（SA）研究日本原爆文学中的性别化情感模式，挑战了“女性写作本质上是关怀性”的传统假设。研究采用Oseti情感分析模型，提出“情感保护”概念，衡量作者保护角色免受创伤的程度。结果显示，男性作者的情感保护倾向强于女性作者，颠覆了性别刻板印象。分析还发现，男性作家更遵循叙事惯例，而女性作家表现出更大变异性。结合女性主义批评、数字人文与接受理论，研究将性别化写作假设转化为可计算的科学假说，为战争文学中的性别、创伤与体裁提供了数据驱动的新视角。

2025-12-22 23:44:09 528

原创论文解读 | 故事角色言语特征的跨类型比较与模式提取

本文通过构建跨类型故事角色言语数据集，采用定量方法分析了现代日本五种流行故事类型（冒险、战斗、恋爱、侦探和恐怖）中约26,000条角色言语。研究从言语行为角度进行分类，运用卡方检验和因子分析揭示了不同故事类型的言语特征模式，识别出问答型、攻击型和建议型三种通用言语模式。该研究弥补了现有叙事学研究中角色言语功能分析的不足，为故事创作提供了数据支持和分析框架。

2025-12-22 23:43:29 917

原创论文解读 | 故事角色言语特征的跨类型比较与模式提取

摘要：本研究聚焦故事角色的言语表达，构建了包含约26,000条语句的基础数据集，涵盖日本现代娱乐文化中五种流行类型（冒险、战斗、恋爱、侦探、恐怖）。通过言语行为分类和卡方检验，揭示了各类型的言语特征差异，并提取出三种通用模式：问答型、攻击型和建议型。研究发现，言语行为分析能有效识别不同故事类型和角色间的表达规律，为叙事学研究提供了量化方法。该成果弥补了传统研究对角色言语功能分析的不足，证明了跨类型言语数据集构建的实用价值。

2025-12-22 23:41:39 241

原创论文解读 | 故事角色言语特征的跨类型比较与模式提

本研究通过定量方法分析故事角色的言语特征，构建了包含26,000条话语的基础数据集，涵盖冒险、战斗、恋爱、侦探和恐怖五种流行故事类型。研究采用言语行为理论对角色话语进行分类，通过卡方检验和因子分析揭示了各类型的倾向性特征，并提取出问答型、攻击型和建议型三种通用言语模式。该研究填补了角色话语功能研究的空白，为叙事分析和跨类型比较提供了新视角。

2025-12-22 23:40:57 828

原创当生成式AI改变人们的设计方式时，Canva最大的挑战是保持创意的人性化和意义性

1. 清晰而持久的使命："赋能全世界去设计"不是空洞的口号，而是指导所有战略决策的北极星。2. 技术与人性的平衡：拥抱AI等新技术，但始终将人类创造力置于核心位置，技术是放大器而非替代品。3. 基本功的极致追求：在了解用户、建立社区、讲述故事等营销基本面上持续深耕，而不是追逐每一个新趋势。4. 数据驱动的用户洞察：将海量用户数据转化为产品改进和体验优化的能力。5. 组织能力的系统建设：通过AI等工具提升效率，将团队精力释放到更具战略价值的工作上。6. 伙伴生态的深度协同。

2025-12-22 01:35:37 549

原创 # 多语言信息处理与跨语言检索（Multilingual NLP / CLIR）综述与展望

多语言自然语言处理（Multilingual Natural Language Processing, M-NLP）与跨语言信息检索（Cross-Lingual Information Retrieval, CLIR）是当前人工智能领域的核心研究方向，其核心目标在于弥合不同语言间的信息鸿沟，促进全球知识的民主化与高效流通[21,27,58]。CLIR作为M-NLP的关键应用之一，使用户能够以一种语言的查询检索另一种语言的文档，这对于获取非母语信息，尤其是在学术研究中发现非英语的关键资料至关重要[13,37,

2025-12-22 01:16:38 590

空空如也

空空如也