数据库
文章平均质量分 85
jyfool
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
在信息整编过程中避免信息“流失”
信息整编是个细致活儿,稍不留神就可能让信息“流失”,影响后续使用。记住这六条原则加一条补充建议:保留原始数据、留分不留合、用字符串存数字和日期、只留“干货”、统一大小写、选好分隔符、记录来源,就能让你的数据更可靠、更易用。希望这些经验能帮你在信息整编的路上少踩坑!原创 2025-07-30 10:39:16 · 811 阅读 · 2 评论 -
新手小白的三刀流:3个步骤+1次AI对话,5分钟实现数据从网页导入到数据库
本文介绍了一种利用大语言模型(LLM)从网页提取结构化数据并快速入库的高效方法。首先,通过浏览器的开发者工具提取目标网页的HTML片段并保存为文件。接着,使用精心设计的提示词驱动LLM解析HTML,提取所需数据(如新闻标题、日期、链接),并生成SQL插入语句。最后,将生成的SQL语句复制到数据库工具中执行,完成数据入库。该方法省去了传统爬虫的复杂脚本编写,适合快速处理网页数据,关键在于设计清晰的提示词,让LLM完成繁琐的解析和格式化工作。推荐工具包括Chrome/Edge浏览器、常见LLM(如deepsee原创 2025-05-20 09:50:00 · 402 阅读 · 0 评论 -
主页地址采集不一致问题的分析与项目组内部规范建议
在多人协同项目中,企业主页地址的采集因组员对“主页地址”理解不一致,导致数据出现显著差异,增加了数据清洗成本并影响项目结果准确性。主要问题包括协议不一致、大小写差异、路径差异、子域名差异、末尾斜杠差异、查询参数冗余、本地化或语言版本差异、工具或平台差异、301重定向未统一以及无www的网址。这些问题导致程序在处理URL时无法正确归一化,引发数据重复或分析偏差。为解决这些问题,建议企业内部制定规范,统一使用HTTPS、域名大小写、子域名规则,处理301重定向,明确主页定义,去除末尾斜杠和参数,使用规范化工具,原创 2025-05-19 12:33:57 · 660 阅读 · 0 评论 -
MySQL 排序规则不一致导致的update错误问题及其对表设计的启示
在 MySQL 数据库开发中,排序规则(collation)不一致可能导致更新操作失败。本文通过一个实际案例,分析了由于 dict_company 和 my_companys 表中 homepage 字段的排序规则不同(分别为 utf8mb4_0900_ai_ci 和 utf8mb4_general_ci)而引发的错误。解决方案包括临时使用 COLLATE 关键字统一排序规则,或永久修改表结构以确保字段排序规则一致。此外,优化查询结构(如使用 JOIN)可以提高性能。为避免类似问题,建议在表设计时统一排序规原创 2025-05-19 11:05:04 · 1029 阅读 · 0 评论
分享