自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (1)
  • 收藏
  • 关注

原创 ubantu下Wiki.js 3.x Docker 部署会话总结

本文记录了Wiki.js 3.x alpha版本在Ubuntu 24.04.3 LTS系统上通过Docker部署的过程及遇到的问题。部署流程包括Docker安装、环境初始化、Compose配置和服务启动等步骤,最终成功搭建测试环境(非生产)。然而在实施过程中遇到了包括GPG密钥验证失败、Docker镜像拉取超时、alpha版功能缺失等8个主要问题,其中部分问题通过配置调整解决,但Guest组权限等UI/数据库同步问题因alpha版不稳定未能完全修复。结论指出当前版本适合测试但不推荐生产使用,建议等待官方be

2025-11-20 11:06:07 744

原创 Wiki.js 2.5.x GraphQL API 创建页面 400 Bad Request 故障排查全记录

摘要: 本文记录了在Ubuntu环境中使用Python脚本批量导入Markdown页面到Wiki.js 2.5.308时遇到的GraphQL API 400错误排查过程。最初误用REST风格请求导致404,转用GraphQL后仍报400。通过分步验证发现核心问题:未满足GraphQL必填字段要求(如description、editor等非空字段)。最终通过硬编码完整mutation并打印原始响应(r.text)定位问题,成功实现批量导入。关键经验包括:优先使用GraphQL Playground测试、400

2025-11-17 14:04:22 261

原创 把网页“搬”到你面前:一句话调用工具的高效魔法KIMI

kimi 的 一个高效工具的使用

2025-09-19 10:48:00 493

原创 用AI直接绘制思维导图

本文介绍了一种利用AI直接生成思维导图的高效方法:1)通过精确提示词让AI输出结构化Markdown分级列表(含层级标记、中英对照、附加字段);2)一键导入XMind自动生成完整思维导图。该方法全程无需手工拖拽,支持自动识别标题层级、保留多行属性,并实现联邦属地特殊标记(★前缀)。文末还提供了获取开源免费思维导图工具的进阶提问模板。这种工作流特别适合处理复杂行政区域等结构化数据可视化需求。

2025-09-15 13:10:12 288

原创 提示词技巧:使用xaiArtifact 关键字,并且指定下载文件名

摘要:本文介绍了通过grok xaiArtifact关键字优化AI输出的技巧,以生成东南亚国家首都CSV文件为例,展示如何用明确提示词指定文件名和格式。要点包括:1)要求CSV格式与表头;2)使用xaiArtifact包装输出;3)预设文件名(如"东南亚首都.csv")。这种方法能生成结构化数据文件,含元数据且可直接下载,提升输出一致性和可用性。适用于需要标准化数据格式的自动化任务。(149字)

2025-09-02 12:49:15 395

原创 编写高效提示词以生成 xAI Artifact 文件,以实现一键下载

使用好grok大模型的 artifact 功能,让产生的文件可以直接下载

2025-09-02 12:33:24 672

原创 网页爬虫实战:xpath从失败到成功的调试与优化

本文分享了从某网站抓取新闻标题和日期信息的爬虫开发经验。最初使用绝对XPath路径提取li元素失败,经过调试发现页面结构动态变化。通过保存HTML检查、尝试多种XPath模式,最终确定基于类名的路径//ul[contains(@class, "wp-block-post-template")]/li有效。优化后的脚本成功提取所有224页数据并保存为结构化CSV文件。关键经验包括:避免绝对XPath路径、优先使用类名、分步验证调试、保存HTML对比、模拟浏览器行为等。文章强调灵活应对动态内

2025-08-16 10:53:42 992

原创 探索 Wikidata:解锁结构化、可溯源知识的宝藏

介绍比wikipedia维基百科更适合“机器”读取的 wikidata

2025-07-31 11:44:51 1136

原创 在信息整编过程中避免信息“流失”

信息整编是个细致活儿,稍不留神就可能让信息“流失”,影响后续使用。记住这六条原则加一条补充建议:保留原始数据、留分不留合、用字符串存数字和日期、只留“干货”、统一大小写、选好分隔符、记录来源,就能让你的数据更可靠、更易用。希望这些经验能帮你在信息整编的路上少踩坑!

2025-07-30 10:39:16 811 2

原创 如何让AI大模型生成规范的CSV并导入Excel

本文介绍了如何让AI输出规范的CSV数据并正确导入Excel的方法。首先提供包含明确要求的提示词,建议使用"|"作为分隔符以避免数据错位。然后详细说明了Excel导入步骤:复制CSV内容后,选择"文本导入向导",在第二步中勾选"其他"并输入"|"作为分隔符,即可将数据整齐导入Excel表格。这种方法能有效解决包含逗号的数据导入问题,确保信息准确呈现。

2025-07-24 11:41:48 587

原创 从 403 和 429 到成功:用 Python 模拟浏览器请求获取 ADS-B Exchange 飞行轨迹数据的挑战

摘要 本文记录了从ADS-B Exchange平台获取飞机轨迹JSON数据的Python实现过程。作者最初遇到403和429错误,通过浏览器开发者工具分析发现,认证依赖adsbx_sid Cookie和特定请求头。主要解决步骤包括:1) 精简Cookie仅保留必要项;2) 模拟浏览器InPrivate会话;3) 添加重试机制处理429错误。最终方案使用requests.Session初始化会话,配置完整请求头,并动态获取最新Cookie值,成功实现了自动化数据抓取。该方法为处理类似网页认证限制提供了参考模板

2025-07-02 10:55:41 1153

原创 爬虫Scrapy XPath 取不出数据的问题排查小结

Scrapy爬取网页时XPath失效的常见原因是浏览器渲染的HTML与Scrapy获取的静态HTML存在差异,尤其在动态加载内容的情况下。解决方案包括:1)使用Scrapy-Splash或Selenium处理JS渲染;2)根据实际HTML调整XPath表达式;3)模拟浏览器请求头;4)保存HTML并开启浏览器离线模式验证结构一致性。关键是通过对比静态HTML和渲染后DOM的差异,针对性地修改XPath或启用JS渲染支持。

2025-06-12 09:51:35 946 1

原创 使用谷歌翻译处理Excel文件导致url变化的教训

使用谷歌翻译导致excel的url字段被意外修改

2025-05-23 16:47:40 295

原创 新手小白的三刀流:3个步骤+1次AI对话,5分钟实现数据从网页导入到数据库

本文介绍了一种利用大语言模型(LLM)从网页提取结构化数据并快速入库的高效方法。首先,通过浏览器的开发者工具提取目标网页的HTML片段并保存为文件。接着,使用精心设计的提示词驱动LLM解析HTML,提取所需数据(如新闻标题、日期、链接),并生成SQL插入语句。最后,将生成的SQL语句复制到数据库工具中执行,完成数据入库。该方法省去了传统爬虫的复杂脚本编写,适合快速处理网页数据,关键在于设计清晰的提示词,让LLM完成繁琐的解析和格式化工作。推荐工具包括Chrome/Edge浏览器、常见LLM(如deepsee

2025-05-20 09:50:00 402

原创 主页地址采集不一致问题的分析与项目组内部规范建议

在多人协同项目中,企业主页地址的采集因组员对“主页地址”理解不一致,导致数据出现显著差异,增加了数据清洗成本并影响项目结果准确性。主要问题包括协议不一致、大小写差异、路径差异、子域名差异、末尾斜杠差异、查询参数冗余、本地化或语言版本差异、工具或平台差异、301重定向未统一以及无www的网址。这些问题导致程序在处理URL时无法正确归一化,引发数据重复或分析偏差。为解决这些问题,建议企业内部制定规范,统一使用HTTPS、域名大小写、子域名规则,处理301重定向,明确主页定义,去除末尾斜杠和参数,使用规范化工具,

2025-05-19 12:33:57 660

原创 MySQL 排序规则不一致导致的update错误问题及其对表设计的启示

在 MySQL 数据库开发中,排序规则(collation)不一致可能导致更新操作失败。本文通过一个实际案例,分析了由于 dict_company 和 my_companys 表中 homepage 字段的排序规则不同(分别为 utf8mb4_0900_ai_ci 和 utf8mb4_general_ci)而引发的错误。解决方案包括临时使用 COLLATE 关键字统一排序规则,或永久修改表结构以确保字段排序规则一致。此外,优化查询结构(如使用 JOIN)可以提高性能。为避免类似问题,建议在表设计时统一排序规

2025-05-19 11:05:04 1029

原创 合规批量下载美国上市公司年报数据的一些经验和总结

本文总结了使用Python脚本批量下载和处理美国上市公司SEC报告的技术经验。通过CIK代码查询SEC EDGAR系统,生成特定日期和报告类型的URL,并使用Selenium和Requests库下载报告内容。流程包括数据获取、文件下载、Excel处理和多线程优化,确保高效处理几百条数据。关键技术挑战包括SEC访问限制、动态网页内容和数据完整性,解决方案包括设置合规的User-Agent、使用Selenium模拟浏览器行为以及错误日志记录。最佳实践包括模块化设计、多线程优化和严格遵守SEC合规性。该自动化流程

2025-05-18 20:19:20 1244

原创 解决多语言网站文件名乱码问题:以 DART 网站为例

非标准编码:服务器将 UTF-8 字节序列误作 Latin-1,未使用filename*,导致乱码。多编码解码:优先,后备cp949和 RFC 2047,确保兼容性。前期调试:打印和字节序列,对比浏览器行为,快速定位编码问题。手动信息:通过开发者工具获取、字节序列和浏览器文件名,推断服务器编码。在处理多语言网站时,乱码问题可能频繁出现。提前收集关键信息,结合多编码解码逻辑,能有效应对类似挑战。希望这篇文章为你在爬取多语言内容时提供参考!

2025-05-08 10:45:44 769

原创 解决 Python 下载 ZIP 文件失败的问题:从 DART 网站案例看关键点

空响应误判:不要因chunked或无跳过保存,需迭代所有分块数据。会话简化:验证 InPrivate 模式行为,移除不必要的初始化。请求头优化:匹配浏览器头,优先。调试响应:打印响应内容,确认数据存在(如PK开头)。前期通过浏览器开发者模式获取请求/响应头、响应内容和会话依赖,能有效避免类似问题。希望这篇文章为你在爬取文件时提供参考!

2025-05-08 10:42:39 794

原创 用python创建epub文件的一些知识点

读取json配置文件,然后把几个xhtml文件合并为epub的python库。配置文件里包含了书名、作者、封面图像路径、各个章节的路径和章节名称。

2025-01-12 17:11:45 650 1

原创 ebooklib中epub的几点使用心得

用ebooklib的epub生成epub电子书时,几个函数应注意的地方以及书脊的概念

2024-07-30 13:04:29 431

原创 爬虫抓取微信公众号文章一些收获2024-7

通过微信公众号后台,读取其他公众号的文章列表,并且抓取每一篇文章的静态地址

2024-07-25 20:51:27 950 2

用户为中心的解决方案

user-centered solutions. 英文

2008-11-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除