KKUTE-优快云博客

原创 CRAW4LLM：面向大模型预训练的高效网络爬虫算法解析

近年来，大规模语言模型（LLM）的预训练高度依赖网络爬虫数据（如Common Crawl）。低效数据筛选：90%以上抓取内容因质量低下被丢弃，造成算力浪费（见图1）；优先级错位：基于PageRank等图连接性指标，偏好高入链网页而非高价值内容（见图2相关性分析）。核心矛盾：传统爬虫的"数据收集策略"与LLM预训练的"数据质量需求"严重脱节！创新价值✅ 减少79%的无效抓取✅ 降低网站服务器压力未来方向动态调整评分模型的在线学习机制结合差分隐私保护网站数据作者声明。

2025-02-21 11:07:05 868

原创【ES】ik分词器词库热更新

注意此处不管是加载class, 获取连接, 执行sql的代码块, 都必须要被AccessController.doPrivileged方法包裹, 否则会出现各种异常!这里是因为jdk没有权限所致, 但由于我们部署的es是由docker部署的, 后续换环境还要重复去配置很麻烦, 所以我们直接用代码操作!在数据库中, 删掉我们刚刚添加的"周饼伦", 再重新测试分词, 可以看到ik已经将其拆成三个字了, 热部署效果成功。开放相关权限, 否则会出现读取不了mysql驱动或是连接不上mysql的各种异常!

2024-10-23 15:57:02 579

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 CRAW4LLM：面向大模型预训练的高效网络爬虫算法解析

原创 【ES】ik分词器词库热更新

空空如也

空空如也

原创【ES】ik分词器词库热更新