自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 CRAW4LLM:面向大模型预训练的高效网络爬虫算法解析

近年来,大规模语言模型(LLM)的预训练高度依赖网络爬虫数据(如Common Crawl)。低效数据筛选:90%以上抓取内容因质量低下被丢弃,造成算力浪费(见图1);优先级错位:基于PageRank等图连接性指标,偏好高入链网页而非高价值内容(见图2相关性分析)。核心矛盾:传统爬虫的"数据收集策略"与LLM预训练的"数据质量需求"严重脱节!创新价值✅ 减少79%的无效抓取✅ 降低网站服务器压力未来方向动态调整评分模型的在线学习机制结合差分隐私保护网站数据作者声明。

2025-02-21 11:07:05 868

原创 【ES】ik分词器词库热更新

注意此处不管是加载class, 获取连接, 执行sql的代码块, 都必须要被AccessController.doPrivileged方法包裹, 否则会出现各种异常!这里是因为jdk没有权限所致, 但由于我们部署的es是由docker部署的, 后续换环境还要重复去配置很麻烦, 所以我们直接用代码操作!在数据库中, 删掉我们刚刚添加的"周饼伦", 再重新测试分词, 可以看到ik已经将其拆成三个字了, 热部署效果成功。开放相关权限, 否则会出现读取不了mysql驱动或是连接不上mysql的各种异常!

2024-10-23 15:57:02 579

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除