首页 > Ai资讯 > Ai产品

Crawl4LLM：专为LLM预训练准备的网络爬虫工具

映技派于2025-02-24发布在Ai产品

Crawl4LLM是什么？

Crawl4LLM是清华大学和卡内基梅隆大学一起开发的，专门给大型语言模型（LLM）预训练用的网络爬虫工具。它能智能判断网页对LLM预训练的作用，先抓那些有价值的网页，少抓没用的，仅抓取了21%的网络数据，就与之前全部抓取的数据性能相同，这样数据质量就提高了，爬取速度也快了不少。

Crawl4LLM是什么.webp

项目情况：

来源：清华和卡内基梅隆大学合作开源的。
目标：解决传统爬虫抓取效率低、数据质量差的问题，让LLM预训练更高效。

Crawl4LLM的主要功能：

智能选网页

智能评估：能自动看网页对LLM预训练有没有用，先抓有用的。
效率高：比传统爬虫抓的网页少多了，效果却差不多甚至更好，效率差不多能提高5倍。

多种爬取办法

智能模式：主要的模式，自动挑有价值的网页抓。
随机爬取模式：网页内容不用太精确选的时候能用。
按链接数量爬取模式：要抓大量数据的时候可以用。

状态管理和恢复

定期保存：能定期存爬虫的状态，要是中途停了，能接着上次的地方抓，不会丢数据。

数据可视化工具

直观查看：有数据浏览工具，能看抓的数据，随时了解进度和效果。

兼容性和集成

和DCLM框架对接：能提取文档ID、拿文档内容，还能和深度学习模型（DCLM）预训练框架无缝连接，直接给模型训练用。

Crawl4LLM的技术细节：

模块架构：有爬虫调度器、网页解析器、数据存储器这些模块。
错误处理：有很强的纠错和自动重试能力，保证数据采集稳定。
数据质量管理：能去重和清洗数据，让数据质量好又一致。

Crawl4LLM的应用场景：

LLM预训练：给大规模LLM预训练提供好数据。
数据集构建：自己做数据集。
搜索引擎优化：分析改进SEO策略。
网络监测与分析：实时看网络情况。
写在网络监测与分析：做情感分析和其他数据分析。

Crawl4LLM的使用方法：

1. 准备工作：

获取ClueWeb22数据集。
创建Python虚拟环境并安装必要的库（numpy, tqdm, fasttext, pyyaml, wandb）。
下载DCLM FastText分类器并放置在指定目录。

2. 创建配置文件：在configs/目录下创建一个YAML配置文件，指定数据集路径、种子文档列表、输出目录、每次迭代选择的文档数量、工作线程数、爬取状态保存频率、最大爬取文档数量、文档选择方法、排序方式、是否启用wandb日志记录等参数。

3. 启动爬虫：在命令行中运行python crawl.py crawl --config

Crawl4LLM作为一个专业性强的爬虫系统，很适合用来给大语言模型做预训练。它先进的算法和技术方面的特点，能让抓取数据的效率和质量都有明显提升，这样就能让大语言模型的发展更快一些。

GitHub仓库：https://github.com/cxcscmu/crawl4llm

论文地址：https://arxiv.org/pdf/2502.13347

Coding-Tutor：一个对话式AI编程教学助手

出门问问发布小问移动数字人，5大亮点引领具身智能新潮流

PrimitiveAnything：腾讯AIPD和清

PrimitiveAnything：腾讯AIPD和清

2025-05-14

Hyper-RAG：清华大学和西安交通大学提出的超图

Hyper-RAG：清华大学和西安交通大学提出的超图

2025-04-20

Video-R1：香港中文大学和清华大学联合推出的全

Video-R1：香港中文大学和清华大学联合推出的全

2025-04-17

Dolphin：海天瑞声与清华大学联合发布的一款面向

Dolphin：海天瑞声与清华大学联合发布的一款面向

2025-04-02

赤兔Chitu：清华大学团队开源的高性能大语言模型推

赤兔Chitu：清华大学团队开源的高性能大语言模型推

2025-03-15

厦门大学：《DeepSeek大模型赋能政府数字化转型

厦门大学：《DeepSeek大模型赋能政府数字化转型

2025-03-10

最新工具

AiPyApp

一款以Python为核心的开源新人工智能体助手，结合大模型和 P...

Adobe Express

Adobe推出的一站式设计工具，整合了图像、视频、文档/PDF、...

Intangible AI

创意行业空间智能AI平台，通过简洁的3D界面与空间智能技术解决A...

法大大iTerms

法大大推出的一站式法律AI工作台，基于自研法律大模型的AI智能体...

Relume

一个通过AI来优化网站设计与搭建流程的平台，可以快速生成网站地图...

Pomelli

Google开发的AI营销工具，主要服务中小商家。你只需要提供企...

Gartic.io

一个很受欢迎的在线绘画猜词游戏。它把经典的“你画我猜”玩法和多人...

LandPPT

一个基于大语言模型的开源免费AIPPT生成平台，支持将文档内容自...

AppleWalls

一个免费提供苹果官方内置壁纸下载的网站，包括iPhone、iPa...

Coddy.Tech

一个免费、有趣且实用的编程学习平台。支持学习包括 Python、...

用户登录