[Dataset] Pretrain-corpus
updated
Viewer
•
Updated
•
470M
•
41.9k
•
325
EssentialAI/essential-web-v1.0
Preview
•
Updated
•
6.25k
•
213
Viewer
•
Updated
•
52.5B
•
187k
•
2.6k
HuggingFaceFW/fineweb-edu
Viewer
•
Updated
•
3.5B
•
317k
•
896
Viewer
•
Updated
•
4.48B
•
62.9k
•
710
data-is-better-together/fineweb-c
Viewer
•
Updated
•
88.7k
•
1.42k
•
58
Viewer
•
Updated
•
170M
•
52.5k
•
88
Updated
•
1.61k
•
971
Viewer
•
Updated
•
621M
•
35.1k
•
84
mlfoundations/dclm-baseline-1.0
Preview
•
Updated
•
481k
•
251
Preview
•
Updated
•
191k
•
85