Configuration Parsing Warning: In UNKNOWN_FILENAME: "auto_map.AutoTokenizer" must be a string
YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

Russian Razdel Tokenizer

🗃️ Корпус

447 статей из Vedomosti (2020–2025) с предварительной очисткой и нормализацией текста

⚙️ Параметры

  • Алгоритм: Razdel (специализированный для русского языка)
  • Язык: Русский
  • Тип: Словесная токенизация
  • Основан на: Морфологическом анализе

📊 Метрики

  • Объём словаря: 23,200 уникальных токенов
  • OOV rate: 11.45%
  • Семантическая согласованность: 97.88%
  • Время обработки: 0.433 сек
  • Среднее токенов на статью: 248.7

📝 Лицензия

MIT License

Downloads last month
4
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support