YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

pt-tupi-tokenizer

Descrição O pt-tupi-tokenizer é um tokenizador projetado especificamente para o idioma Tupi, uma língua indígena brasileira. Ele suporta a tokenização de textos Tupi de forma eficiente, preservando a morfologia e a estrutura própria do idioma. Este tokenizador pode ser usado em tarefas de NLP, como pré-processamento para modelos de linguagem, tradução ou análise textual em Tupi.

Arquitetura

  • Baseado em Tokenizers library da Hugging Face.
  • Suporta WordPiece/BPE ou abordagem baseada em subword units, ajustável conforme necessidade.
  • Treinado em corpora Tupi compilados de textos históricos e linguísticos.

Uso rápido

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("CASLL/pt-tupi-tokenizer")

text = "Teko porã"
tokens = tokenizer.tokenize(text)
ids = tokenizer(text)["input_ids"]

print("Tokens:", tokens)
print("IDs:", ids)

Exemplos de tokenização

Texto Tupi Tokens
Teko porã ['Teko', 'porã']
Abaeté ['A', 'ba', 'eté']

Treinamento e Dados

  • Treinado em textos públicos e materiais etnolinguísticos sobre a língua Tupi.
  • O tokenizador preserva caracteres especiais, acentos e sinais próprios do idioma.

Limitações

  • Funciona melhor com textos clássicos ou documentados do Tupi; textos com grafias muito divergentes podem gerar tokens inesperados.
  • Não foi otimizado para variantes modernas ou dialetos locais.

Licença MIT License

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support