YAML Metadata
Warning:
empty or missing yaml metadata in repo card
(https://huggingface.co/docs/hub/model-cards#model-card-metadata)
pt-tupi-tokenizer
Descrição
O pt-tupi-tokenizer é um tokenizador projetado especificamente para o idioma Tupi, uma língua indígena brasileira. Ele suporta a tokenização de textos Tupi de forma eficiente, preservando a morfologia e a estrutura própria do idioma. Este tokenizador pode ser usado em tarefas de NLP, como pré-processamento para modelos de linguagem, tradução ou análise textual em Tupi.
Arquitetura
- Baseado em Tokenizers library da Hugging Face.
- Suporta WordPiece/BPE ou abordagem baseada em subword units, ajustável conforme necessidade.
- Treinado em corpora Tupi compilados de textos históricos e linguísticos.
Uso rápido
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("CASLL/pt-tupi-tokenizer")
text = "Teko porã"
tokens = tokenizer.tokenize(text)
ids = tokenizer(text)["input_ids"]
print("Tokens:", tokens)
print("IDs:", ids)
Exemplos de tokenização
| Texto Tupi | Tokens |
|---|---|
| Teko porã | ['Teko', 'porã'] |
| Abaeté | ['A', 'ba', 'eté'] |
Treinamento e Dados
- Treinado em textos públicos e materiais etnolinguísticos sobre a língua Tupi.
- O tokenizador preserva caracteres especiais, acentos e sinais próprios do idioma.
Limitações
- Funciona melhor com textos clássicos ou documentados do Tupi; textos com grafias muito divergentes podem gerar tokens inesperados.
- Não foi otimizado para variantes modernas ou dialetos locais.
Licença MIT License
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support