|
5 years ago | |
---|---|---|
downloaded | 5 years ago | |
.gitignore | 5 years ago | |
LICENSE.code | 5 years ago | |
LICENSE.linguistic_resources | 5 years ago | |
Makefile | 5 years ago | |
convert.py | 5 years ago | |
joinTagAndText.py | 5 years ago | |
prepareUnitexEvaluation3.py | 5 years ago | |
prepareUnitexEvaluation4.py | 5 years ago | |
readme.md | 5 years ago | |
requirements.txt | 5 years ago | |
runUnitexEvaluation.py | 5 years ago | |
statisticsMetrics.py | 5 years ago | |
tag.py | 5 years ago | |
train.py | 5 years ago | |
trainQuickStats.py | 5 years ago | |
utils.py | 5 years ago |
readme.md
Yet Another Simple POS Tagger
Este é um etiquetador de partes do discurso (POS tagger) que foi escrito para ter os mesmos formatos de entrada e saída que do Unitex/GramLab, sem fazer uso do algoritmo de Viterbi, mas sim um simples casamento de padrões.
Devido aos resultados obtidos (46% das etiquetas foram atribuidas corretamente), este provavelmente não é o etiquetador que você busca.
Licença do código
MIT.
Licença do corpus embarcado ("downloaded/corpus100.txt")
Serei direto: não sei. É exatamente o arquivo mesmo que você acha para baixar numa página dum subdomínio da USP (link direto | manual de etiquetas), mas não achei nenhuma menção de licença por lá.
Se quiser trocar por um corpus etiquetado licenceado em Creative Commons Attribution 4.0 International License, uma solução “drop-in” que funcione imediatamente após descompactado na pasta adequada é o Mac-Morpho (link direto | manual de etiquetas).