ファイルへ移動
Adler Neves be4d43943f Initial commit 2018-01-28 23:38:35 -02:00
downloaded Initial commit 2018-01-28 23:38:35 -02:00
.gitignore Initial commit 2018-01-28 23:38:35 -02:00
LICENSE.code Initial commit 2018-01-28 23:38:35 -02:00
LICENSE.linguistic_resources Initial commit 2018-01-28 23:38:35 -02:00
Makefile Initial commit 2018-01-28 23:38:35 -02:00
convert.py Initial commit 2018-01-28 23:38:35 -02:00
joinTagAndText.py Initial commit 2018-01-28 23:38:35 -02:00
prepareUnitexEvaluation3.py Initial commit 2018-01-28 23:38:35 -02:00
prepareUnitexEvaluation4.py Initial commit 2018-01-28 23:38:35 -02:00
readme.md Initial commit 2018-01-28 23:38:35 -02:00
requirements.txt Initial commit 2018-01-28 23:38:35 -02:00
runUnitexEvaluation.py Initial commit 2018-01-28 23:38:35 -02:00
statisticsMetrics.py Initial commit 2018-01-28 23:38:35 -02:00
tag.py Initial commit 2018-01-28 23:38:35 -02:00
train.py Initial commit 2018-01-28 23:38:35 -02:00
trainQuickStats.py Initial commit 2018-01-28 23:38:35 -02:00
utils.py Initial commit 2018-01-28 23:38:35 -02:00

readme.md

Yet Another Simple POS Tagger

Este é um etiquetador de partes do discurso (POS tagger) que foi escrito para ter os mesmos formatos de entrada e saída que do Unitex/GramLab, sem fazer uso do algoritmo de Viterbi, mas sim um simples casamento de padrões.

Devido aos resultados obtidos (46% das etiquetas foram atribuidas corretamente), este provavelmente não é o etiquetador que você busca.

Licença do código

MIT.

Licença do corpus embarcado ("downloaded/corpus100.txt")

Serei direto: não sei. É exatamente o arquivo mesmo que você acha para baixar numa página dum subdomínio da USP (link direto | manual de etiquetas), mas não achei nenhuma menção de licença por lá.

Se quiser trocar por um corpus etiquetado licenceado em Creative Commons Attribution 4.0 International License, uma solução “drop-in” que funcione imediatamente após descompactado na pasta adequada é o Mac-Morpho (link direto | manual de etiquetas).