\item Sistema {\transparent{.5} (“elementos que interagem para realizar objetivos”\footnote{STAIR, R. M.; REYNOLDS, G. W. \textbf{Princípios de Sistemas de Informação}. 9ª ed. São Paulo: Cengage Learning, 2011. ISBN: 978-85-221-0797-1. p. 7.})}
\item para processamento de {\transparent{.5} (o objetivo é processar \textit{algo})}
\begin{itemize}
\item corpora {\transparent{.5} (entrada do sistema)}
\end{itemize}
\end{itemize}
\end{frame}
\begin{frame}{Corpus}{plural: corpora}
\begin{itemize}
\item O que é?\\
Um conjunto de textos relevante para estudar um determinado grupo de pessoas ou um ramo do conhecimento\footnote{TAGNIN, S. E. \textbf{Glossário de linguística de corpus}. São Paulo: HUB Editorial, 2010. p. 358.}.
\item Uma aplicação?
\begin{itemize}
\item Compilação das palavras mais frequentes da língua inglesa em 1921;
\item Revolução no ensino de inglês enquanto língua estrangeira.
\end{itemize}
\item De qual área do conhecimento estamos falando?
\begin{itemize}
\item Processamento automático da linguagem natural;
\item Linguística de corpus.
\end{itemize}
\end{itemize}
\end{frame}
\begin{frame}
\begin{block}{Processamento automático da linguagem natural}
Tratamento computacional das estruturas da língua que se repetem.
\end{block}
\begin{block}{Linguística de corpus}
O estudo da língua a partir de seus usos em conjuntos de documentos que representam a área estudada.
{\usebeamercolor[fg]{structure} Fonte:} O autor a partir de Sardinha\footnote{SARDINHA, Tony Berber. Lingüística de Corpus: histórico e problemática. DELTA, São Paulo, v. 16, n. 2, p. 323-367, 2000. Disponível em: <http://dx.doi.org/10.1590/S0102-44502000000200005>. Acessado em: 28 jun 2018. p. 330.}
\item Compilação das palavras mais frequentes da língua inglesa em 1921;
\item Revolução no ensino de inglês enquanto língua estrangeira.
\end{itemize}
\end{block}
\begin{itemize}
\item Até década de 1960: processamento manual lento, caro e passível de erros;
\item Computadores se popularizaram;
\item 51\% do total de domicílios brasileiros de estudantes possuem acesso à internet\footnote{CETIC.BR. \textbf{Pesquisa sobre o uso das tecnologias de informação e comunicação nas escolas brasileiras - tic educação 2015}. 2016.};
\item E que ferramentas computacionais para processar corpora temos hoje?
\caption{Tabela comparativa resumida de softwares de Processamento de Linguagem Natural}
{\usebeamercolor[fg]{structure} Fonte:} O autor
\label{tab:compplnres}
\end{table}
\end{frame}
\section{Objetivos}
\subsection{Geral}
\begin{frame}{Objetivo geral}
\begin{block}{}
Desenvolver uma aplicação \textit{web} de código aberto para marcação e busca de partes do discurso em corpora, visando ampliar as funcionalidades em relação a \textit{softwares} similares existentes e com interface amigável ao usuário.
\end{block}
\end{frame}
\subsection{Específicos}
\begin{frame}{Objetivos específicos}
\begin{itemize}
\item Analisar comparativamente os recursos das ferramentas WordSmith, CorpusEye, COCA Online Corpus, Unitex/GramLab e Sketch Engine;
\item Desenvolver ou adaptar um módulo extrator de sentenças;
\item Desenvolver ou adaptar um módulo extrator de lista de palavras;
\item Desenvolver ou adaptar um módulo etiquetador de partes do discurso que atue sobre sentenças;
\item Desenvolver ou adaptar um módulo concordanciador que suporte busca por etiquetas;
\item Integrar os módulos desenvolvidos ou adptados numa aplicação web;
\item Disponibilizar uma ferramenta livre para uso educacional.
\end{itemize}
\end{frame}
\section{Desenvolvimento}
\subsection{Um \textit{overview} sobre os objetivos}
\caption{Lista de sentenças duma notícia sobre a guerra na Síria\footnote{\scriptsize{}https://brasil.elpais.com/brasil/2016/02/08/internacional/1454962492\_{}021877.html}}
\item[O que faz:] Atribui etiquetas de partes do discurso a cada palavra da sentença;
\item[Desafios:] Ambiguidades; {\transparent{.5} (“casa” é verbo ou substativo?)}
\item[Implementação:] Se o treinamento do Unitex/Gramlab obtiver precisão\footnote{“denota a proporção de casos preditos como positivos que são considerados positivos reais” POWERS, D. Evaluation: From Precision, Recall and F-Measure To Roc, Informedness, Markedness & Correlation. \textbf{Journal of Machine Learning Technologies}, v. 2, n. 1, p. 37–63, 2011. ISSN 2229-3981. p. 38.} maior que 75\%, será utilizado o etiquetador deste; caso contrário, serão utilizados os etiquetadores treinados por Aires\footnote{AIRES, R. V. X. \textbf{Implementaçao, adaptaçao, combinação e avaliação de etiquetadores para o português do Brasil}. 154 p. Tese (Doutorado) — Universidade de São Paulo, São Carlos, 2000.}, priorizados por precisão.
\item[Corpus:] Aires\footnote{AIRES, R. V. X. \textbf{Implementaçao, adaptaçao, combinação e avaliação de etiquetadores para o português do Brasil}. 154 p. Tese (Doutorado) — Universidade de São Paulo, São Carlos, 2000.}{\transparent{.5} (ordem de centena de milhar de amostras)}
\caption[Prevalência de etiquetas do \textit{Unitex/GramLab}]{Prevalência das 15 etiquetas mais frequentes do conjunto de treino, teste e etiquetado pelo \textit{Unitex/GramLab}}
{\usebeamercolor[fg]{structure} Fonte:}{O autor}
\label{fig:t1:prev}
\end{center}
\end{figure}
\end{frame}
\begin{frame}{Floresta Sintática + YAS-Tagger}
\begin{itemize}
\item Precisão $\approx$ 76,93\%;
\item Precisão distribuída mais uniformemente por etiqueta;
\caption[Prevalência de etiquetas do \textit{YAS-Tagger}]{Prevalência das 15 etiquetas mais frequentes do conjunto de treino, teste e etiquetado pelo \textit{YAS-Tagger}}
{\usebeamercolor[fg]{structure} Fonte:}{O autor}
\label{fig:t2:prev}
\end{center}
\end{figure}
\end{frame}
\begin{frame}{Aires + YAS-Tagger}
\begin{itemize}
\item Precisão $\approx$ 53,40\% (queda de 23,56\%);
\item A etiqueta “???” agora representa 33,74\% da saída do etiquetador:
\caption[Prevalência de etiquetas do \textit{YAS-Tagger} sobre corpus de Aires]{Prevalência das 15 etiquetas mais frequentes do conjunto de treino, teste e etiquetado pelo \textit{YAS-Tagger} sobre o copus de Aires}
{\usebeamercolor[fg]{structure} Fonte:}{O autor}
\label{fig:t3:prev}
\end{center}
\end{figure}
\end{frame}
\begin{frame}
\begin{table}[h]
\begin{center}
\begin{tabular}{c|c}
\hline
Etiquetador & Precisão \\
\hline
\hline
MXPOST &$89,66\%$\\
\hline
Brill Tagger &$88,76\%$\\
\hline
Tree Tagger &$88,47\%$\\
\hline
YAS-Tagger &$76,93\%$\\
\hline
Unitex/GramLab &$60,76\%$\\
\hline
\end{tabular}
\end{center}
\caption[Comparação da precisão entre cinco etiquetadores]{Comparação da precisão entre os etiquetadores \textit{MXPOST}, \textit{Brill Tagger}, \textit{Tree Tagger}, \textit{YAS-Tagger} e \textit{Unitex/GramLab}}
{\usebeamercolor[fg]{structure} Fonte:} Aires\footnote{AIRES, R. V. X. \textbf{Implementaçao, adaptaçao, combinação e avaliação de etiquetadores para o português do Brasil}. 154 p. Tese (Doutorado) — Universidade de São Paulo, São Carlos, 2000. p. 82.} e o autor.
\caption{Listagem de documentos a partir dum clique na \aspas{seta para trás}}
{\usebeamercolor[fg]{structure} Fonte:}{O autor}
\label{fig:ss:btm}
\end{center}
\end{figure}
\end{frame}
\section{Conclusão}
\begin{frame}
\begin{itemize}
\item É possível conseguir uma ferramenta comparável às pagas apenas integrando softwares gratuitos existentes;
\item Este trabalho deixa uma fonte de inspiração para concordanciadores existentes e futuros uma para aumentar a usabilidade destes por usuários inexperientes;
\item Unitex/GramLab tem uma documentação incompleta que cobre apenas o uso da interface.