Este projeto pretende aplicar técnicas computacionais no tratamento de corpora de língua falada para facilitar a procura e investigação de elementos linguísticos específicos. Partiremos do corpus de língua falada Projeto SP2010, desenvolvido pelo prof. Dr. Ronald Beline e colegas, já transcrito e disponível em
http://projetosp2010.fflch.usp.br/. Esse corpus será tagueado usando a ferramenta Unitex (
https://unitexgramlab.org/pt) e então serão extraídas as ocorrências de elementos linguísticos específicos (neste caso, exemplarmente, procuraremos ocorrências de infinitivos flexionados e disfluências). Pretende-se avaliar se essa ferramenta se mostra adequada para essas tarefas e como se compara com outras ferramentas similares. De posse de um tagueador adequado, tentaremos expandir nossa base de dados com corpora não já transcritos, o que levará à necessidade de obter, testar e usar um reconhecedor de voz adequado. Somente o aperfeiçoamento dessas ferramentas computacionais poderá levar à construção de um corpus de língua falada analisável e de tamanho robusto, o que seria de valor incalculável para os linguistas (tanto no sentido de fornecer informações sobre como a língua é usada, como no de poder comprovar ou não suas teorias).