Processamento computacional de linguagem natural

Linha de pesquisa dedicada ao estudo da modelização computacional da linguagem humana e tratamento automático das línguas naturais; desenvolvimento e aperfeiçoamento de modelos teóricos, algoritmos e sistemas de análise automática em todos os níveis da investigação linguística.

Seguem os projetos em andamento nesta linha de pesquisa:

Cálculo da perspectiva dêitica através do raciocínio espacial qualitativo - Parte II

Docente responsável: Marcos Lopes

Data de início: 01/01/2023

Descrição do projeto

O Raciocínio Espacial Qualitativo (QSR) é a subárea da Inteligência Artificial que estuda a representação formal e mecanismos de inferência sobre a espacialidade sem se basear em modelos numéricos, coordenadas ou medidas. Por seu objeto e pela natureza qualitativa da abordagem, está em constante diálogo com os estudos da semântica linguística e da linguística computacional. Dentro desse panorama, o presente projeto propõe um estudo semântico-computacional da espacialidade nos enunciados em língua natural, com vistas à geração de modelos de descrição e inferência sobre as relações espaciais. Em particular, pretende gerar um cálculo lógico para as relações espaciais produzidas numa das perspectivas mais presentes nos enunciados em língua natural, a chamada perspectiva dêitica.

Modelos de língua - Parte II

Docente responsável: Marcelo Barra Ferreira

Data de início: 01/01/2023

Descrição do projeto

O projeto se dedica à investigação e implementação de modelos probabilísticos de linguagem para o português em seus diversos níveis de análise (letras/fones, morfemas, palavras, sintagmas). Especial atenção será dada a modelos baseados em n-gramas, redes neurais, gramáticas probabilísticas e semântica vetorial. Também está no escopo do projeto a comparação entre modelos probabilísticos, de uso frequente na linguística computacional, e modelos categóricos/simbólicos, típicos da linguística teórica/formal.

O tratamento computacional de corpora de língua falada

Docente responsável: Marcello Modesto

Data de início: 01/01/2020

Descrição do projeto

Este projeto pretende aplicar técnicas computacionais no tratamento de corpora de língua falada para facilitar a procura e investigação de elementos linguísticos específicos. Partiremos do corpus de língua falada Projeto SP2010, desenvolvido pelo prof. Dr. Ronald Beline e colegas, já transcrito e disponível em http://projetosp2010.fflch.usp.br/. Esse corpus será tagueado usando a ferramenta Unitex (https://unitexgramlab.org/pt) e então serão extraídas as ocorrências de elementos linguísticos específicos (neste caso, exemplarmente, procuraremos ocorrências de infinitivos flexionados e disfluências). Pretende-se avaliar se essa ferramenta se mostra adequada para essas tarefas e como se compara com outras ferramentas similares. De posse de um tagueador adequado, tentaremos expandir nossa base de dados com corpora não já transcritos, o que levará à necessidade de obter, testar e usar um reconhecedor de voz adequado. Somente o aperfeiçoamento dessas ferramentas computacionais poderá levar à construção de um corpus de língua falada analisável e de tamanho robusto, o que seria de valor incalculável para os linguistas (tanto no sentido de fornecer informações sobre como a língua é usada, como no de poder comprovar ou não suas teorias).