Me vê um texto menor, por favor?
O Processamento Automático de Línguas Naturais (PLN) é uma área que busca tornar possível a interação entre humanos e máquinas por meio de línguas naturais
Certamente você já teve de resumir alguma história para alguém, mas é pouco provável que você tenha parado para pensar no processo por detrás dessa tarefa tão corriqueira. Nesse sentido, é necessário ter claro para quem você quer resumir a história, pois, a partir disso, serão selecionados pontos importantes dela e em qual ordem as informações (sucintas!) deverão ser ditas para que o ouvinte/leitor esteja mais atento ou informado sobre o que você quer dizer/escrever. Agora, muito menos provável é você ter parado para pensar se essa atividade, que fazemos com tanta frequência, pode ser realizada com os mesmos parâmetros por sistemas computacionais, conhecidos também como sumarizadores automáticos.
[o resumo de textos] pode ser realizado (…) por sistemas computacionais, conhecidos também como sumarizadores automáticos.
O Processamento Automático de Línguas Naturais (PLN) é uma área que busca tornar possível a interação entre humanos e máquinas por meio de línguas naturais. Os primeiros estudos que criaram essa ponte foram aqueles que resultaram em tradutores automáticos, muito associados ao contexto bélico da Guerra Fria. Até então, o objetivo desses tradutores era decodificar as mensagens interceptadas entre os exércitos adversários e, para tanto, essa “tradução” era realizada apenas por linguagens e/ou códigos computacionais e/ou matemáticas. Entretanto, ao passar dos anos, percebeu-se que havia algumas dificuldades a serem superadas nas traduções (como proposição de uma palavra/expressão equivocada) e que revisões humanas seriam necessárias para corrigir os textos. Nesse momento, deu-se conta de que muitos dos imbróglios enfrentados eram de natureza linguística e só poderiam ser superados se o modo de processar a linguagem fosse realizado por meio de uma descrição detalhada e robusta da língua utilizando a própria língua.
Assim, anos mais tarde, com as pesquisas na área de PLN e o avanço de teorias linguísticas descritivas, pôde-se executar automaticamente “tarefas linguísticas” com mais precisão e acerto. É daí que advém os corretores gramaticais, os reconhecedores e reprodutores de voz, bastante comuns nos smartphones atualmente, por exemplo, ou ainda, os sistemas de Sumarização Automática (SA). O objetivo desses sistemas é produzir uma versão reduzida, coerente, coesa e, ao mesmo tempo, informativa e genérica (no sentido de não ter um público-alvo específico) de um ou mais textos (escritos) que serviram de fonte para os sumários.
É daí que advém os corretores gramaticais, os reconhecedores e reprodutores de voz, bastante comuns nos smartphones atualmente, por exemplo, ou ainda, os sistemas de Sumarização Automática (SA).
Atualmente, a maioria das fontes informativas que consultamos estão on-line, onde a disponibilização e circulação da informação digital vêm aumentando consideravelmente nos últimos anos. Para se ter uma ideia, um relatório publicado pela Cisco-Visual-Networking-Index projeta que em 2021 a produção de informação será de 3,3 Zettabyte na Web!
Ainda tendo o ambiente virtual como motivação, os sistemas de SA encontram um complicador à tarefa: é quase impossível haver apenas uma única publicação/notícia sobre um evento específico, dada a grande quantidade de jornais, blogs e postagens em redes sociais que se é produzida. Para ilustrar, realizamos uma busca online sobre a “greve dos caminhoneiros”, dentro de um recorte temporal de um ano apenas em textos jornalísticos. Como resultado, obtivemos 62.900 resultados para o termo buscado; ou seja: aproximadamente 63 mil notícias circularam na Web no último ano sobre a greve de caminhoneiros que aconteceu no Brasil, em 2018. Os pesquisadores em SA apontam que a relação entre a grande quantidade de informação disponível e o pouco tempo que o usuário usufrui para processá-la é a principal motivação para os estudos nessa área. Eles ainda propõem que a SA pode ser realizada apenas pela seleção, recorte e reorganização das sentenças dos textos-fonte, ou pela seleção e reescrita com outras palavras das sentenças escolhidas.
No Quadro 1, ilustramos fragmentos de notícias retiradas de fontes virtuais de notícia. Esses fragmentos relatam sobre o sexto dia de greve organizada pelos caminhoneiros no Brasil, em 2018. A fim de observação, as sentenças (S) dos textos foram enumeradas, ignorando a organização de parágrafos dos textos, resultando em 4 sentenças, em cada um dos textos, e 191 palavras.
A partir do Quadro 1, é possível observar a existência de fenômenos linguísticos: entre as Sentença 1 e 2, do Texto I, e a Sentença 1, do Texto II, há redundância (ou similaridade) de conteúdo (como a informação da data de início do movimento) e complementaridade (como detalhes de informações). Diante da tarefa de realizar um sumário automático, é preciso que o sistema de SA identifique essas e outras possíveis relações entre os textos, baseando-se em informações linguísticas que estejam disponíveis na superfície textual. A redundância, no exemplo citado, é caracterizada por apresentar palavras importantes (como substantivos) comuns às duas sentenças (p.ex.: “caminhoneiros” e “país”); já a complementaridade, por apresentar informações no Texto II que não estão presentes no Texto I, como a quantidade de pontos bloqueados nas rodovias.
O papel do linguista, nesse processo inicial, é mapear esses e outros fenômenos (como a contradição e variação de estilo de escrita) e, após isso, levantar as características que evidenciam a ocorrência deles para que os sistemas computacionais compreendam e aprendam a reconhecer essas relações, como “se houver palavras iguais entre duas sentenças, a relação é de redundância”, por exemplo. Assim, posteriormente, será possível automatizar a sumarização. No Quadro 2, ilustra-se um sumário sintetizado a partir dos Textos I e II, do Quadro 1.
No sumário do Quadro 2, foram selecionadas as sentenças que pudessem representar o assunto dos textos originais de maneira a evitar a redundância e contradição informativas, e salientar a complementaridade entre as sentenças. Como resultado, tem-se um texto constituído por 71 palavras e apenas três sentenças; em relação aos textos originais, o sumário representa cerca de 37% de palavras e sentenças. Esse “corte” nos textos originais, que representa um pouco mais de 70% deles, caracteriza a taxa de compressão, ou seja, a quantidade de informação que o usuário do sistema de SA deseja que não conste em seu sumário.
O futuro das pesquisas em SA em Língua Portuguesa (…) caminha em direção ao outro tipo de sumarização que foi colocado logo no início deste texto: a reescrita das sentenças.
Os sistemas de SA ainda precisam considerar o fluxo de informação entre as sentenças dos textos originais: imagine se a última sentença do Texto II fosse a primeira sentença do sumário – que confusão seria! Assim, outra atividade do pesquisador é avaliar a qualidade linguística dos sumários finais, analisando a coerência, coesão e informatividade do texto. Caso sejam identificados desvios operacionais ou de resultados, será necessário revisar cada uma das etapas e, possivelmente, aprimorar as descrições linguísticas a serem implementadas no sistema de SA, posteriormente.
O futuro das pesquisas em SA em Língua Portuguesa, especialmente as que são desenvolvidas pelo Núcleo Interinstitucional de Linguística Computacional (NILC), cuja sede fica na Universidade de São Paulo (USP-São Carlos), caminha em direção ao outro tipo de sumarização que foi colocado logo no início deste texto: a reescrita das sentenças. Pensando em todo o processo de sistemas dessa natureza, será necessário acrescentar outra etapa na sumarização: prever e reelaborar automaticamente as sentenças escolhidas para o sumário. Entretanto, para que essas pesquisas sejam desenvolvidas, será importante estudarmos mais o próprio comportamento humano em sumarizar textos e, consequentemente, de descrições linguísticas mais detalhadas desse comportamento.