Unicamp: Programa de computador detecta notícias científicas veiculadas pela Internet

Programa é capaz de identificar textos sobre ciência e tecnologia publicados por jornais na versão on-line

qui, 18/01/2007 - 20h50 | Do Portal do Governo

Novo programa de computador é capaz de ler e identificar automaticamente matérias de ciência e tecnologia em textos jornalísticos. O Sapo (nome dado a partir da sigla em inglês de Science Authomatic Press Observer – Observador Automático de Imprensa Científica) foi criado no Laboratório de Estudos Avançados em Jornalismo (Labjor) da Universidade de Campinas (Unicamp). De acordo com seus idealizadores, o Sapo quase não erra. Do material classificado como científico pelo software, 95% foi confirmado como correto por examinador humano.

Trata-se de um banco de dados que coleta, seleciona e organiza os conteúdos de ciência e tecnologia. “É um sistema que permite baixar o conteúdo de alguns jornais diários e detectar, com bom grau de confiabilidade, as matérias que tratam de ciência, tecnologia, inovação, incluindo temas como meio ambiente, políticas de ciência e tecnologia, saúde e medicina”, resume um dos responsáveis pela criação da ferramenta, Yurij Castelfranchi, pesquisador do Labjor.

A principal vantagem no uso desse sistema é que dispensa a leitura integral do jornal quando se quer saber tudo o que está publicado a respeito de um assunto específico, esclarece o pesquisador. “Para quem faz estudos de análise de conteúdo ou de discurso da ciência nos jornais, a ferramenta permite economizar tempo e recursos. O invento tem como público-alvo pesquisadores, jornalistas e instituições interessadas nesse tipo de informação”.

Barômetro da mídia

Outro recurso possibilitado pelo detector científico, acrescenta Castelfranchi, é o fornecimento de estatísticas sobre a presença e o impacto da ciência e tecnologia (C&T) na mídia. Um mecanismo de busca permite analisar tópicos específicos. Isso pode ajudar quando se nota que os temas científicos e tecnológicos não estão concentrados nos cadernos de ciência dos jornais, mas dispersos por toda a publicação. Essa constatação foi obtida pelos pesquisadores ao aplicar o sistema aos diários brasileiros.

“Para quem estuda C&T na mídia, pode ser muito útil, pois separa um corpus de matérias sobre o assunto. É possível, por exemplo, analisar a linguagem usada pela mídia ao tratar de C&T, quais emoções são mobilizadas, que tipos de noticias são mais tratadas, que metáforas e imaginários comparecem e como a figura do cientista é explicada e descrita”, diz Castelfranchi.

Criado como instrumento de pesquisa de estudos de mídia, de jornalismo científico, da ciência e sociedade, ele pode fazer avaliação da cobertura jornalística em termos quantitativos e qualitativos e ser expandido para outras áreas do conhecimento em qualquer mídia eletrônica, completa o pesquisador: “O sistema funciona como uma espécie de ‘barômetro’ da C&T na mídia. Compara os diferentes veículos, mostra a porcentagem de espaço e a freqüência com que matérias científicas aparecem, permite comparar políticas editoriais e tipologias de editorias científicas, entre outras possibilidades”.

Detector científico

O campo de atuação do invento está restrito, por enquanto, à busca de conteúdo científico publicado na Internet por quatro diários brasileiros. O Sapo percorre as edições disponíveis para assinantes dos jornais Folha de S. Paulo, O Estado de S. Paulo, Jornal do Brasil e O Globo. Foram escolhidos os de maior tiragem no País, distribuídos nas duas cidades mais importantes e populosas, São Paulo e Rio de Janeiro.

A tarefa do detector eletrônico é capturar os textos que tratam de ciência e tecnologia a partir de palavras-chave que foram selecionadas pelos inventores do sistema. Os termos típicos do discurso científico foram agrupados em cinco filtros: disciplinas, instituições, prática da ciência e palavras técnicas de humanas ou exatas. Ao identificar qualquer das palavras-chaves no texto jornalístico, a ferramenta automaticamente aplica uma pontuação para definir se o conteúdo da matéria é científico ou não.

Se o programa não consegue chegar a uma conclusão, encaminha o material para inspeção de um observador humano. Do total de material classificado como indefinido, cerca de 60% é confirmado como de C&T.

Aprender com os erros

“Estamos planejando incrementar o invento com um sistema mais sofisticado de filtragem, baseado em inteligência artificial e outras tecnologias. Assim, o Sapo poderá aprender com seus próprios erros e produzir de forma dinâmica seus próprios filtros para selecionar temas gerais”, afirma Castelfranchi.

Para criar o Sapo, pesquisadores do Labjor, estagiários e bolsistas, mais os programadores da Cooperativa de Soluções Livres (Solis) trabalharam durante mais de três anos em pesquisa, desenvolvimento e aperfeiçoamento dos filtros. O projeto foi apoiado pela Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp).

Claudeci Martins

Da Agência Imprensa Oficial