Domínio do Big Data é fundamental para o avanço do conhecimento científico

Em workshop, pesquisadores discutiram ferramentas e procedimentos para uso do Big Data, com exemplos na área ambiental.

Com as novas tecnologias, capazes de captar a cada dia maior volume amplo de dados, e a globalização da ciência, demonstrada pelo número cada vez maior de cooperação entre campos do conhecimento e entre países, os cientistas agora se perguntam como armazenar essas informações e compartilhá-las da melhor forma com os pesquisadores e a sociedade de forma geral. O Big Data é apontado como a solução para esse gargalo, e foi justamente sua aplicação no armazenamento e gestão de bases de dados de pesquisa ambiental o tema do II Workshop em Ciência dos Dados da Escola Politécnica da Universidade de São Paulo (Poli-USP), que terminou nesta sexta-feira (12/05) no campus do Butantã, em São Paulo.

A Poli, o Instituto de Física (IF) da USP e o Instituto Nacional de Pesquisa da Amazônia (INPA), promotores do evento, estão trabalhando em parceria para o desenvolvimento de uma base de gestão de dados, observando desde as ferramentas de computação até as melhores estratégias para fazer essa atividade, direcionada para o uso desse serviço nas pesquisas ambientais.

Em sua segunda versão, o Workshop em Ciência dos Dados procurou disseminar para a comunidade científica os avanços e as melhores técnicas na área de gestão de dados científicos. O tema central do evento foi a Visualização Analítica e como suas técnicas podem ser utilizadas para compreender fenômenos complexos, representados pelos conjuntos de dados.

“Estamos falando sobre a e-Science, sobre o quarto paradigma da ciência, baseada no uso intensivo de dados gerados e manipulados para resolver grandes problemas, como a questão das mudanças climáticas globais ou o sequenciamento do genoma humano, por exemplo, em trabalhos que envolvem parcerias e compartilhamento amplo de informações”, destacou o professor do Departamento de Engenharia de Computação e Sistemas Digitais (PCS) da Poli, Pedro Luiz Pizzigatti Corrêa, pesquisador desse tema na USP.

Ele anunciou na abertura do workshop que será realizado um evento internacional sobre o mesmo tema, em outubro deste ano, na Poli, e do qual devem participar representantes do Atmospheric Radiation Measurement (ARM), projeto do Departamento de Energia do governo dos Estados Unidos, e um dos grandes exemplos de uso de Big Data para armazenamento e compartilhamento de informações científicas na área ambiental.

Os dados de interesse para armazenamento e compartilhamento são, em geral, informações de uma pesquisa que não foram expressas em artigos científicos, monografias, publicações científicas, mas que serviram para embasar as análises e conclusões dos estudos e experimentos. “Esses dados precisam ser preservados e não devem ser reaproveitados para validar ou criar novos experimentos”, apontou Corrêa. São exemplos de dados coleções de registro de medidas usado pelo pesquisador, textos, algoritmos, modelos matemáticos, questionários e entrevistas usados em Ciências Sociais, fotos, gravações em áudio e em vídeo etc.

Ter uma ferramenta onde armazenar esses dados e dar acesso a eles é apenas um passo no sentido de usar as Ciências de Dados para ajudar os cientistas a trabalharem com grandes bancos e encontrar informações corretas. Gerenciar dados passa então pelas etapas de definição, planejamento, implantação e execução de estratégias. “Precisamos aprender não só a acessar os dados, mas a compartilhá-los, e isso passa por uma mudança de cultura”, disse.

Os cientistas já dispõem de ferramentas para as várias atividades necessárias para se criar, compartilhar e acessar um bom banco de dados. Por exemplo, o DMP Tool é uma ferramenta que ajuda na elaboração do plano de gestão de dados, uma etapa da organização de um banco. Outra iniciativa mencionada foi a do Data Observation Network for Earth (DataONE), apoiada pela National Science Foundation (NSF) nos EUA. É um grande repositório de dados científicos para uso de pesquisadores, educadores e público em geral. Lá estão depositados dados de redes de pesquisa como o The Digital Archaeological Record (tDAR) e o Gulf of Mexico Research Initiative (GRIIDC).

Exemplos – Côrrea citou exemplos de como a Ciências de Dados está sendo empregada em pesquisas ambientais. Um deles é o projeto USGS, órgão responsável pelas unidades de conservação dos Estados Unidos, e que coleta dados ambientais sobre essas áreas. Um dos estudos que estão fazendo é o de observação de uma espécie de ave para verificar se as mudanças no clima afetam seus padrões de migração.

Outro grande projeto é o ARM, que coleta dados climáticos de todo o mundo para criar modelos que serão usados em estudos sobre as mudanças climáticas globais. O sistema tem até um mecanismo semelhante ao das lojas de comércio eletrônico, na qual é possível ‘colocar no carrinho’ as informações que foram pesquisadas e são de interesse do cientista-usuário. As informações colhidas são todas referenciadas, ou seja, fala quem é a fonte do dado. “O ARM é, na minha visão, um dos projetos de maior maturidade em Ciências de Dados aplicada à pesquisa sobre o meio ambiente”, disse.

A pesquisadora da Universidade Federal de São Paulo (Unifesp), Luciana Varanda Rizzo, falou sobre os resultados parciais do projeto GoAmazon 2014-2015. Ela contou sobre o estudo que investiga as interações entre as emissões da área urbana de Manaus na região amazônica, observando o comportamento do vento que passa pela capital do Amazonas e leva os poluentes emitidos na cidade para a região de floresta.

Segundo ela, a equipe enfrenta vários desafios em termos de gerenciamento de informações colhidas no experimento, como a integração de dados vindos de diferentes plataformas (estações meteorológicas instaladas na floresta, sensores acoplados em aviões, imagens de satélite, entre outros.) “É um prato cheio para se aplicar ferramentas de Big Data”, concluiu.

Fonte: Poli-USP