O que é um data paper?

Recentemente, publicamos um data paper sobre morcegos, como comentado em um post no site do SintECO. Mas, afinal de contas, o que é um data paper?

“Milhares de velas podem ser acesas a partir de uma única vela. E a vida da vela não será encurtada.”

Tathāgata

Até janeiro deste ano, eu mesmo não sabia que data papers existiam. Por sorte, tenho uma padawan super-antenada, a Renata Muylaert. Ela não apenas me apresentou a novidade, como também me convidou para participar desse trabalho que acabamos de publicar.

Junto com vários colegas de diferentes universidades e países, sob a liderança da Renata, compilamos um banco de dados com 135 artigos. Juntos, eles somaram mais de 90.000 capturas de morcegos de 98 espécies e 8 famílias. Esses dados vieram de 205 locais na Mata Atlântica do Brasil, Paraguai, Argentina e Uruguai. Uma montanha de informações! Isso é um data paper: uma publicação que, via de regra, apresenta, explica e disponibiliza um banco de dados.

Há décadas os “morcególogos” brasileiros discutiam a possibilidade de criar um banco de dados nacional sobre capturas de morcegos, de modo a fomentar estudos mais ousados, com escopo mais amplo. Nunca havíamos chegado a um acordo sobre como viabilizar isso. Assim, a ideia permanecia arquivada na Biblioteca do Sonhar.

Felizmente, graças à energia e ao profissionalismo de uma jovem doutoranda cheia de apetite, a ideia finalmente se materializou. Sangue novo revitaliza a Academia!

Vale ressaltar que o sucesso da empreitada se deve também a esse novo formato inovador de publicação científica. Isso porque data papers dão o tipo de recompensa que todo cientista busca. Deixe-me explicar melhor.

Publicamos o nosso banco de dados na revista Ecology, uma das mais antigas e prestigiadas na área de Ecologia. Isso por si só já garante uns bons pontos nos nossos currículos. Além disso, a única condição para os interessados usarem o nosso banco de dados é citarem formalmente o artigo. Ou seja, além da publicação, ainda podemos ganhar citações. E além das citações, data papers atraem novas parcerias.

Todos ganham alguma coisa nesse modelo: autores, usuários e sociedade.

Na Ecology, data papers contém no mínimo um resumo de apresentação, uma matriz de dados e um texto de metadados. O resumo apresenta para os leitores o banco de dados e fala en passent sobre o que ele contém. A matriz disponibiliza os dados em si, em um formato user friendly e seguindo as boas práticas de data science. O texto de metadados pode ser bem longo (o nosso tem mais de 60 páginas). Ele conta de onde vieram os dados, apresenta os critérios de inclusão adotados, explica os códigos usados na matriz, mostra os métodos usados para tomar as medidas adicionais e ainda discute possíveis usos e limitações das informações. Podem também ser incluídos gráficos descritivos dos dados.

Outras revistas top, como a Nature, também aderiram à novidade. Cada uma padroniza os data papers da forma que prefere. Algumas depositam os dados em repositórios próprios, outras preferem usar serviços de terceiros (como Dryad ou KNB, por exemplo).

Voltando ao exemplo do nosso data paper, imagine a infinidade de estudos inovadores, com amplo escopo, que podem ser feitos a partir dos dados que compilamos? Dá para tentar responder várias perguntas interessantes, que estavam em stand by há anos por falta de dados. As aplicações potenciais envolvem os campos da Ecologia de Comunidades, Macroecologia e Biogeografia, dentre outros.

Para esse data paper doei dados de 20 anos de amostragem de morcegos na Mata Atlântica, incluindo dados já utilizados em outros artigos e dados que estavam esquecidos num canto, empoeirando. Já publiquei vários artigos oriundos desse meu banco de dados. Agora quero que outras pessoas possam produzir ainda mais conhecimento sem precisarem me consultar, multiplicando ad infinitum a utilidade das informações obtidas em campo com verbas públicas.

Por exemplo, uma jovem estudante de mestrado, ao invés de ter que trabalhar no campo por mais 20 anos, pode simplesmente usar esses dados acumulados por nós para começar do ponto onde paramos e ir além. Imagine a economia de dinheiro, tempo e energia! Especialmente em tempos de crise temos que otimizar o uso dos poucos recursos que temos.

O mais legal, filosoficamente, é que os data papers estão em sintonia com o movimento open science. A esmagadora maioria dos dados e ideias produzidos pela ciência básica nascem de projetos financiados com verbas públicas de países e estados. Ou seja, quem paga a conta é a sociedade, através dos impostos. Assim, nada mais justo do que, após algumas publicações, nós, cientistas, termos que disponibilizar os dados para o público.

Sentar em cima das planilhas e se comportar como o “dono da bola” leva necessariamente à sub-utilização dos dados. Essa mentalidade obtusa deveria ter morrido no século XIX, mas infelizmente atravessou o século XX e ainda é comum no XXI. Para piorar, geralmente, quem mais bloqueia dados é quem menos publica. Cientistas produtivos conhecem o valor de compartilhar recursos.

Felizmente, algumas agências de fomento à ciência da Europa e América do Norte estão começando a exigir o depósito dos dados brutos dos projetos financiados após um período de embargo de alguns anos. Algumas revistas também têm exigido que pelo menos as matrizes utilizadas diretamente nas análises de um artigo aceito para publicação sejam depositadas em repositórios de acesso público, a fim de permitir a reprodução dos resultados.

Isso nos leva a outro ponto importante. Todo trabalho científico está sujeito a conter erros. Uma das formas mais eficientes de corrigir esses erros e evitar a propagação deles é ser transparente. Isso envolve disponibilizar não apenas os dados, mas também os códigos de programação usados para analisá-los. Cientista tem que dar a cara a tapa.

Enfim, um data paper é isso: ciência aberta, compartilhada e antenada com o século XXI. Recomendo a todos a experiência! Por que não exercitar o desapego e ainda ganhar algo com isso?

Adendo:

O nosso trabalho faz parte de uma série de data papers: “ATLANTIC-DATASETS: beyond distribution maps“. Esses trabalhos estão sendo coordenados por dois professores da Unesp de Rio Claro: Mauro Galetti e Milton Ribeiro. Veja a lista dos artigos da série que já foram publicados:

Assista o vídeo de divulgação sobre o ATLANTIC-CAMTRAPS!

Há mais outros artigos dessa série submetidos ou no forno. Outros grupos de pesquisa brasileiros também estão publicando data papers em Ecologia, como por exemplo no caso do trabalho liderado pelo Marcos Figueiredo da UFRJ:

Data papers do nosso laboratório

Até o momento, a equipe do SintECO produziu ou participou dos seguintes data papers, em ordem cronológica:

Muylaert R, Stevens R, Esbérard C, Mello M, Garbino G, Varzinczak L, Faria D, Weber M, Kerches Rogeri P, Regolin A, et al.. 2017. ATLANTIC BATS: a dataset of bat communities from the Atlantic Forests of South America. Ecology: 98(12): 3227. http://dx.doi.org/10.1002/ecy.2007.

Gonçalves F, Bovendorp RS, Beca G, Bello C, Costa-Pereira R, Muylaert RL, Rodarte RS, Villar N, Souza R, Graipel ME, Cherem JJ, Faria D, Baumgarten J, Alvarez MR, Vieira EM, Cáceres N, Pardini R, Leite YLR, Costa LP, Mello MAR, et al. 2018. ATLANTIC MAMMAL TRAITS: A dataset of morphological traits of mammals in the Atlantic Forest of South America. Ecology: 99(2): 498. http://dx.doi.org/10.1002/ecy.2106.

Florez-Montero G, Muylaert RL, Nogueira MR, Geiselman C, Santana S, Stevens RD, Tschapka M, Rodrigues FA, Mello MAR. 2022. NeoBat Interactions: a data set of bat-plant interactions in the Neotropics. Ecology: e3640. https://doi.org/10.1002/ecy.3640

(Fonte da imagem destacada)

21 respostas para “O que é um data paper?”

    1. Excelente! (Só um comentário… o que vc está chamando de “banco de dados” nesse seu texto aqui, na verdade é um conjunto de dados. Bancos de dados são sistemas de softwares que abrigam todos esses conjuntos de dados, como o sistema por tras do GBif, Dryad, Aphia (banco de dados do World Register of Marine Species)…).

      Curtir

  1. Olá Marco,

    Parabéns pelo post! A Renata MuyAlerta aqui (créditos ao Lucas Palhão rs) demorou um pouco para comentar esse post, mas aqui estou rs.
    A onda dos data papers chegou na crista em 2017, a partir da publicação dos ATLANTIC FRUGIVORY (pioneiro), SMALL MAMMALS, CAMTRAPS, BATS, BIRDS e MAMMAL TRAITS. A ideia de se disponibilizar dados sobre espécies, interações e sua distribuição é incrível! Sou fã do ATLANTIC! A ideia iniciou-se mais formalmente lá em 2015 em um grupo de trabalho liderado pelo Mauro, no workshop do projeto LEEC-FINLÂNDIA financiado pela FAPESP e coordenado pelo Miltinho. Lá estávamos, e por algum motivo, o Mauro chamava a iniciativa de “Caipora” rsrs.. Eu fiquei assustada com a grandiosidade da proposta, mas apesar disso, de uma cientista caipira passei a começar a aprender a fazer data paper 🙂
    Logo a iniciativa se tornou o ATLANTIC e agregou um monte de pesquisadores de toda a Mata Atlântica, dentro e fora do Brasil. Com o ATLANTIC aprendi novas maneiras de trabalhar em equipe, gerenciar pessoas e dados. Aprendi a ter paciência comigo mesma, pois enquanto seres humanos e cientistas, também erramos e damos cabeçadas. Aprendi que temos muito a fazer, e que o trabalho nunca acaba 🙂
    Agora que data paper e open science não é mais novidade, sinto que estamos numa fase de bonança científica, com aumento de colaborações entre pesquisadores brasileiros em busca de responder questões maiores do que, por exemplo, inventariar uma lista de espécies.
    Mais ATLANTICS vem chegando por aí, incluindo mais vertebrados, invertebrados, mais interações e também dados espaciais da Mata Atlântica. Go ATLANTICS!

    Abração

    Curtir

  2. Belo texto Marco! Isso é uma verdadeira democratização da ciência! Precisamos de mais data papers. Como você mesmo disse, em tempos de crise e falta de verba, a disposição desses dados é uma mão na roda!

    Curtir

  3. Acho que o mais empolgante é a ligação com open science e open data. O que, muitas vezes, inviabiliza a publicação em revistas fechadas (em tempos de cortes, o publication fee das revistas OA fica proibitivo).
    Em nosso laboratório, temos ensaiado a disponibilização dos nossos dados em um repositório no GitHub. Lá subimos os dados, em CSV, e um R Notebook para cada dataset; quem quiser pode reproduzir as análises no R na sua própria máquina. Mas, no nosso caso, o volume de dados é bem menor, e certamente de menos interesse. Ainda estamos apreensivos com as “rasteiras” que o pessoal aplica; estamos terminando a coleta de um experimento para publicar o artigo, mas os dados já estão disponíveis. Vamos ver no que dá.

    Curtir

    1. Oi Caio, obrigado pelo feedback. Pois é, estamos numa transição de culturas, tempo de experimentar modelos alternativos. Daqui a alguns anos veremos o que funciona melhor. Um abraço!

      Curtir

  4. Mais um texto fantástico Marco!
    O que me deixa mais empolgado com as publicações dos ATLANTIC-DATASETS – particularmente do ATLANTIC-CAMTRAPS – é a possibilidade de, em poucos meses, abrir uma publicação que usou o dataset e falar: “Caramba, nunca pensei nisso! Sensacional!”
    Disponibilizar os dados, estruturados e sistematizados, para todas as cabeças pensantes dispostas a usá-los é uma excelente receita para inovação!
    A conta está paga: os dados que isoladamente, em sua maioria, renderiam notas aqui e ali estão publicados na Ecology e todos saem ganhando. Não precisamos de “feudos” na ciência, chega de “one man armies”. Precisamos de “Fellowships of the ring”! “Fellowships of Science”!
    =)

    Curtir

    1. Oi Fernando, obrigado! Você é um dos cabeças por trás da série ATLANTIC, não? Achei a iniciativa sensacional e fiquei muito feliz por terem me convidado.

      Curtir

  5. Fantástico!

    Eu também não tinha ouvido falar de data papers.
    Parabéns Marco e Renata “MuyAlerta” Muylaert.

    Estou curioso para descobrir como podemos fazer o mesmo na engenharia quando os dados vierem de plataformas de testes diferentes, com equipamentos diferentes.

    Obrigado por compartilhar.
    Abraço,
    Lucas Palhão

    Curtir

Deixe um comentário

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.