Última alteração: 2011-10-10
Resumo
Resumo. A Universidade do Porto é a maior universidade portuguesa e gera uma parte significativa da produção científica portuguesa. A preocupação com a gestão dos dados produzidos em contexto de investigação levou a U.Porto a lançar um projecto de auditoria sobre os dados existentes nos grupos de investigação em vários domínios. Os resultados preliminares mostram uma grande diversidade de dados em natureza, volume e estrutura, a necessidade comum de preservação dos dados e a motivação dos investigadores para a disponibilização de dados sujeita a restrições inerentes aos próprios dados e ao processo de investigação.
1 Gestão de dados científicos
Os dados produzidos em contexto de investigação são reconhecidamente de grande valor. A obtenção dos dados pode envolver recolhas com recurso a equipamento sofisticado, feitas no âmbito de projectos financiados e cuja reprodução requereria novos custos em equipamentos e mão-de-obra. Alguns conjuntos de dados são de divulgação problemática, pelo facto de envolverem estudos com pessoas ou terem outras restrições associadas à sua compilação. Há dados recolhidos por equipas internacionais, cuja disseminação está prevista, mas que podem ser difíceis de localizar pelos investigadores que poderiam produzir novos trabalhos neles baseados. Em geral, é reconhecido que a repetibilidade de um resultado científico depende em muitos casos do acesso pelos investigadores aos dados de base originais.
A Universidade do Porto (U.Porto) [1] é a maior universidade portuguesa e gera uma parte significativa da produção científica portuguesa, como pode ser observado no seu repositório aberto. Na linha das preocupações internacionais com a gestão dos dados científicos, a U.Porto participou activamente num estudo de estado da arte sobre repositórios científicos realizado no âmbito do RCAAP em 2010 [2]. Na sequência deste trabalho foi considerado que num passo seguinte seria necessário trabalhar com os grupos de investigação e perceber os seus requisitos na gestão de dados. Neste sentido a U.Porto lançou o projecto UPData [3] recorrendo às recomendações internacionais sobre auditoria de dados. O projecto está a ser desenvolvido por uma equipa com competências de informática e de gestão de informação e envolveu alguns grupos de investigação da universidade. Os resultados até ao momento mostram uma grande diversidade nos dados existentes nos vários grupos e a motivação dos investigadores para a disponibilização de dados sujeita a restrições inerentes ao conjunto de dados e ao processo de investigação. É também claro que a prática de curadoria de dados é muito diferente nas várias disciplinas. A auditoria servirá para informar os centros de decisão da universidade para a oportunidade e caraterísticas de um serviço de curadoria de dados acessível a todos os investigadores.
2 Auditoria de dados
A auditoria de dados na U.Porto seguiu as recomendações existentes nos trabalhos relacionados, nomeadamente a metodologia proposta no Data Asset Framework [4]. Tratando-se da primeira iniciativa nesta linha na universidade, uma das escolhas iniciais foi a diversidade de domínios. A escolha dos grupos a contactar seguiu uma estratégia mista, combinando os contactos da Reitoria com as direções das faculdades e institutos de investigação para a indicação de grupos de investigação apropriados e os contactos directos da equipa do projecto a grupos onde sabiam que haveria dados com interesse. O primeiro contacto com os investigadores levou à marcação de entrevistas nos locais de trabalho. As entrevistas seguiram um guião que será divulgado no final do projecto e resultaram em contactos subsequentes para a cedência de amostras de dados.
A Tabela 1 lista os domínios dos grupos de investigação que foram entrevistados, a natureza dos dados recolhidos para exemplo e o tipo de acesso estabelecido pelos investigadores. As entrevistas foram uma excelente fonte de informação sobre as necessidades dos investigadores, de que podemos destacar a preservação dos dados e o seu fornecimento a parceiros de projectos, interna e externamente à U.Porto.
Tabela 1. Domínios dos dados e condições de acesso.
Domínio Natureza dos dados Tipo de Acesso
Astronomia Gravimetria Livre
Engenharia Química Análise de poluentes Condicionado por contrato
Engenharia Mecânica Estudos de fraturas de materiais Com período de embargo
Engenharia Civil Dados sobre via férrea Com período de embargo
Ciências da Educação Entrevistas Com período de embargo
Psicologia Registos de interação Com período de embargo
Economia Dados sobre população Condicionado por contrato
Botânica Ecologia Com período de embargo
3 Conclusões
A auditoria de dados na U.Porto excedeu as expectativas no que diz respeito a interesse dos investigadores pela curadoria de dados. Foi claro que nalgumas áreas, em que os investigadores produzem dados que são registados em repositórios internacionais, o problema é considerado tratado, mas que isso não acontece na maioria dos domínios. Os recursos necessários para esta experiência em pequena escala são uma boa indicação do esforço necessário para iniciar um serviço de curadoria numa universidade da dimensão da U.Porto.
Numa linha de investigação nesta área, estão a ser usados os conjuntos de dados recolhidos para construir modelos de dados para serem usados pelos investigadores como formatos de troca e de interrogação dos dados. A U.Porto está a preparar um repositório experimental em que alguns destes serviços poderão ser demonstrados e testados com os investigadores.
Referências
1. U.Porto: Homepage. http://www.up.pt/
2. Ribeiro, C., Rodrigues, E., Fernandes, E.M., Saraiva, R.: Os Repositórios de Dados Científicos: Estado da Arte. RCAAP. http://hdl.handle.net/10216/23806 (2010)
3. UPData Team: Project UPData. http://joaorosilva.no-ip.org/dataup/wiki/
4. DAF Team: The Data Asset Framework Implementation Guide. http://www.data-audit.eu/