Preservar os seus dados de investigação

James Baker

Pode fazer uma doação ao Programming Historian

Programming Historian em português

Preservar os seus dados de investigação

James Baker

Esta lição irá sugerir maneiras pelas quais os historiadores podem documentar e estruturar os seus dados de pesquisa, a fim de garantir que continuem sendo acessíveis no futuro.

Avaliada por pares

CC-BY 4.0

Apoie o PH

editado por

Adam Crymble

revisto por

Jane Winters
Sharon Howard
William J. Turkel

traduzido por

Márcia T. Cavalcanti

tradução editada por

Joana Vieira Paulino

tradução revista por

Maria Guedes
Elizabeth Freire

publicado

| 2014-04-30

traduzido

| 2021-01-29

modificado

| 2014-04-30

dificuldade

| Baixo

DOI id icon https://doi.org/10.46430/phpt0001

Faça uma doação!

Tutoriais de qualidade em acesso aberto têm custos de produção. Junte-se ao crescente número de pessoas que apoia o Programming Historian para que possamos continuar a partilhar o conhecimento gratuitamente.

Disponível em: EN (original) | ES | PT | FR

Histórico

No ensaio de 2003 “Escassez ou abundância”, Roy Rosenzweig procurou alertar os historiadores para o que ele chamou de “fragilidade das evidências na era digital” (Rosenzweig, 736). E, embora as suas preocupações estivessem focadas em fontes disponíveis na Web aberta, podem ser facilmente estendidas aos materiais digitais - ou dados - que os historiadores criam durante as suas pesquisas.

É nesses dados de pesquisa que o presente guia se focará. Mas por quê?

Bem, os historiadores estão adotando computadores como ferramenta base para armazenar todos os dados de suas pesquisas, seus materiais de pesquisa. Seus manuscritos são objetos digitais há algum tempo e suas pesquisas estão se encaminhando para isso - seja na forma de notas digitadas, fotografias de arquivos ou dados. Além disso, os dados de pesquisa mantidos em formato digital apresentam vantagens claras sobre seus antecedentes físicos: podem ser navegados e pesquisados, hospedados de maneira a permitir o acesso em muitos locais, podem ainda ser mesclados ou confrontados com outros dados de pesquisa.

Apenas colocar os dados da pesquisa em formato digital não garante que eles sobrevivem. Aqui, por sobrevivência, não queremos dizer sobreviver no sentido literal, nem no sentido de ser legível pela próxima versão do Microsoft Word, mas sim de poder ser utilizado pelas pessoas. Pois se não for um problema resolvido, os aspectos práticos de como preservar os dados de pesquisa para o futuro e potenciais soluções já foram extensivamente abordadas, com e sem historiadores em mente. Especialistas em gerenciamento de dados, serviços e afins já falaram sobre as melhores práticas académicas no que diz respeito à documentação, estruturação e organização de dados de pesquisa. Mesmo assim, os dados de pesquisa gerados por um historiador individual correm o risco de se perder se esse historiador não for capaz de gerá-los ou preservá-los de uma forma em que esses dados possam ser entendidos e terem sentido, para ele ou para alguém esquadrinhando as idiossincrasias do seu processo de pesquisa, anos ou décadas depois. Em suma, existe o risco de perda quando os dados perdem o contexto da sua criação, do conhecimento tácito que os tornaram úteis no momento da preparação da palestra X ou do manuscrito Y. Como William Stafford Noble coloca:

O principal princípio norteador é simples: alguém não familiarizado com o seu projeto deve ser capaz de examinar os ficheiros do seu computador e entender em detalhe o que você fez e por quê […] No entanto, o mais comum é que esse “alguém” seja você. Daqui a alguns meses, talvez você não se lembre do que estava a fazer quando criou um conjunto específico de ficheiros ou talvez não se lembre das conclusões que tirou. Você precisará dedicar algum tempo reconstruindo as experiências anteriores ou perder as ideias que obteve dessas mesmas esperiências.

William Stafford Noble (2009) A Quick Guide to Organizing Computational Biology Projects. PLoSComputBiol 5(7): e1000424. doi:10.1371/journal.pcbi.1000424

Com base nas lições e conhecimentos dos especialistas em dados de pesquisa, o presente guia irá sugerir maneiras pelas quais os historiadores podem documentar e estruturar os dados de pesquisa, a fim de garantir que continuem úteis no futuro. O guia não pretende ser prescritivo, ao contrário, supõe-se que os leitores irão iterar, mudar e adaptar as ideias apresentadas para melhor se ajustarem à sua própria pesquisa.

Documentando os dados de pesquisa

Birkwood, Katie (girlinthe). “Victory is mine: while ago I worked out some Clever Stuff ™ in Excel. And I MADE NOTES ON IT. And those notes ENABLED ME TO DO IT AGAIN.” 7 October 2013, 3:46 a.m.. Tweet.

https://twitter.com/Girlinthe/status/387166944094199809

O propósito da documentação é capturar o processo da criação de dados, as alterações ocorridas e o conhecimento tácito associado. As metodologias de gestão de projetos, como o PRINCE2, enfatizam muito a documentação precisa, estruturada e detalhada. Embora haja benefícios na abordagem, especialmente para projetos grandes, complexos e com múltiplos parceiros, é mais provável que o historiador no trabalho rotineiro beneficie de uma abordagem flexível e personalizada da documentação que se baseia nos princípios de gestão de projetos, mas não está presa a eles. No caso da pesquisa histórica, o tipo de documentação que pode ser produzida para preservar a utilidade dos dados da pesquisa inclui:

Documentação descrevendo as anotações feitas ao examinar um documento de arquivo, como a referência de arquivamento do documento original, quão representativas são as anotações (por exemplo, transcrições completas, transcrições parciais ou resumos), quanto do documento foi examinado ou as decisões tomadas para excluir seções do documento do processo de pesquisa.
Documentação descrevendo os dados tabulados, como foram gerados (por exemplo, à mão ou de maneira automatizada), referência de arquivo da fonte original, de onde vieram alguns ou quais atributos das fontes originais foram mantidos (e porquê).
Documentação que descreve um diretório de imagens digitais, como cada imagem foi criada, de onde essas imagens foram obtidas ou notas de pesquisa que se referem a elas.

Como o último exemplo sugere, um dos principais objetivos da documentação é descrever as ligações significativas que existem entre os dados da pesquisa, e que podem não permanecer óbvias ao longo do tempo.

Documentar depende muito do indivíduo e do ritmo de pesquisa. A regra principal é adquirir o hábito de escrever e atualizar a documentação em intervalos regulares, sendo o ideal sempre que um lote de trabalho for concluído ao final da manhã, da tarde ou do dia. Ao mesmo tempo, é importante não se preocupar com a perfeição, e sim procurar escrever documentação consistente e eficiente que seja útil no momento e também para outra pessoa que venha a utilizar os dados de pesquisa, anos após o fato.

Formatos de ficheiros

Idealmente, os dados e a documentação da pesquisa devem ser salvos em formatos multiplataforma como .txt para notas e .csv (valores separados por vírgula) ou .tsv (valores separados por tabulação) para dados tabulados. Esses formatos de texto simples são preferíveis aos formatos proprietários usados como padrões pelo Microsoft Office ou iWork, porque podem ser abertos por muitos pacotes de software e têm uma grande chance de permanecerem visíveis e editáveis no futuro. A maioria dos pacotes Office padrão inclui a opção de salvar ficheiros nos formatos .txt, .csv e .tsv, o que significa que você pode continuar com um software familiar e ainda tomar as medidas necessárias para tornar o trabalho acessível. Em comparação com .doc ou .xls, estes formatos têm o benefício adicional, numa perspectiva de preservação, de conter apenas elementos legíveis por máquina. Embora seja uma prática comum usar negrito, itálico e cores nos títulos para destacar a importância ou fazer uma conexão visual entre elementos de dados, estas anotações orientadas à exibição não são legíveis por máquina e, portanto, não podem ser consultadas e pesquisadas e nem são apropriadas para grandes quantidades de informação. Dê preferência a esquemas de notação simples, como o uso de um asterisco duplo ou três hashtags para representar um recurso de dados: nas anotações, por exemplo, podem ser incluídos três pontos de interrogação indicando algo que é preciso acompanhar, sendo escolhido “???” porque pode facilmente ser encontrado com uma pesquisa CTRL+F.

É provável que em muitas ocasiões estes esquemas de notação surjam da prática individual (e, como consequência, precise ser documentada), embora esquemas existentes, como o Markdown estejam disponíveis (os ficheiros do Markdown são salvos como .md). Uma excelente página de dicas do Markdown está disponível no GitHub https://github.com/adam-p/markdown-here) para aqueles que desejam seguir - ou adaptar - este esquema existente. O Notepad++ http://notepad-plus-plus.org/ é recomendado para usuários do Windows, embora de modo algum seja essencial para trabalhar com ficheiros .md. Usuários de Mac ou Unix podem achar útil o Komodo Edit ou o Text Wrangler.

Recapitulação 1

Recapitulando, os pontos chave sobre documentação e formato de ficheiros são:

Fazer documentação que capture de maneira precisa e consistente o conhecimento tácito em torno do processo de pesquisa, seja em relação às notas, geração de dados ou acumulação de evidências visuais.
Simplificar o processo de documentar, usando formatos de ficheiro e práticas de notação independentes da plataforma e legíveis por máquina.
Criar tempo para atualizar e documentar o fluxo de trabalho sem permitir que o trabalho de documentação se torne um fardo.
Investir para deixar um rasto de papel agora e economizar tempo na tentativa de reconstruí-lo no futuro.

Estruturar dados de pesquisa

A documentação da pesquisa é facilitada pela estruturação dos dados de pesquisa de maneira consistente e previsível.

Porquê?

Bem, sempre que usamos um catálogo de biblioteca ou arquivo, confiamos em informações estruturadas para navegar pelos dados (físicos ou digitais) que a biblioteca ou arquivo contém. Sem essa informação estruturada, a pesquisa seria muito mais pobre.

Examinar URLs é uma boa forma de pensar sobre porquê pode ser útil estruturar dados de pesquisa de maneira consistente e previsível. URLs incorretas não são reproduzíveis e, portanto, em contexto académico, não podem ser citadas. Pelo contrário, bons URLs representam com clareza o conteúdo da página que identificam, contendo elementos semânticos ou usando um único elemento de dados encontrado transversalmente num conjunto ou na maioria das páginas.

Um exemplo típico são as URLs usadas por sites de notícias ou serviços de blog. As URLs do jornal “Público” seguem o formato:

nome do site/ano(4 dígitos)/mês (2 dígitos)/dia (2 dígitos)/palavras-do-título-separadas-por-hifens
https://www.publico.pt/2020/07/13/culturaipsilon/noticia/academicos-querem-juntar-memorias-documentos-pandemia-portugal-1924223

Um estilo semelhante é usado por agências de notícias como o Nexo Jornal:

nome do site/subdivisão da seção/ano (4 dígitos)/mês (3 caracteres)/dia (2 dígitos)/palavras-que-descrevem-o-conteúdo-separadas-por-hifens
https://www.nexojornal.com.br/expresso/2020/12/21/O-que-se-sabe-sobre-a-nova-variante-do-coronav%C3%ADrus .

Nos catálogos de arquivo, URLs estruturadas por um único elemento de dados são frequentemente usadas. O site Homens e Navios do Bacalhau estrutura seu arquivo on-line usando o formato:

nome do site/registo/número de referência
http://homensenaviosdobacalhau.cm-ilhavo.pt/header/diretorio/showppl/17606

E o Arquivo Histórico Ultramarino usa o formato:

Nome do site/details?id=número de referência
https://digitarq.ahu.arquivos.pt/details?id=1119374

O que aprendemos com esses exemplos é que uma combinação de descrição semântica e elementos de dados torna as estruturas de dados consistentes e previsíveis legíveis tanto por humanos quanto por máquinas. Transferir isso para dados digitais acumulados durante o curso da pesquisa histórica facilita sua navegação, pesquisa e consulta com as ferramentas padrão fornecidas pelos sistemas operacionais (e, como veremos numa outra lição, até por ferramentas mais avançadas).

Na prática (para usuários do OS X e Linux, substitua todas as barras invertidas daqui por diante por uma barra), a estrutura de um bom ficheiro de dados de pesquisa pode ser algo assim:

Um diretório base ou raiz, talvez chamado de “trabalho”.

\trabalho\

Uma série de sub-diretórios.

     \trabalho\eventos\
     \pesquisa\
     \ensino\
     \escrita\

Dentro desses diretórios há uma série de diretórios para cada evento, projeto de pesquisa, módulo ou parte da escrita. A introdução de uma convenção de nomenclatura que inclui elementos da data mantém as informações organizadas sem a necessidade de subdiretórios por, por exemplo, ano ou mês.

\trabalho\pesquisa\2014-01_Artigos_Periódicos
              \2014-02_Infraestrutura

Finalmente, outros subdiretórios podem ser usados para separar as informações à medida que o projeto cresce.

trabalho\pesquisa\2014_Artigos_Periódicos\análises
                                    \dados
                                    \notas

Obviamente, nem todas as informações se encaixarão perfeitamente em qualquer estrutura e, à medida que surgem novos projetos, as taxonomias precisam de ser revisadas. De qualquer maneira, a idiossincrasia não tem problema, desde que a estrutura geral do diretório seja consistente e previsível, e desde que se documente tudo que não esteja claramente documentado: por exemplo, o subdiretório ‘escrita’ na estrutura acima pode incluir um ficheiro .txt declarando o que ele contém (rascunhos e versão final do trabalho escrito) e o que não contém (pesquisa referente a esse trabalho escrito).

O nome desse ficheiro .txt, na verdade qualquer documentação e dados de pesquisa, é importante para garantir que ele e seu conteúdo sejam fáceis de identificar. ‘Notas sobre esta pasta.docx’ não é um nome que cumpra esse objetivo, enquanto ‘2014-01-31_Escrita_Leia-me.txt’ é como o nome replica o título do diretório e inclui algumas informações de data. Um ficheiro readme feito para um projeto recente (em inglês) contém o tipo de informação que qualquer usuário de dados pode achar úteis.

Uma história de advertência deve ser suficiente para confirmar o valor desta abordagem. Durante a realização de um projeto de pesquisa anterior, James Baker coletou cerca de 2.000 imagens digitais de impressões satíricas da Geórgia de várias fontes on-line, mantendo os nomes dos ficheiros no download. Se eu tivesse aplicado uma convenção de nomenclatura a essas imagens desde o início (por exemplo, “ANO DE PUBLICAÇÃO_SOBRENOME DO ARTISTA_TÍTULO DO TRABALHO.FORMATO”), seria possível pesquisar e consultar essas imagens. De fato, iniciar cada nome de ficheiro com alguma versão do AAAAMMDD significaria que os ficheiros poderiam ser colocados em ordem cronológica no Windows, OS X e Linux. E garantir que todos os espaços ou pontuação (exceto traço, ponto e sublinhado) fossem removidos dos nomes dos ficheiros no processo de torná-los consistentes e previsíveis, tornaria possível a linha de comando trabalhar com esses ficheiros. Mas não foi feito e, como está, seria preciso reservar muito tempo para alterar cada nome individualmente, a fim de tornar os dados utilizáveis dessa maneira.

Além disso, a aplicação dessas convenções de nomenclatura a todos os dados de pesquisa de maneira consistente e previsível auxilia na legibilidade e compreensão da estrutura de dados. Por exemplo, para um projeto em artigos de periódicos, podemos escolher o diretório…

\trabalho\pesquisa\2014-01_Periódico_Artigos\

…onde os elementos ano-mês capturam quando o projeto começou.

Nesse diretório incluímos um diretório \dados\ no qual os dados originais usados no projeto são mantidos.

2014-01-31_Periódico_Artigos.tsv

Junto com esses dados, está a documentação que descreve 2014-01-31_Periódico_Artigos.tsv.

2014-01-31_Journal_Articles_notas.txt

Voltando para o nível de diretório \2014-01_Periódico_Artigos\, criamos o diretório \análises\ no qual colocamos:

2014-02-02_Periódico_Artigos_analises.txt
2014-02-15_Periódico_Artigos_analises.txt

Observem-se os diferentes atributos de mês e data aqui. Eles refletem as datas em que a análise dos dados ocorreu, uma convenção descrita brevemente em 02-02-2014_Periódico_Artigos_análise_leia-me.txt.

Por fim, um diretório dentro de \dados\ chamado \dados derivados\ contém dados derivados do original 2014-01-31_Periódico_Artigos.tsv. Nesse caso, cada ficheiro .tsv derivado contém linhas que incluem as palavras-chave ‘africa’, ‘america’, ‘arte’ etc., e é nomeado de acordo.

2014-01-31_Periódico_Artigos_KW_africa.tsv

2014-01-31_Periódico_Artigos_KW_america.tsv

2014-02-01_Periódico_Artigos_KW_arte.tsv

2014-02-02_Periódico_Artigos_KW_grã-bretanha.tsv

Recapitulação 2

Recapitulando, os pontos chave sobre estruturar dados de pesquisa são:

As estruturas de dados devem ser consistentes e previsíveis.
Considerar usar elementos semânticos ou identificadores de dados para estruturar diretórios de dados de pesquisa.
Ajustar e adaptar a estrutura de dados de pesquisa à pesquisa em mãos.
Aplicar convenções de nomenclatura para diretórios e nomes de ficheiros para identificá-los, criar associações entre elementos de dados e ajudar na legibilidade e compreensão a longo prazo na estrutura de dados.

Sumário

Esta lição sugere maneiras de documentar e estruturar dados de pesquisa, com o objetivo de garantir que os dados sejam preservados, capturando o conhecimento tácito adquirido durante o processo de pesquisa e facilitando o uso das informações no futuro. Recomenda o uso de plataformas de formatos independentes e legíveis por máquina para documentação e dados de pesquisa. Sugere como os URLs oferecem um exemplo prático de estruturas de dados boas e ruins, que podem ser replicadas para os propósitos dos dados de pesquisa de um historiador.

Estas sugestões têm a intenção de servirem apenas como guias; espera-se que os pesquisadores adaptem de acordo com os seus propósitos. Ao fazer isso, é recomendável que os pesquisadores mantenham em mente as estratégias de preservação digital e as melhores práticas de gestão de projetos, garantindo que o tempo gasto documentando e estruturando a pesquisa não se torne um fardo. Afinal, o objetivo deste guia é fazer pesquisas históricas que geram dados mais eficientes, não menos. Ou seja, a sua pesquisa.

Leituras adicionais

Ashton, Neil, ‘Seven deadly sins of data publication’, School of Data blog (17 outubro 2013) http://schoolofdata.org/2013/10/17/seven-deadly-sins-of-data-publication/

Hitchcock, Tim, ‘Judging a book by its URLs’, Historyonics blog (3 janeiro 2014) http://historyonics.blogspot.co.uk/2014/01/judging-book-by-its-url.html

Howard, Sharon, ‘Unclean, unclean! What historians can do about sharing our messy research data’, Early Modern Notes blog (18 maio 2013) http://earlymodernnotes.wordpress.com/2013/05/18/unclean-unclean-what-historians-can-do-about-sharing-our-messy-research-data/

Noble, William Stafford, A Quick Guide to Organizing Computational Biology Projects.PLoSComputBiol 5(7): e1000424 (2009) https://doi.org/10.1371/journal.pcbi.1000424

Oxford University Computing Services, ‘Sudamih Project. Research Information Management: Organising Humanities Material’ (2011) https://zenodo.org/record/28329

Pennock, Maureen, ‘The Twelve Principles of Digital Preservation (and a cartridge in a repository…)’, British Library Collection Care blog (3 setembro 2013) http://britishlibrary.typepad.co.uk/collectioncare/2013/09/the-twelve-principles-of-digital-preservation.html

Pritchard, Adam, ‘Markdown Cheatsheet’ (2013) https://github.com/adam-p/markdown-here

Rosenzweig, Roy, ‘Scarcity or Abundance? Preserving the Past in a Digital Era’, The American Historical Review 108:3 (2003), 735-762.

UK Data Archive, ‘Documenting your Data’ http://data-archive.ac.uk/create-manage/document

Sobre o(a) autor(a)

James Baker é Diretor de Humanidades Digitais da University of Southampton.

Citação sugerida

James Baker, "Preservar os seus dados de investigação", traduzido por Márcia T. Cavalcanti, Programming Historian em português 1 (2021), https://doi.org/10.46430/phpt0001.

Faça uma doação!

Tutoriais de qualidade em acesso aberto têm custos de produção. Junte-se ao crescente número de pessoas que apoia o Programming Historian para que possamos continuar a partilhar o conhecimento gratuitamente.