The Theory and Craft of Digital Preservation

ReadAboutContentsHelp

Pages

page_0106
Complete

page_0106

de renderizar dicho contenido, que pueden o no importarle a un usuario particular en un caso de uso particular.

Esto significa que los practicantes de preservación digital tienen que, para empezar, estar de acuerlo con decir "Aquí está, tómalo". Incluso si no sabes cómo abrir determinado archivo, tus usuarios pueden explorarlo en un editor hexadecimal y leer la metadata embebida en él. En el nivel más básico, la norma tendría que ser proporcionar acceso en el sitio a los materiales digitales. Con esa consideración, se requiere pensar un poco más en las posibilidades de acceso que proporciona la red abierta.

La tiranía del sistema de descubrimiento

Antes de abordar cuestiones entorno a las restricciones de acceso, primero quiero abordar la cuestión de las interfaces y sistemas de descubrimiento. Para quienes trabajan en instituciones de patrimonio cultural, la pregunta del acceso se resuelve con lo que sea que ofrezca el sistema que usan. De modo que si se realiza un proyecto de colección usando Omeka, Omeka te permite proporcionar acceso a cada elemento a través de su interfaz. De forma similar, si se usa DSpace como sistema de repositorio entonces se incluye una interfaz para el usuario final. En cualquier caso, hay que usar lo que esté al alcance. Sin embargo, no hay que permitir que estos sistemas se anticipen a la imaginación respecto a cuál podría ser el mejor modo de propocionar acceso a tu contenido.

No hay que permitir que la funcionalidad de un sistema sea el principal motor respecto a las decisiones respecto a cómo se describe y se acomoda el contenido. Volviendo al ejemplo del archivo de 4Chan, en el repositorio de Stanford la página de dicha colección se parece mucho a una página de elemento pero en realidad es una descripción de la colección entera. Hoy en día, cualquier sistema de descubrimiento en uso es temporal. En tres años o en una década habrá un nuevo sistema, y no quieres tomar decisiones significativas respecto a lo que se hará a largo plazo basándote en el conjunto de funciones de alguna aplicación. Con ese fin, para distintos tipos de contenido resulta muy simple proceder y publicar en línea el contenido que se tiene, ya sea en directorios o páginas HTML muy simples y después integrar eso con cualquiera de los sistemas que se usarán en caso contrario.

Para seguir con la idea del acceso multimodal, si se te proporciona un sistema de descubrimiento con el cual trabajar, este debe proporcionar el punto de referencia y modo de acceso iniciales. De cualquier forma, no hay que pensarlo como el único modo en el que se usará el contenido. Se trata simplemente del medio para un fin en el presente. Con esa consideración, regresaré a la reflexión entorno a las oportunidades de acceso fuera de cualquier sistema o infraestructura particulares.

La oportunidad y el problema de la red abierta

La red es una plataforma de acceso maravillosa. El contenido que se publica en internet se vuelve globalmente accesible casi de inmediato. Resulta difícil medir qué tan masivo puede ser el impacto que esto ha tenido y sigue teniendo en el acceso al patrimonio cultural material.

Un archivista puede tener una colección de 10,000 documentos de procesadores de texto, procesarlos para convertirlos a HTML, subirlos a la red con una estructura de vínculos simple para que un motor de búsqueda los indexe. Como resultado obtenemos rápido acceso y descubrimiento global del contenido. En esta etapa, si alguien hace una búsqueda en Google con el nombre de una persona misteriosa puede llegar directamente al documento número 3,587 en donde se menciona a esta persona.

Este tipo de descubrimiento de contenido es transformativo. Esto habría sido materia de ciencia ficción antes de que internet lo volviera una parte de nuestra vida cotidiana. De cualquier modo, este tipo de descubrimiento requiere que seamos considerablemente más reflexivos de lo que hemos sido en el pasado respecto a los tipos de efectos que puede tener este tipo de acceso inmediado a la información. En el

Last edit over 3 years ago by ac
page_0107
Complete

page_0107

pasado, ese nombre de una persona individual presente en una página página de un documento en un archivo habría sido accesible para cualquiera que 1) de alguna forma supiese buscar en dicha colección aunque el nombre de la persona ni siquera estuviese descrito en la metadata de la colección y 2) después fuese físicamente al archivo y echase un vistazo en la totalidad de la colección para encontrarlo. El trabajo que hizo posible acceder a algo de esta manera tenía el efecto de proporcionar una forma de privacidad a través de la opacidad. Como resultado, es imperativo que quienes administran colecciones digitales sean más conscientes acerca de las cuestiones éticas y legales que emergen con este tipo de forma de acceso y descubrimiento transformacional.

Ética, privacidad, derechos y restricciones

Consignas como "la información quiere ser libre" parecen tener una verdan aparente en ellas. Sin embargo, existen tres razones principales por las cuales quienes trabajan para proporcionar acceso a colecciones no pueden simplemente tomar este tipo de consignas como su mantra; derechos de autor, privacidad y respeto a las leyes culturales. Voy a describir brevemente cada uno de estos puntos y después a lo largo del capítulo demostraré con ejemplos cómo los diferentes enfoques del acceso funcionan para abordar estas cuestiones legales y éticas.

Casi todo el trabajo que se produce está protegido por derechos de autor. No soy abogado. Este no es un libro sobre derechos de autor. Así que no hay que tomar estos comentarios breves como asesoría legal. En lugar de eso, mis comentarios se pueden usar como una incitación para recordar que hay que reflexionar entorno a estas cuestiones y profundizar, hacer una investigación propia o pedir asesoría legal. Los derechos de autor conceden derechos exclusivos de distribución al creador de una obra. En Estados Unidos, las bibliotecas tienen un conjunto de excepciones establecidas en la sección 108 de la ley de derechos de autor que trata de la preservación y el acceso de colecciones. Desgraciadamente, estas excepciones resultan obsoletas para tratar con información, pero continúan siendo importantes 96. Sumado a eso, existen disposiciones de uso justo que las bibliotecas usan cada vez más para respaldar sus enfoques respecto a proporcionar acceso 97. Más allá de estos derechos, las instituciones culturales a menudo hacen acuerdos con los donadores del contenido o con aquellos de quienes lo adquieren que establecen cuáles son los derechos que el titular de los derechos cede a la institución para distribuir su contenido. Además de esto, el creciente movimiento a favor de hacer el trabajo creativo de uso abierto a través de iniciativas como las licencias Creative Commons ha creado un rango de posibilidades para coleccionar, preservar y proporcionar acceso al contenido.

Si dejamos de lado los derechos de autor, al hacer el contenido ampliamente disponible se ponen en juego cuestiones éticas entorno a la privacidad. Por ejemplo, los registros organizacionales pueden incluir información sobre los salarios de los individuos que integran un equipo, sus números de seguridad social e información de cuentas bancarias. Toda esa información podría usarse para hacer daño a esas personas. Muchas formas de investigación con datos plantean cuestiones éticas similares. Por ejemplo, los investigadores de ciencias médicas y sociales de instituciones de educación superior a menudo recolectan información sensible acerca del comportamiento sexual de la gente, o del uso de drogas que si llegara a ser público, podría resultar peligroso para los participantes de la investigación. De modo similar, un investigador que estudie los movimientos sociales y el uso de redes sociales podría terminar recolectando información de interés para los individuos que trabajan para suprimir dichos movimientos o incluso para oprimir a dichas personas. Incluso más allá de la información personal

96 Para una revisión de las cuestiones relativas a la sección 108 y los objetos digitales ver The Section 108 Study Group Report. El reporte tiene casi una década y todavía no ha resultado en una revisión sustancial de la ley. 97 Para una introducción práctica y útil respecto a cómo se está usando el uso justo en las bibliotecas ver Adler et al., "Code of Best Practices in Fair Use for Academic Research Libraries".

Last edit over 3 years ago by ac
page_0108
Complete

page_0108

existen cuestiones éticas a considerar respecto a la información sensible. Por ejemplo, un zoológo que estudia alguna especie en peligro podría recopilar información de las ubicaciones de los animales que los cazadores furtivos podrían usar para la continuar la caza y conducir la especie a la extinción. Estos son apenas unos ejemplos, pero todos subrayan cómo ignorar los asuntos de la privacidad de la información puede resultar en un daño real.

Las instituciones de patrimonio cultural tienen la responsabilidad ética de trabajar para asegurar que sus compromisos con la preservación y el acceso estén alineados con nuestra responsabilidad social compartida. Esto requiere analizar detenidamente los enfoques de acceso restringido al contenido que implique este tipo de cuestiones éticas. Según la perspectiva interactiva ante a estas cuestiones en los últimos capítulos del libro, las cuestiones éticas relacionadas con el acceso muchas veces propician el retorno a decisiones sobre qué coleccionar, cómo coleccionarlo y cómo procesar dichas colecciones. Muchas veces, la mejor manera de lidiar con cuestiones éticas es anonimizar, editar o bien, garantizar que la información que pueda ser peligrosa para los individuos simplemente no se recopile ni se guarde. Si se cuenta, de hecho, con información que pueda resultar en un daño real, hay que saber que destruirla es el modo más seguro para proteger a aquellos que estarían en peligro. Así que cualquier decisión para conservar información sensible debe llegar como resultado de una valoración premeditada respecto al beneficio y daño potenciales que podrían derivar de su conservación.

Junto con las cuestiones de la privacidad, existe otra categoría relacionada con las preocupaciones éticas. Alrededor del mundo los diferentes grupos culturales y étnicos tienen distintas normas y reglas respecto a qué puede y debe compartirse con alguien en determinada situación o escenario. Esta es una cuestión particularmente significativa con colecciones de materiales culturales pertenecientes a comunidades indígenas. Históricamente, los poderes coloniales han ignorado estas cuestiones culturales. Por ejemplo, podría haber objetos digitalizados a los cuales solo deban tener acceso los integrantes de una familia o que solo deban usarse o verse en una temporada o época del año particular, o que sean considerados sagrados y solo deban emplearse de un modo particular. Kim Christen de la Washington State University dirige un equipo que desarrolla y da respaldo a Mukurtu, un sistema de administración de colecciones de código abierto que se enfoca en devolver el control sobre las decisiones de acceso a las comunidades indígenas 98. De modo similar, iniciativas como Traditional Knowledge Labels están intentando desarrollar modos de hacer comprensibles esta clase de restricciones de acceso 99. Estos ejemplos nos recuerdan que el objetivo de las instituciones no debe ser el acceso en aras del acceso. Las instituciones culturales deben ser recursos para las comunidades no los cosechadores ni saqueadores de las comunidades. La historia nos enseña que muchas veces este no ha sido el caso. En muchos casos, las bibliotecas, archivos y museos han servido, y por defecto, siguen sirviendo como infraestructuras de colonialismo y opresión 100. Tenemos que hacer un mejor trabajo.

Vale la pena subrayar que aunque mucho del trabajo que se enfoca en estas normas culturales emerge del trabajo con comunidades indígenas sus implicaciones son de gran alcance. Conforme las instituciones de patrimonio cultural trabajen para volverse más socialmente responsables, resulta crítico que reconozcan que su existencia muchas veces está atada directamente a los flujos de poder. Como resultado de estas estructuras de poder, una porción significativa el trabajo que las bibliotecas, archivos y museos han hecho a lo largo del tiempo en el desarrollo de colecciones ha funcionado como parte de sistemas de control y opresión. Muchas instituciones públicas y no lucrativas surgieron de las colecciones personales de los ricos y continúan construyendo colecciones en continudad con las direcciones establecidas por sus progenitores. Así que es

98 Ver Christen, "Archival Challenges and Digital Solutions in Aboriginal Australia." 99 Ver Anderson y Christen, "Chuck a Copyright on It". 100 Ver Drake, "Expanding #ArchivesForBlackLives to Traditional Archival Repositories.", Zinn, "Secrecy, Archives, and the Public Interest" y Hagan, "Archival Captive-- The American Indian".

Last edit over 3 years ago by ac
page_0109
Complete

page_0109

importante pensar en las cuestiones alrededor de las normas culturales, junto a las cuestiones de privacidad individual en un amplio rango de situaciones de las colecciones. Resulta particularmente crítico considerar estas cuestiones cuando se trabaja con iniciativas que se enfocan en documentar o preservar los registros de comunidades que han sido o están siendo oprimidas. Una forma de ayudar es trabajar para incorporar sistemáticamente las voces y perspectivas de los oprimidos en cada aspecto del trabajo que se coleccionará, preservará y dará acceso.

Estas tres áreas: derechos de autor, privacidad y normas culturales son el conjunto general de consideraciones que se deben pensar a detalle mientras se desarrollan planes respecto a cómo hacer disponible cualquier colección. Según el enfoque interactivo de la parte práctica de este libro, vale la pena subrayar que el acceso no es algo que se deba dejar para más tarde. Se debe pensar en los modos de acceso desde el principio. Para cada una de estas cuestiones legales y éticas el modo más directo para lidiar con ellas es restringir el acceso al contenido. Esto puede incluir la administración de un archivo secreto, al que no se permite el acceso. O podría involucrar acceso restringido a una colección con acceso exclusivo para los individuos que visiten una sala de lectura. O podría involucrar acceso restringido para aquellos que generen una cuenta y firmen un acuerdo respecto a lo que podrán y no podrán hacer con el contenido. Con esta observación, cada vez es más frecuente que existan modos más sofisticados para abordar las cuestiones de acceso, tanto en los casos en los que existen restricciones significativas como donde no las hay. Explorar distintos ejemplos ayudará a demostrar estos puntos.

Niveles multimodales de acceso y sus restricciones

Existen modos cada vez más sofisticados para proporcionar un acceso útil a los aspectos de una colección mientras se respetan los tipos de restricciones de acceso que surgen por los derechos de autor, la privacidad y las normas culturales. La mejor forma de ilustrar esto es a través de algunos ejemplos concretos.

En esta sección presento tres colecciones distintas de material digital: la National Software Reference Library (Biblioteca Nacional de Referencia de Softwares), Google Books & HathiTrust corpora y la colección Theresa Duncan de CD-ROMs de Rhizome. Las restricciones de acceso en cada uno de estos casos tiene más que ver con los derechos de autor que con la privacidad o las normas culturales, pero sus enfoques son ilustrativos de los métodos que se pueden usar para la privacidad o las normas culturales. Muchos de estos casos ilustran el valor de crear y compartir datos derivados a partir de las colecciones. Este es un punto que exploraré a profundidad en la siguiente sección que se enfoca en el potencial de la remediación, derivados y mejoras para habilitar el acceso y uso de las colecciones.

Acceso a un archivo oscuro: el NSRL

Creada en el año 2000, el National Institute of Standards and Technology 101 mantiene la National Software Reference Library (NSRL), una división del National Institutes of Technology (NIST) en el Departamento de Comercio de Estados Unidos, contiene una colección masiva de archivos de paquetes de software comercial (desde QuickBooks hasta Microsoft Word, AutoCAD, hasta World of Warcraft, etc). En el momento de escribir esto, se incluían cerca de 140 millones de archivos digitales. La mayoría del software en la colección fue comprado. Otra parte fue donado, así que la NSRL no tiene propiamente el derecho de distribuir los

101 Para mucho más detalle sobre cómo trabaja la NSRL ver Owens, "Life-Saving".

Last edit over 3 years ago by ac
page_0110
Complete

page_0110

archivos. En su mayoría se trata de software comercial que se vende y se usa de forma activa.

Esta colección única se creó para estandarizar las prácticas de identificación de software como parte de investigaciones de cómputo forense. Es decir, en una investigación uno quiere ser capaz de identificar rápidamente qué del contenido de una computadora es software estándar y en qué contenido habría que concentrarse como material potencialmente único y relevante. Como se discutió antes con relación a la fijeza, una de las características claves de los objetos digitales es que es posible generar valores hash criptográficos (MD5, SHA-1, etc) para identificar un archivo de forma única. Así, al centralizar una librería masiva de software comercial, para la NSRL es posible proporcionar valores hash para todos los archivos que contiene, los cuales pueden ser utilizados por cualquier cantidad de organizaciones para identificar concluyentemente qué sofware está en cualquier dispositivo de cómputo.

Si bien todo el contenido de la colección está protegido por derechos de autor, la NSRL puede distribuir metadata de la colección. Esta metadata es útil porque contiene información derivada clave (título, publicador, etc). Junto a la información derivada, la NSRL mantiene una copia de la colección para fines de investigación. Aunque no permitirán acceder a la colección a los investigadores in situ, la NSRL acepta consultas que desafían el corpus masivo de archivos únicos. En ese sentido, este corpus de archivos únicos puesto a prueba ha jugado un papel clave como conjunto de datos de investigación en contra del cual se han desarrollado varios métodos y enfoques de ciencias computacionales.

El NSRL funciona como un archivo oscuro. La colección de archivos de software se mantiene en una red air-gap, una red completamente separada que no está conectada a las computadoras de las salas del NIST, donde se localiza la biblioteca. Esto es, no solo no es posible para ti acceder a dichos archivos, también resulta imposible hacerlo para cualquiera dentro del NIST sin entrar físicamente en el espacio. No es muy distinto al Svalbard Global Seed Vault (el repositorio global de semillas de último recurso), pero para archivos de software. Al derivar metadatos sobre la colección, además de publicar y compartir esa información, el contenido de NSRL es ampliamente usado. Mientras que los archivos reales se preservan y permanecen inaccesibles, la información derivada de dichos archivos tiene un uso inmediato para un rango de comunidades depositantes. De forma similar, al permitir el análisis computacional de los contenidos de sus colecciones, el NIST proporciona una forma valiosa para que otros lo usen. Mientras que la mayoría de los lectores de este libro no contarán con la sofisticada infraestructura que tiene el NSRL, existen algunas moralejas de este caso. Publicar los metadatos e información descriptiva derivada computacionalmente sobre cualquier colección dada puede resultar muy útil. En particular, la unicidad de los valores hash ofrece un modo potencial para identificar elementos exactamente duplicados en varias colecciones.

Uso no consuntivo: HathiTrust y Google n-gram

Hathitrust es una asociación de más de 120 instituciones de investigación y bibliotecas que proporcionan acceso en línea a millones de obras digitalizadas. En particular, contiene más de 7 millones de libros digitalizados. La asociación se origina a través del proyecto de digitalización Google Books en el cual Google se asoció con bibliotecas para digitalizar los libros de sus colecciones. Mucho del trabajo digitalizado en este proceso siguen bajo la protección de los derechos de autor, y como tal no pueden compartirse amplia y libremente. Dicho lo cual, dentro de la red de socios de HathiTrust es posible hacer uso de las obras bajo derecho de autor de la colección dentro de lo estipulado en la ley de derechos de autor. Esto ha

Last edit over 3 years ago by ac
Displaying pages 106 - 110 of 138 in total