The Theory and Craft of Digital Preservation

ReadAboutContentsHelp

Pages

page_0101
Complete

page_0101

mi resumen. El sistema grabó cuando lo cargué. Marqué una casilla para que la tesis estuviera disponible de inmediato y luego apareció en línea. Lo puedes encontrar en la sección de la Facultad de Educación y Desarrollo Humano de la Colección de Tesis y Disertaciones de Electrónica de GMU. Donde en el pasado, imagino, un catalogador habría necesitado crear un registro para mi disertación, el sistema ahora está configurado de tal manera que el trabajo de hacer eso se transfiere al autor de la disertación. Los repositorios institucionales se utilizan para mucho más que disertaciones, muchos contienen cosas como actas de reuniones, podcasts, presentaciones de PowerPoint, conjuntos de datos de investigación, grabaciones de video, etc.

Las fortalezas de este tipo de sistema (en gran medida, cuando las llaves se han otorgado a los usuarios) son simultáneamente su mayor debilidad. Es fácil para este tipo de sistemas convertirse en un "motel con cucarachas" donde la gente carga inconsistentemente y describe inadecuadamente objetos digitales. 93 Tienden a funcionar bien para algo como disertaciones, donde es posible insistir en que alguien no pueda graduarse sin depositar su disertación. Pero más allá de eso, este tipo de sistemas tiende a representar de manera errática los registros de una institución. Es decir, la amplitud de este tipo de colección va a vivir o morir en función de lo bien que incentive la participación de sus usuarios. Del mismo modo, cuando una biblioteca contrata a alguien para que describa y catalogue sistemáticamente alguna colección, se obtienen metadatos y niveles de descripción muy consistentes. Cuando entrega esa función para que cada usuario final de un sistema en lo individual lo haga, puede terminar fácilmente con datos incoherentes e inconsistentes. El mismo conjunto de problemas surge en contextos muy diferentes.

StoryCorp.Me Historia oral de colaboración abierta y distribuida

Es probable que muchos lectores estén familiarizados con StoryCorps, fragmentos de entrevistas de historia oral que comparten cada semana en NPR. Desde 2003, StoryCorp ha recopilado más de 50,000 de esas entrevistas de historia oral de cabinas de escucha que viajan por todo el país. Esas entrevistas son descritas y almacenadas por el personal y los archiveros de StoryCorps y finalmente archivadas para su preservación en la Biblioteca del Congreso. En 2015, StoryCorps diseñó y lanzó StoryCorp.me, una aplicación móvil que permite a personas de todo el mundo realizar entrevistas de StoryCorp usando su teléfono, ingresar metadatos para ellas y subirlas para incluirlas en el archivo. Como puede imaginar, esto expande rápida y dramáticamente el tamaño de la colección. Rápidamente, StoryCorp tuvo más entrevistas desde la aplicación que luego de más de una década de recopilar entrevistas desde las cabinas. Debo enfatizar que este caso no es único. Muchas organizaciones están utilizando cosas como la plataforma de publicación de colección de código abierto Omeka para crear estas colecciones de crowdsourcing. Estas aplicaciones recopilaron entrevistas, y otros esfuerzos de recolección de colaboración colectiva, vienen con exactamente el mismo conjunto de problemas potenciales que los materiales en un repositorio institucional. Es decir, dado que los metadatos de esta colección son generados por el usuario, inevitablemente no serán tan consistentes y completos como los metadatos que los profesionales capacitados habían creado en el pasado.

El resultado de esto es que el diseño de la experiencia del usuario, con pruebas iterativas en el desarrollo de interfaces y flujos de trabajo, se vuelve crítico como práctica de este tipo de sistemas. Lo que termina siendo una especie de proyecto de investigación en ciencias sociales. De ¿Cómo motiva o incentiva a las personas a participar en estos sistemas? ¿Qué tipos de campos de metadatos deberían usar vocabularios controlados y menús desplegables? ¿Cuándo debería tener un campo de texto libre? ¿Cuántos campos de metadatos puede pedirle a alguien que complete? Establece restricciones sobre los tipos de archivos que alguien puede cargar, valida los archivos que cargan y obligarlos a

______________ 93 Una de las mejores piezas sobre las amplias limitaciones y desafíos de establecer y ejecutar repositorios digitales sigue siendo el “Innkeeper at the Roach Motel.” de Salo.

Last edit over 3 years ago by ac
page_0102
Complete

page_0102

enviar de nuevo si la información no está allí, saber ¿Cuántos campos es probable que alguien complete? ¿Qué campos deberían ser obligatorios y cuáles opcionales? Estas son preguntas de investigación en ciencias sociales y desarrollo de interacción humano-computadora y de los desarrolladores de sistemas para construir colecciones digitales, que ahora se han convertido en preguntas centrales para la biblioteconomía. Aún no tenemos las respuestas a estas preguntas. La conclusión aquí es que este tipo de preguntas ahora son fundamentales para el trabajo de las instituciones que resguardan del patrimonio cultural. Las instituciones de resguardo de patrimonio cultural deben invertir tiempo, recursos y personal para tener éxito en la producción de interfaces de recopilación compresivas, consistentes y utilizables. Las decisiones de diseño sobre cómo estructurar las aportaciones e interacciones de los usuarios dejarán una marca duradera en el contenido y la estructura de esas colecciones.

Descripción vinculada y en red

Muchos objetos digitales se indexan, describen y se anotan entre sí. Por ejemplo, si toma todos los enlaces que aparecen en los artículos publicados en Drudge Report, el hecho de que Drudge Report se vincule a esos sitios le informa algo sobre ellos. Volviendo a los ejemplos de todos los metadatos individuales en un tweet, si tomaste todos los tweets que un político importante hizo a lo largo del tiempo, terminas con un conjunto coherente de tweets pero también con una serie de anotaciones de las URL mencionadas en esos tweets. Es decir, si tomas cada tweet en esa colección que menciona alguna URL en específico y todos los tweets de otras colecciones que mencionan esa URL, se tiene mucha información que describe, contextualiza y comenta cualquier recurso que resida en esa URL. Este conjunto de conexiones vinculadas se convierte en una poderosa forma de contexto.

Los alcances de esto se relacionan con temas del capítulo anterior que habla del desarrollo de colecciones. Por ejemplo, varios proyectos de cosecha web han utilizado un conjunto de información como medio para identificar el contenido que se debe recopilar. La Biblioteca Nacional Británica desarrolló twittervane, una herramienta de código abierto para recopilar las URL mencionadas en los tweets que aluden un término determinado. 94 Del mismo modo, Internet Archive creó una colección de archivos web utilizando las URL extraídas de los 13 millones de tweets que mencionan el hashtag de Ferguson en las protestas después del asesinato de Michal Brown. En estos casos, una colección digital se convierte en la base para determinar el alcance de otra y las dos funcionalmente se apuntan y sirven de contexto entre sí.

Las técnicas de procesamiento del lenguaje natural, los métodos computacionales para identificar patrones en el texto se utilizan cada vez más para mostrar las relaciones entre objetos y metadatos descriptivos (¿el qué?, en). Existen potentes kits de herramientas de código abierto para la extracción de entidades por nombre (un enfoque para identificar nombres de personas, nombres de lugares, fechas y horas expresados en una variedad de formas textuales) y los investigadores están trabajando en aplicar estas técnicas a posibles aplicaciones para ayudar a la descripción de objetos. A medida que se perfeccionen estas tecnologías, será posible que un bibliotecario o un archivista las ejecute sobre un corpus de texto, o aplique visión por computadora o de texto hablado, sobre colecciones de imágenes o audio, y así vincular, etiquetar y clasificar el contenido según las sugerencias proporcionadas por estas tecnologías computacionales.

Es apropiado elaborar objetos casi totalmente digitales con ambos datos los de sus propios derechos de uso y metadatos que describen otros objetos. Para este fin, debemos pensar en "la descripción" y "lo descrito" como un límite difuso. El futuro implicará descubrir cómo aprovechar el hecho de que

___________________ 94 Para una discusión sobre el proyecto TwitterVane y el trabajo relacionado, vea Milligan, Ruest y Lin, “Content Selection and Curation for Web Archiving.”

Last edit over 3 years ago by ac
page_0103
Complete

page_0103

los medios digitales cada vez más hacen referencias entre ellos. Descubrir cómo mostrar y documentar estos enlaces, de manera automatizada, proporcionará una gran cantidad de metadatos descriptivos potencialmente valiosos. Es probable que también sea la única forma en que podamos trabajar a escala el contenido digital.

De Catalogador a Data Wrangler

La asequibilidad de los objetos digitales presenta la oportunidad para repensar cómo los organizamos y describimos. La naturaleza de base de datos de la información digital hace que algunos aspectos para la organización sean mucho más directos. Es posible permitir a los usuarios finales asumir muchas más responsabilidades para filtrar y clasificar el contenido de la manera que les sea útil en un momento dado. Al mismo tiempo, las formas en que recopilamos y fragmentamos ese contenido crean algunas formas únicas de abordar otras. Sigue siendo crítico considerar cómo se organiza la información digital, pero el énfasis es la lección sobre la individualidad del objeto y más respecto a la creación de agregados útiles.

Afortunadamente, la lógica de la computación insiste en diferentes niveles de metadatos incrustados en los objectos digitales. En cierto nivel, todos los objetos digitales son autodescriptivos. Vienen con nombres de archivo, extensiones de archivo, marcas de tiempo, etc. Todos esos metadatos son lo que permite a los profesionales del resguardo del patrimonio cultural y a sus usuarios manipularlos y trabajar rápidamente con ellos. La complejidad de los objetos digitales; sus copias variantes, el patrón de enlaces e interrelaciones, proporciona una considerable partícula para ordenar las relaciones en red que existen entre ellos. En este contexto, el establecimiento de los límites de los objetos digitales en relación con la intención de conservación se vuelve primordial.

Nos estamos alejando de un mundo en el que un archivista o un catalogador establece a una descripción orden y autores para ir a un mundo en donde el archivista y catalogador apalancan las disputas para dar sentido los flujos de información. Esto se trata menos de aplicar descripciones o imponer organización y más de descripciones generales y de aclarar y decidir qué orden dentro del contenido digital privilegia. En muchos casos, los roles también están cambiando para permitir que varios tipos de usuarios describan y organicen contenido. En este espacio, se vuelve cada vez más crítico tomar las lecciones de un enfoque More Product Less Process de la teoría de archivo y aplicarlo a los enfoques y prácticas que nos permiten trabajar en niveles más altos de organización y descripción y dejar para empezar que los aspectos de nivel más bajo de organización y descripción estén cubiertos por metadatos incrustados y las formas de orden y estructura que vienen con todo tipo de objeto digital.

Last edit over 3 years ago by ac
page_0104
Complete

page_0104

Habilitar el acceso y el uso multimodal

"Por supuesto, la mera compresión no es suficiente; no sólo se requiere hacer y almacenar un registro sino ser capaces de consultarlo, y este aspecto del asunto viene después. Incluso la gran librería moderna no suele ser consultada; la mordisquean unos cuantos." -Vannevar Bush (1945)

"Lo mejor es enemigo de lo bueno." - Voltaire (1770)

GeoCities, servicio de alojamiento web y comunidad en línea temprana, fue cerrado de forma abrupta en 2009. Afortunadamente, el Internet Archive, un grupo de archivistas pícaros que se hacen llamar Archive Team, hizo esfuerzos conjuntos para archivar el sitio. El Archive Team proporcionó acceso masivo al sitio a través de su Way Back Machine. El grueso de los datos del Archive Team se convirtió en la base de una serie de proyectos en los que se crearon importantes y significativas interfaces para acceder a esos datos. A partir de la copia de los datos en bruto, algunos artistas crearon múltiples proyectos, Deleted City, el cual visualizaba el contenido del sitio a través de mapas de diagramas de árbol y One Terabyte of the Kilobyte Age, el cual representaba e interpretaba páginas del sitio en Tumblr. Esta historia, en la que profundizo más adelante en este capítulo, ilustra temas claves en el uso de colecciones digitales. El rápido acceso masivo a las colecciones digitales puede empoderar a los usuarios en la creación de otros modos de accesar a ellos. El futuro del acceso digital comienza como acceso en masa/al por mayor que empodera a los usuarios y que continúa a través de más proyectos boutique cuando esto se justifica según las necesidades particulares de la comunidad de usuarios.

Después de todo, la preservación se trata de dar acceso en el futuro. Pero hoy en día, el acceso también es crítico. Resulta difícil justificar la colección y preservación de las cosas si estas no proporcionan valor a sus depositantes. Al trabajar para proporcionar acceso a contenido digital, se puede ayudar a garantizar que los modos en los que se adquieren, acomodan y se proporciona acceso a él sean útiles e inteligibles para tus usuarios. Cuanto antes proporciones acceso, más pronto sabrás si el resto del trabajo que estás realizando se sostiene y hace sentido para tus usuarios. Esto es, al subir el contenido para los usuarios puedes empezar a incorporar las aportaciones de los usuarios para continuar con la redefinición de tu acercamiento y enfoque.

Este capítulo examina algunas de las oportunidades y desafíos de proporcionar acceso a colecciones digitales. Existen cosas simples que, en cierto nivel, cualquiera puede hacer para empezar a proporcionar acceso inmediato al contenido. Resulta crítico pensar detenidamente en los aspectos legales y éticos que implica proporcionar acceso a las colecciones. Dichas consideraciones apuntan una serie de asuntos clave con respecto a qué tipos de restricciones en el acceso tienen sentido en distintos contextos. Con estos puntos en mente, analizo un rango de ejemplos entre métodos y enfoques para proporcionar acceso a colecciones digitales específicas. A través de estos ejempls sugiero la importancia de un enfoque multimodal en el acceso. Esto permite a tus usuarios jugar un papel clave al proporcionar retroalimentación en lo que hará que el contenido sea más útil para ellos. También abre oportunidades para que los usuarios asuman el mando en el diseño de interfaces para que otros también puedan acceder a tu contenido.

Juntos, los ejemplos de este capítulo ilustran cómo el acceso es y seguirá siendo más y más multimodal. Dadas muchas de las posibilidades inherentes de la información digital,

Last edit over 3 years ago by ac
page_0105
Complete

page_0105

tiene sentido que veremos una variedad de ensamblajes, conjuntos, interfaces y métodos para el acceso y uso de colecciones digitales. En este contexto, tienes sentido pensar en los modos en los que se proporcionará acceso al contenido en lugar de el modo en el que se proporcionará acceso. Esto involucra cada vez más que pensemos transversalmente en un espectro de modos de acceso. Un extremo de ese espectro es a gran esacla; métodos para proporcionar acceso masivo a las colecciones como conjuntos de datos y para pensar en métodos consistentes para proporcionar acceso uniforme a todo el contenido. En el otro extremo de ese espectro está la boutique; que proporciona sets de materiales con curadurías especializadas, interfaces especiales personalizables o modos de remediar o destacar contenido para casos de uso especiales.

Dado que probablemente existen múltiples formas en las que uno se puede enfocar para dar acceso a un conjunto dado de objetos, por lo general es buena idea empezar con lo que es más fácil o sencillo y explorar otros enfoque conforme el tiempo y los recursos lo permitan. Como ha sido el caso a lo largo del libro, la consideración clave en la toma de decisiones sobre qué métodos de acceso tienen sentido en un contexto dado va a involucrar poner en orden el análisis costo beneficio de cierto enfoque para respaldar las necesidades de los usuarios o depositantes.

Comenzar simple y priorizar el acceso

Cuando en una biblioteca de investigación un usuario pide ver un libro en un lenguaje rebuscado por lo general un bibliotecario lo traerá y dejará que lo vea. Quizá dicho bibliotecario no tenga idea de cómo hacer sentido del texto. Lo cual no le impide saber cómo dar acceso a él. En esta situación, se asume que un investigador que solicita un libro como ese necesita tener las habilidades necesarias para hacer que tenga sentido. En el nivel más básico, podemos proporcionar esta clase de acceso a cualquier objeto digital que se esté preservando. Aquí está, tómalo. Volviendo al principio de MPLP descrito en el último capítulo, se tendría que estar trabajando en proporcionar este nivel de acceso tan rápido como sea posible a cada cosa que hayamos adquirido. Debería tomarnos muy poco tiempo convertir las cosas que hemos adquirido en cosas a las que estamos proporcionando acceso, al menos en una forma mínima. Al menos un nivel mínimo de acceso tendría que ser cuestión de días/semanas/meses, no de años.

Una vez que se ha adquirido un objeto o colección, se debería tener una mínima descripción acerca de ellos y proporcionar tanto acceso abierto como esté permitido y tanto como sea ético. El ejemplo del archivo de 4chan en Stanford en el último capítulo ejemplifica este mínimo requerido. Los bibliotecarios en Stanford reciben los documentos. Crean una colección a nivel registro. Evalúan si pueden compartirlos abiertamente en la web. Publican la colección/el elemento en la web, en donde cualquiera puede descargar una copia o verificar que su copia sea fiel al registro que Stanford proporciona. La colección fue evaluada, seleccionada, descrita y hecha accesible a nivel colección en cuestión de horas.

Las posibilidades de los medios digitales abren un significativo potencial para el acceso y el uso del contenido digital. Con esta consideración, nuestra experiencia con el consumidor de software puede interponerse en proporcionar acceso al contenido digital. Muchos bibliotecarios y archivistas no proporcionan acceso a algún conjunto de contenido hasta que tienen en marcha un sistema de acceso sofisticado que renderiza el contenido en una interfaz fácil de usar. Vale la pena notar que "fácil manejo" es en sí mismo un marco ideológico para el cómputo que a menudo entorpece una apreciación crítica de los medios computacionales. Tenemos que superar el deseo de tener esta clase de interfaces para todo, en las que solo hacen falta unos cuantos clicks sobre un objeto digital para que "funcione". Recordemos, esto es parte de la problemática suposición del esencialismo de la pantalla. No existe una interfaz ni medio de acceso inherente para acceder a cualquier material digital. En su lugar, existen varios modos de ___ 95 Al respecto, ver el capítulo dos de Emerson, Reading Writing Interfaces.

Last edit over 3 years ago by ac
Displaying pages 101 - 105 of 138 in total