page_0110

OverviewVersionsHelp

Facsimile

Translation

Status: Needs Review
Show Transcription

archivos. La mayoría es software comercial que actualmente se vende y utiliza.

Esta colección única fue creada para estandarizar las prácticas de identificación de software como parte de las investigaciones forenses de cómputo . Es decir, en una investigación uno quiere ser capaz de identificar rápidamente qué del contenido de una computadora es software estándar y en qué contenido habría que concentrarse como material potencialmente único y relevante. Como se discutió antes con relación a la fijeza, una de las características clave de los objetos digitales es que es posible generar valores criptográficos hash (MD5, SHA-1, etc) para identificar un archivo de forma única. Así, al centralizar una librería masiva de software comercial, para la NSRL es posible proporcionar valores hash para todos los archivos que contiene, los cuales pueden ser utilizados por cualquier cantidad de organizaciones para identificar concluyentemente qué sofware está en cualquier dispositivo de cómputo.

Si bien todo el contenido de la colección está protegido por derechos de autor, la NSRL sí puede distribuir metadata de la colección. Esta metadata es útil porque contiene información derivada clave (título, publicador, etc), junto con los valores hash para cada uno de los archivos asociados con cada programa de cómputo individual. Aunada a la información derivada, la NSRL mantiene una copia de la colección para fines de investigación. Aunque no permiten a los investigadores in situ el acceso a la colección, la NSRL acepta consultas que se comparan con el corpus masivo de archivos únicos. En ese sentido, este corpus de archivos únicos ha jugado un papel clave como conjunto de datos de investigación a partir del cual se han desarrollado varios métodos y enfoques de ciencias computacionales.

La NSRL funciona como un archivo oscuro. La colección de archivos de software se mantiene en una una red completamente aislada (air-gapped network), es decir, es una red separada que no está conectada a las computadoras fuera de las salas del NIST, donde se encuentra la biblioteca. Por esta razón no solo es imposible acceder a dichos archivos desde fuera, sino también resulta imposible hacerlo para cualquiera dentro del NIST sin entrar físicamente a su espacio. No es muy distinto al Svalbard Global Seed Vault (el repositorio global de semillas de último recurso), pero para archivos de software. Al derivar metadatos sobre la colección, además de publicar y compartir esa información, el contenido de la NSRL es ampliamente usado. Mientras que los archivos reales se preservan y permanecen inaccesibles, la información derivada de ellos tiene un uso inmediato para un rango de comunidades participantes. De forma similar, al permitir el análisis computacional de los contenidos de sus colecciones, el NIST proporciona una forma valiosa para que otros lo usen. Mientras que la mayoría de los lectores de este libro no contarán con la sofisticada infraestructura que tiene el NSRL, existen algunas lecciones que se pueden aprender de este caso.
La publicación de los metadatos y de información descriptiva derivada computacionalmente sobre cualquier colección dada puede resultar muy útil. En particular, la unicidad de los valores hash ofrece un modo potencial para identificar elementos duplicados exactamente en varias colecciones.

Uso no consuntivo: HathiTrust y Google Ngram

Hathitrust es una asociación de más de 120 instituciones de investigación y bibliotecas que proporciona acceso en línea a millones de obras digitalizadas. En particular, contiene más de 7 millones de libros digitalizados. La sociedad se originó a través del proyecto de digitalización Google Books con el que Google se asoció con bibliotecas para digitalizar los libros de sus colecciones. Muchas de las obras digitalizadas en este proceso siguen bajo la protección de los derechos de autor por lo que no pueden compartirse amplia y libremente. Con esto en mente, cabe aclarar que dentro de la red de socios de HathiTrust es posible hacer uso de las obras bajo derecho de autor de la colección dentro de lo estipulado en la ley de derechos de autor, a lo que se ha

Notes and Questions

Please sign in to write a note for this page

DaleLore

Non-consumptive use

ac

a partir de una búsqueda verifiqué que no se llama "n-gram" sino "Ngram", así que lo corregí