A Search   for the Heart

En Busca del Corazón

Digital collections, machine learning and legacies of care

Colecciones digitales, aprendizaje automático y legados de pasión

By Jer Thorp & Jonathan Ashley for LC Labs

Por Jer Thorp & Jonathan Ashley para LC Labs

En 2018, la Biblioteca del Congreso (BdC) lanzó su primera estrategia digital global. En el centro del documento había una promesa: abrir el "tesoro” para el público general. Los fondos digitales de la Biblioteca suman casi 200 petabytes. Fotografías, películas, fuentes, códigos, recetas, dibujos arquitectónicos, sitios web, periódicos y grabaciones digitales hechas a partir de cilindros de cera.

In 2018, The Library of Congress released its first agency-wide digital strategy. At the center of the document was a promise: to throw open the “treasure chest.” The Library’s digital holdings add up to nearly 200 petabytes. Photographs, films, source code, recipes, architectural drawings, websites, newspapers, and digital recordings made from wax cylinders.

Con la estrategia digital 2018-2023, la Biblioteca aumentaría exponencialmente estos fondos digitales, intensificando el trabajo de digitalización y reforzando las colecciones de origen digital. El plan también permitiría que muchos más materiales estuvieran disponibles en línea, continuando décadas de digitalización y ampliando los medios para que cualquiera pueda acceder a ellos y descargarlos desde la nube.

With the 2018-2023 digital strategy, the Library would grow these digital holdings exponentially, ramping up digitization work and bolstering born-digital collections. The plan would also see many more of materials made available online, continuing decades of digitization and extending ways for anyone to access and download materials from the cloud.

Como institución, durante mucho tiempo la Biblioteca del Congreso (LOC en inglés) había acogido a quienes la visitaban en persona, desenrollando mapas y extendiendo libros en las mesas de sus veinte salas de lectura y centros de investigación. Ahora estaba surgiendo una necesidad diferente: personas que querían claves API en lugar de tarjetas de identificación de lector, y más servidores que escritorios.

As an institution, the LOC had long served people who visited in person, unrolling maps and spreading out books on the tables of its twenty reading rooms and research centers. Now a different need was emerging, people who wanted API keys instead of Reader ID cards and server space more than desk space.

Educadores como Jackie Katz.

Educators like Jackie Katz.

Katz es profesora de ciencias en un instituto de Nueva Jersey, y utiliza fuentes primarias STEM (Ciencia, Tecnología, Ingeniería y Matemáticas) en clase. Se enteró de que la Biblioteca tenía los papers de Nina Fedoroff, una famosa microbióloga y genetista. Katz colaboró con los archivistas de la División de Manuscritos de la Biblioteca para emular el antiguo software de Fedoroff de los años ochenta y noventa, lo que permitió descubrir algunas de sus hojas de cálculo originales de investigación de campo, secuencias de ADN e imágenes de microscopio.

Katz is a New Jersey high school science teacher who uses STEM primary sources in the classroom. She learned the Library had the papers of Nina Fedoroff - a famous microbiologist and geneticist. Katz collaborated with archivists in the Library’s Manuscript Division to emulate Fedoroff’s old software from the 80s and 90s, unlocking some of her original field research spreadsheets, DNA sequences, and microscope images.

Artistas como Jeffrey Yoo Warren.

Artists like Jeffrey Yoo Warren.

Yoo Warren, artista y educador de Rhode Island, utilizó fotos de archivo, mapas y registros de la colección de la BdC para construir "portales ocultos", reconstrucciones inmersivas en 3D de comunidades históricas chino-americanas y coreano-americanas. Estas reconstrucciones basadas en GPS solo pueden experimentarse en los lugares geográficos donde alguna vez existieron estas comunidades, ofreciendo así un recordatorio de cuántas historias han estado ocultas a plena vista.

Yoo Warren, an artist and educator in Rhode Island, used archival photos, maps, and records from the LOC collection to build “hidden portals,” immersive 3D reconstructions of historic Chinese American and Korean American communities. These GPS-based reconstructions can only be experienced in the geographic locations where these communities once existed, offering a reminder of how many histories have been hidden in plain sight.

Eruditos como Lincoln Mullen.

Scholars like Lincoln Mullen.

Historiador de la Religión Americana, Mullen utiliza métodos computacionales para analizar textos y música. Para su proyecto America's Public Bible (Biblia Pública de América), Mullen escribió un código para procesar millones de páginas de periódicos de la colección de la BdC, en busca de citas bíblicas. El proyecto descubre tendencias y pautas en estas citas, a una escala que sería invisible para los eruditos que utilizaran enfoques no computacionales.

A historian of American Religion, Mullen uses computational methods to analyze text and music. For his project America’s Public Bible, Mullen wrote code to process millions of newspaper pages from the LOC’s collection, looking for bible quotes. The project uncovers trends and patterns in these citations, on a scale that would be invisible to scholars using non-computational approaches.

Un año después de la publicación de la Estrategia Digital, la Biblioteca invitó a Mullen y a otras dos investigadoras – Lauren Tilton y Andromeda Yelton – a formar parte de un proyecto de estudio de caso denominado Computando la Historia Cultural en la Nube (Computing Cultural History in the Cloud o CCHC). El objetivo era averiguar exactamente cómo se abriría al público general el tesoro de la Biblioteca: cómo podría la biblioteca atender las solicitudes de investigación computacional siendo realista en cuanto a sus capacidades institucionales y consciente de los posibles riesgos y perjuicios.

A year after the release of the Digital Strategy, the Library invited Mullen and two other researchers - Lauren Tilton and Andromeda Yelton - to take part in a case study project called Computing Cultural History in the Cloud (CCHC). The goal was to figure out just exactly how the Library’s treasure chest would be thrown open: how the library could serve computational research requests while being realistic about its institutional capabilities, and mindful of potential risks and harms.

El proyecto del CCHC empezó centrándose sobre todo en cuestiones técnicas:

The CCHC project started off centered on mostly technical concerns:

¿Qué formatos de datos eran más útiles para los investigadores?

What data formats were most useful to researchers?

¿Podría la biblioteca ofrecer recursos informáticos para ayudar en el análisis de los datos?

Could the library offer computing resources to help with data analysis?

¿Qué cambios de personal serían necesarios para atender estos nuevos tipos de solicitudes?

What staffing changes would be needed to support these new kinds of requests?

Yelton, Tilton y Mullen se pusieron manos a la obra. Extrajeron datos y codificaron marcos, diseñaron interfaces y afinaron las preguntas de investigación. Siguiendo de cerca su trabajo, el personal del CCHC recabó valiosas ideas.

Yelton, Tilton and Mullen got to work. They pulled data and coded frameworks, designed interfaces and sharpened research questions. Watching their work closely, the CCHC staff gleaned valuable insights.

Aprendieron, por ejemplo, que era probable que los investigadores digitales acudieran a la Biblioteca con sus propios marcos, flujos de trabajo y pilas de software. Los investigadores querían que los modos de acceso a los datos fueran sólidos y estuvieran bien documentados, pero no les preocupaba demasiado el formato en que les llegaban los datos. No había una respuesta única a sus necesidades técnicas, ni un formato de archivo o método de entrega que funcionara para cada uno de ellos, y mucho menos para decenas de miles de posibles nuevos usuarios de la Biblioteca.

They learned, for example, that digital researchers were likely to come to the Library with their own frameworks, workflows, and software stacks. The researchers wanted the modes of access to the data to be robust and well documented, but they weren’t overly concerned with the format the data came to them in. There was no one-size-fits-all answer to their technical needs, no file format or delivery method that would work for each of them, let alone for tens of thousands of potential new Library users.

Para chefs que buscan históricas recetas afroamericanas.

For Chefs looking for historic African American recipes.

Para estudiantes de secundaria que investigan la historia de sus barrios.

For High School students investigating the histories of their neighborhoods.

Yo soy parte de estos últimos.

That last one is me.

Cuando llegué a Washington para mi primer día como Innovador Residente en 2017, iba preparado con un montón de ideas sobre cómo utilizaría los datos de la Biblioteca; la magnitud de estos me cautivó: cientos de miles de fotografías, tres siglos de registros de catálogos, dos manzanas de planotecas repletas de mapas. Al igual que los investigadores del CCHC, vine con mis propias herramientas, afiladas y listas.

When I came to Washington for my first day as Innovator in Residence in 2017, I was prepared with a stack of ideas of how I’d use the Library’s data. I was enamored by the scale of it all: hundreds of thousands photographs, three centuries of catalogue records, two city blocks of flat file cabinets filled with maps. Like the CCHC researchers I came with my own tools, sharpened and ready.

Durante los dieciocho meses que pasé allí, aprendí una cosa muy importante. Lo aprendí una y otra vez, de diferentes maneras. Es algo que tú también aprenderás si pasas suficiente tiempo en el cofre del tesoro. Lo aprenderás de códices raros, de archivos web, de código FORTRAN en disquetes. Más aún, lo aprenderás de bibliotecarios, archivistas e historiadores. Lo encontrarás en el corazón de los hallazgos del CCHC y en los significativos paquetes de datos que la Biblioteca está lanzando:

Over the eighteen months I spent there, I’d learned one very important thing. I learned it over and over, in different ways. It’s something that you’ll learn too if you spend enough time in the treasure chest. You’ll learn it from from rare codexes, from web archives, from FORTRAN code on floppy disks. Even more so, you’ll learn it from librarians and archivists and historians. You’ll spot it right at the heart of the CCHC’s findings and in the meaningful data packages the Library is releasing:

Que los datos de la Biblioteca no deben – no pueden – ser separados de su contexto.

That the Library’s data shouldn’t be - that it can’t be - separated from its context.

Que el significado proviene del lugar

That meaning comes from place

y del tiempo

and time

y de las personas.

and people.

Que la escala no es nada sin la historia.

That scale is nothing without story.

He aquí una historia.

Here is a story.

El proyecto Computando la Historia Cultural en la Nube finalizó en 2024.

The Computing Cultural Heritage for the Cloud project wrapped up in 2024.

Uno de los resultados centrales del proyecto fue el diseño de paquetes de datos significativos, que traen contexto e información técnica diseñada para ayudar a la gente a comprender los potenciales usos computacionales de los materiales de la Biblioteca. Los paquetes combinan metadatos normalizados, enriquecimientos de metadatos, archivos multimedia, documentación normalizada, contexto narrativo y otras características de usabilidad, como muestras de código y cuadernos.

One of the central outcomes of the project was the design of meaningful data packages, which bring together context and technical information designed to help people understand the potential computational uses of the Library’s materials. The packages combine normalized metadata, metadata enrichments, media files, standardized documentation, narrative context, and other usability features such as code samples and notebooks.

Para aprender más sobre estos paquetes de datos y saber cuándo se publican otros nuevos, visita data.labs.loc.gov, un espacio nuevo y mejorado para descubrir y utilizar datos exploratorios de la Biblioteca.

To learn more about these data packages and to find out when new ones are released, visit data.labs.loc.gov, a new and improved space for discovering and using exploratory Library data.

En 2023, la Biblioteca publicó un nuevo plan estratégico, que por primera vez incorporaba la estrategia digital de forma global. Un objetivo fundamental de la nueva estrategia es comprender y satisfacer mejor las necesidades de los usuarios de la Biblioteca; servir mejor no solo a su base de usuarios actual, sino también llegar a nuevas comunidades.

In 2023, the Library released a new strategic plan, for the first time incorporating digital strategy throughout. A fundamental goal of the new strategy is to better understand and meet the needs of the Library’s users; to better serve not only its existing user base, but also to reach new communities.

¿Qué nuevas formas se te ocurren de utilizar los materiales de la Biblioteca? Estaremos encantados de que nos lo cuentes.

What new ways are you dreaming up to use the Library's materials? We'd love to hear from you.

Jack Delano murió en 1997 en Puerto Rico. Tenía 83 años.

Su féretro yació en capilla ardiente en el capitolio de San Juan.

Jack Delano died in 1997 in Puerto Rico. He was 83.

His casket lay in state in the capitol building in San Juan.