Katalogisierung

Katalogisierung bezeichnet die strukturierte Erfassung, Beschreibung und Verwaltung von physischen und digitalen Informationsressourcen.

Produkt:
Bibliotheksmanagement

Ziel ist, die effiziente Auffindbarkeit, Identifikation, Verknüpfung und dauerhafte Nutzbarkeit von Informationsressourcen in Katalogen, Discovery-Systemen oder Fachdatenbanken abzusichern. Ob in Bibliotheken, Archiven, Museen oder in anderen Informationsmanagementsystemen – die Katalogisierung ist das Fundament für Nutzerorientierung, Bestandsmanagement, Auswertung und nachhaltige Datenpflege. Ihre Bedeutung nimmt angesichts wachsender Medienvielfalt, neuer Rechtefragen, globaler Metadaten-Ökosysteme und technischer Interoperabilität stetig zu.

Grundbegriffe und Abgrenzungen

Katalogisierung ist Teil des umfassenderen Metadatenmanagements und eng verwandt mit der Erschließung. Katalogisierung fokussiert auf die strukturierte Beschreibung und Identifikation einer Ressource; die Erschließung umfasst zusätzlich deren inhaltliche Kontextualisierung (Schlagwörter, Klassifikationen). Im Unterschied dazu ordnet das Metadatenmanagement auch Aspekte wie Pflege, Migration, Qualitätssicherung und Lizenzierung mit ein.

Bibliografische Daten beschreiben Werke, Ausgaben oder Ausprägungen von Ressourcen (Titel, Autor, Erscheinungsjahr etc.). Normdaten stellen kontrollierte Informationen zu Personen, Körperschaften, Schlagwörtern und Geografika bereit. Holdings- oder Exemplardaten erfassen bestandsbezogene Informationen wie Standort oder Zugriffsrechte.

Der klassische „Record-zentrierte“ Ansatz beschreibt jede Quelle als abgeschlossene Datenaufnahme. Moderne, entitäts- und graphbasierte Verfahren (z. B. mit BIBFRAME oder Wikibase) lösen Merkmale und Verknüpfungen der Ressourcen granular und vernetzbar auf.

Ziele und Nutzen der Katalogisierung

Eine systematische Katalogisierung verfolgt mehrere zentrale Ziele:

  • Steigerung der Auffindbarkeit: Mit hochwertig normierten Metadaten werden Informationen gezielt und effizient auffindbar – ob im OPAC, im Discovery-System oder über Webportale.
  • Eindeutige Identifikation: Strukturierte Angaben machen unterschiedliche Ressourcenvarianten unterscheidbar (z. B. Ausgaben, Übersetzungen, physisch/digital).
  • Gezieltes Bestandsmanagement: Präzise Zuordnung von Exemplaren, Standorten, Besitz, Lizenzmodellen und Zugriffsrechten schafft Übersicht und Kontrolle.
  • Austausch und Vernetzung: Standardisierte Katalogisierungsdaten ermöglichen nachhaltigen Austausch in Verbundkatalogen, Spezialdatenbanken oder vernetzten Wissensgraphen.
  • Effizienzsteigerung: Automatisierte Prozesse, Vorlagen und Regelkontrollen verringern Fehler und entlasten das Personal.
  • Fundierte Auswertung und Steuerung: Auswertungen zur Nutzung, Bestandsentwicklung oder Nachweisqualität stützen Managemententscheidungen und die Weiterentwicklung von Services.

Katalogisierung ist unerlässlich für die Qualität, Sichtbarkeit und Innovationskraft moderner Informationsinfrastrukturen.

Standards, Regelwerke und Normdaten

Vergleichbarkeit, Austausch und Zukunftssicherheit werden durch Standards, Regelwerke und Normdaten gewährleistet.

  • Regelwerke und Deskriptionsstandards:
    • RDA (Resource Description and Access) ist international prägend, mit regionalen Anwendungshilfen. Die RDA 3R-Überarbeitung brachte eine modularere Struktur.
    • ISBD (International Standard Bibliographic Description) dient als Anzeige- und Austauschstandard.
    • Für Archive: ISAD(G), ISAAR(CPF), ISDIAH, Records in Contexts (RiC-CM/RiC-O).
    • Für Museen: SPECTRUM (Prozessstandard).
  • Konzeptionelle Datenmodelle:
    • IFLA LRM (Library Reference Model) konsolidiert FRBR, FRAD und FRSAD. Es unterscheidet Entitäten wie Werk (Work), Ausdruck (Expression), Manifestation, Exemplar (Item) und weitere wie Person, Agent, Ort oder Zeiten.
    • CIDOC CRM ist ein domänenübergreifendes, konzeptionelles Referenzdatenmodell für Kulturerbesammlungen (kein Regelwerk).
    • Europeana Data Model (EDM) als Aggregationsmodell.
  • Austausch-, Speicher- und Präsentationsformate:
    • MARC21, UNIMARC, PICA+ (v. a. im deutschsprachigen Raum).
    • Dublin Core und DataCite für Forschungsdaten.
    • MODS, METS, PREMIS für strukturierte Metadaten und Archivierung.
    • EAD und EAC-CPF im Archivwesen; LIDO und CIDOC CRM im Museumsbereich.
    • BIBFRAME transformiert bibliografische Daten für Linked Data; der Einsatz reicht von Pilot bis Produktionsbetrieb, institutionell unterschiedlich ausgeprägt, häufig parallel zu MARC.
    • KBART für E-Ressourcen-Pakete, ONIX für Verlagsdaten.
    • Schema.org (JSON-LD), RDFa oder Microdata für strukturierte Webdaten.
  • Domänenspezifische Metadatenstandards:
    • DCAT/DCAT-AP für Datenportale, DDI und CMDI (Sozial-/Sprachwissenschaften), ISO 19115/19139 (Geodaten), EML (Ökologie), MEI (Musik), Text Encoding Initiative (TEI).
  • Normdaten und Identifikatoren:
    • Gemeinsame Normdatei (GND) in Deutschland; international VIAF, LCNAF; Wikidata als offene, kollaborative Wissensbasis.
    • FAST ist ein kontrolliertes Schlagwortvokabular (basierend auf Library of Congress Subject Headings (LCSH)), keine Namensnormdatei.
    • ISIL (Institutionen), Research Organisation Registry (ROR), Crossref Funder ID für Organisationen.
    • ORCID identifiziert ausschließlich natürliche Personen (Forschende, Beitragende); ISNI für Personen und Organisationen.
    • Für Werke/Objekte: ISBN (Bücher), ISSN/ISSN-L (Zeitschriften), ISMN (Noten), Digital Object Identifier (DOI), URN (je nach Resolver-Struktur unterschiedlich auflösbar), ARK, Handle, IGSN (Proben), RAiD/Grant-IDs (Projekte/Förderungen).
    • Zu den persistenten, auflösbaren Identifikatoren (PIDs) zählen DOI, ARK, Handle, ORCID, ROR sowie (im Kontext) ISNI.
    • „Cool URIs“: Klare, stabile URIs als Best Practices.
  • Klassifikationen, Schlagwörter und Kontrollvokabulare:
  • Serielle Ressourcen und Holdings:
    • MARC-21-Holdingsfelder: 852, 853/863 (Enumeration/Chronologie), 866–868 (Freitextbestände), 876–878 (exemplar-/bestandsbezogene Angaben).
    • Zentrale Referenzdatenbanken: ZDB (Zeitschriftendatenbank) für Serien und Holdings; KBART-Workflows für E-Journals und Pakete.

Standardkonforme Katalogisierung ermöglicht nachhaltige Datenintegration, systemübergreifende Vernetzung und globale Sichtbarkeit.

Ablauf der Katalogisierung in der Praxis

Der Katalogisierungsprozess ist strukturiert, mehrstufig und zunehmend workflowbasiert:

  1. Ressourcenaufnahme: Erfassung oder Prüfung von Titeldaten, Verantwortlichkeiten, Erscheinungsdaten, Identifikatoren sowie Abgleich vorhandener Datensätze.
  2. Formalerschließung: Strukturelle Beschreibung nach RDA und ISBD – etwa Titel, Umfang, Auflagen, Serien, Sprache sowie Content-/Medientyp-/Trägertyp-Elemente, die in MARC21 über die Felder 336/337/338 codiert werden.
  3. Inhaltserschließung: Zuordnung von Schlagwörtern, Klassifikationen, Relationen zu Werken, Adaptionen, Zusammenhängen (nach LRM/RDA).
  4. Verknüpfung mit Normdaten: Angabe autoritativer Datensätze aus GND, VIAF, LCNAF, Wikidata, inklusive Kontrollidentifikatoren (z. B. ORCID für Personen, ROR für Organisationen, ISNI je nach Entität).
  5. Exemplardaten, Lokaldaten, Holdings: Angaben zu lokalen Signaturen, Standorten, Barcodes/RFID, Exemplarstatus, Lizenzen, Erwerbungen, Besitz, temporären/ständigen Zugriffsrechten; Holdingsdaten für Serien (MARC 853/863, ZDB-Integration).
  6. Datenanreicherung: Digitalisate, Inhaltsverzeichnisse, Cover, Abstracts, IIIF-Manifeste, Struktur- und Relationsdaten, Nachweis von Versionen.
  7. Qualitätskontrolle: Validierung bezüglich Syntax, Wertebereiche, Normdatenbindung, Zeichensatz (z. B. MARC-8, UTF-8), Dublettenprüfungen, ggf. Anwendung von Schematron, SHACL, JSON-Schema.
  8. Veröffentlichung und Indexierung: Export/Freigabe zu Discovery-Systemen, Verbundkatalogen, internationalen Infrastrukturen in unterschiedlichen Serialisierungen (MARC, BIBFRAME, MODS, JSON-LD); API- und Linked-Data-Anbindung.

Spezifische Workflows wie Migration, Retrokonversion, Qualitätsprüfungen oder Rollensteuerung sind bedarfsorientiert integrierbar.

Werkzeugunterstützung im Informationsmanagementsystem

Effiziente Katalogisierung erfordert umfangreiche Werkzeugunterstützung auf allen Ebenen:

  • Vorlagen, Feldhilfen und Validatoren für Pflicht- und optionale Felder, inkl. Regeln/Empfehlungen nach aktuellem Regelwerk.
  • Automatische Normdatenabgleiche, Validierung von Identifikatoren (DOI, ISBN, ORCID, ISNI etc.), Definition und Überwachung systemweiter Datenprüfregeln.
  • Import- und Exportschnittstellen nach Standards wie Z39.50, SRU, OAI-PMH, MARC-Profilen, Dublin Core, DataCite, KBART, EAD; kontrollierte Mappings (Crosswalks) zwischen Formaten (MODS, Dublin Core, BIBFRAME).
  • Automatisierte Arbeitshilfen: Feldvorschläge, Ressourcentyp-spezifische Workflows, Dublettenchecks, Massendaten-Import und -Bereinigung.
  • Datenanreicherung: Schnittstellen zu Knowledge Bases, Inhalts- und Coverservices, DOI-Resolvern, Rechteverwaltung, IIIF-Diensten. Persistente Zugänglichkeit ist nur mit organisatorischer Sicherung garantiert.
  • Linked-Data-Integration: Offen konfigurierbare Exporte (RDF/XML, JSON-LD, Turtle), URI-Verwaltung, Veröffentlichung nach LOD-Prinzipien.
  • Rollenbasierte Abläufe, Vier-Augen-Prinzip, Trackingsysteme zur Änderungsprotokollierung und Nachvollziehbarkeit.
  • Tools für Fortgeschrittene: Schnittstellen zu MarcEdit, OpenRefine, Metafacture, Crosswalk-Engines, automatisierte Validierung per Schematron, SHACL, CI-Pipelines.
  • Monitoring: Automatisierte Normdatenabgleiche, Linkchecker, Resolver- und URL-Überwachung, Alerting für Qualitätsabweichungen.

Regelmäßige Validierungen mit modernen Datenprüfmethoden, Community-gepflegte Normdaten und ein anpassbares Im- und Exportprofil erhöhen die Datenqualität.

Spezifische Anforderungen je Medientyp

Katalogisierung variiert je nach Ressourcentyp und Bedarf:

  • Printmedien: Detaillierte Standorte, Signaturen, Exemplarmerkmale (Bindung, Zustand, Provenienz).
  • E-Books/E-Journals: Lizenzarten, Nutzungsbedingungen, Plattform-/Anbieter-IDs, Embargos, KBART-Integration, getrennte Verwaltung von Titeldaten, Holdings und Lizenzinformationen.
  • AV-Medien/Multimedia: Angaben zu Laufzeit, Dateityp, Codec, Systemkompatibilität, Begleitmaterial, Untertitel, multilingual, Rechteverwaltung.
  • Forschungsdaten/Graue Literatur: PIDs (DataCite-DOI, ARK, Handle, URN abhängig von Resolver), Förderinfos, Projektrelationen (RAiD, Grant IDs), Rechtevermerke, dynamische Zugangslevels, strukturierte Vergleichsreferenzen.
  • Digitale/Digitalisierte Sammlungen: Provenienz, urheberrechtliche Hinweise (rightsstatements.org, Creative Commons), IIIF-Manifeste, METS/PREMIS/Text Encoding Initiative (TEI)-Anbindung.
  • Serials (fortlaufende Ressourcen): Titel- und Bestandspflege, Enumeration/Chronologie, Holdings (MARC 852/853/863 etc.), ZDB- und KBART-Schnittstellen.
  • Strukturierte Daten im Web: Verwendung von JSON-LD, RDFa, Microdata für Websichtbarkeit; valide, persistente URIs und Relationsdaten.

Die Abbildung erfolgt flexibel durch anpassbare Datenmodelle und Konfigurationsmöglichkeiten.

Best Practices für die Katalogisierung

Beständige Qualität und Nachnutzung der Katalogdaten werden erzielt durch:

  • Systematische Wiederverwendung geprüfter Verbund- und Communitydaten (statt Dublettenbildung).
  • Sorgfältige Pflege und Validierung von Identifikatoren und PIDs (z. B. ISBN, Digital Object Identifier (DOI), ORCID, ROR).
  • Nutzung autoritativer Normdaten: alle Namens-, Körperschafts-, Orts- und Schlagwortangaben mit den jeweils maßgeblichen Datensätzen verknüpfen; Freitexte vermeiden.
  • Standardisierung durch Vokabulare und Klassifikationen; Durchführung domänenbezogener Policies.
  • Dokumentation und permanente Qualifizierung: Richtlinien, regelmäßige Fortbildungen zu Regelwerks- und Technikänderungen.
  • Konsistente Qualitätssicherung: wiederkehrende Fehlerbereinigungen, Zusammenspiel von Normdatenupdate, Versionierung, Änderungsprotokollierung, Peer-Reviews.
  • Community-Beteiligung: Förderung offener Anreicherungen (z. B. Tags, Annotationen), Kennzeichnung und Provenienzdokumentation.

Ethische, inkusive und barrierefreie Katalogisierung (z. B. Reparative Beschreibung, Diversity-gerechte Terminologie, Accessibility-Metadaten wie ONIX a11y/Schema.org accessMode, BCP 47 zur Sprachkennzeichnung) werden immer wichtiger.

Fehlerquellen und Herausforderungen

Typische Fehler und Missverständnisse sind:

  • Zu viele, redundante, irreführende Felder führen zur Fehleranfälligkeit.
  • Unkontrollierte Freitexte, fehlende Normdatenbindung, inkonsistente Namensformen schränken Suchfunktion und Statistik aus.
  • Fehlende oder mangelhafte Identifikatoren verursachen Dubletten, fehlerhafte Verknüpfungen.
  • Zu oberflächliche inhaltliche Erschließung reduziert die Sichtbarkeit und Relevanz.
  • Zeichensatzfehler und mangelnde oder fehlerhafte Transliteration behindern Auffindbarkeit, vor allem bei nicht-lateinischen Schriften.
  • Fehlende Trennung und Dokumentation von Titeldaten, Holdings, Lizenz- und Rechteinformationen kann rechtliche Unsicherheit auslösen.
  • Fehlerhafte Rechteangaben, speziell bei offenen Daten, digitalen Medien oder externen Anreicherungen, bergen Rechtsrisiken (DSGVO, Urheberrecht).
  • Sensibler Sprachgebrauch, Bias oder veraltete Schlagwörter müssen regelmäßig auf Relevanz und Inklusion geprüft werden.

Automatisierte Prüfungen, dokumentierte Workflows und kontinuierliche Weiterbildung stärken die Qualität nachhaltig.

Qualitätssicherung und Kennzahlen

Qualitätssicherung erfolgt auf Basis definierter Kennzahlen und Analysemethoden:

  • Durchlaufzeiten pro Datensatz
  • Fehlerraten je Feldgruppe (z. B. Identifikatoren, Rechte)
  • Dublettenquoten, Authority-Coverage, Vollständigkeit der Kernfelder
  • Anteil persistenter Identifikatoren/verlinkter URIs
  • Monitoring-Tools für Validierungsquoten (z. B. Schematron für MARC/XML), Link-Resilienz, Fehlerursachen
  • Peer-Reviews, Vier-Augen-Prinzip, automatisierte wie stichprobenhafte Prüfungen

Instrumente wie Dashboards, automatisierte Reports oder Alerts sichern einen nachhaltigen Optimierungsprozess. Für Linked Data werden SHACL/ShEx eingesetzt, für JSON-basierte Daten JSON Schema.

Kooperative Katalogisierung und Community-Arbeit

Synergien entstehen durch Zusammenarbeit und geteilte Ressourcen:

  • In Verbundkatalogen werden Datensätze gemeinsam gepflegt, ergänzt und anspruchsvoll harmonisiert. Synergieeffekte und Konsistenz sind die Basis für hochwertige Datenlandschaften.
  • Gemeinsame Normdatenpflege (GND, VIAF, LCNAF), Mapping-Initiativen (u. a. Wikidata), offene Know-how-Kanäle fördern Innovation.
  • Standardisierte Schnittstellen und abgestimmte Governance-Strukturen ermöglichen zuverlässige Synchronisierung, Nachnutzung und Migration.
  • Fortgeschrittene Workflows (z. B. MARC↔BIBFRAME, Retrokonversion, Zeichensatzmigration, Profiling) sichern eine nachhaltige Transformations- und Erweiterungsfähigkeit.
  • Provenienz, Versionierung und Zitierfähigkeit: Felder wie MARC 005/008, PROV-O, SCMR/CHANGES ermöglichen Nachvollziehbarkeit, Verweisbarkeit und Integrität der Metadaten.

Durch die Verbindung von Automatisierung, qualitätsgesicherter Datenpflege und Community-Engagement lassen sich offene Metadaten, inklusive Katalogisierung und innovative Erschließung effizient umsetzen.

Häufige Fragen zu Katalogisierung

Was ist der Unterschied zwischen Formalerschließung und Inhaltserschließung?

Formalerschließung beschreibt äußere und formale Merkmale einer Ressource (z. B. Titel, Erscheinungsort, Umfang, Medientyp nach RDA). Inhaltserschließung ordnet eine Ressource durch kontrollierte Schlagwörter, Klassifikationen und Relationen thematischen Feldern zu.

Welche Standards sollte ich heute verwenden?

Im Bibliothekskontext sind RDA, ISBD, MARC21, PICA+, Gemeinsame Normdatei (GND) sowie internationale Authority Files (VIAF, LCNAF) zentral. Für Forschungsdaten empfiehlt sich DataCite. DCAT/DCAT-AP eignen sich für Datenportale. Für Websichtbarkeit nutzen Sie Schema.org/JSON-LD, RDFa oder Microdata. BIBFRAME und Linked-Data-Praktiken gewinnen an Relevanz, laufen aber oft parallel zu MARC.

Wie viel Detail ist sinnvoll?

Legen Sie Detaillierungsgrad und Pflichtfelder passend zu Zielgruppe und Institution fest. Eine höhere Detailtiefe sollte die Recherche, Interoperabilität und Servicequalität verbessern, ohne Akzeptanz und Pflegefähigkeit zu beeinträchtigen.

Wie vermeide ich Dubletten?

Pflegen und validieren Sie Identifikatoren (z. B. ISBN, Digital Object Identifier (DOI), DataCite DOI, ORCID, ROR) konsequent. Nutzen Sie Dublettenalgorithmen, abgestimmte Match-Schlüssel und regelmäßige Bereinigungsworkflows sowie Normdatenabgleiche.

Können KI-Tools die Katalogisierung unterstützen?

KI-basierte Tools bieten Schlagwortvorschläge, Klassifikationshilfen, Dublettenidentifikation und Entity Extraction. Ergebnisse müssen durch geschultes Personal hinsichtlich Regelkonformität, Fairness und Qualität überprüft werden.

Was unterscheidet Titeldaten von Lokaldaten/Holdings?

Titeldaten beschreiben das Werk (z. B. Titel, Autor, Ausgabe). Lokaldaten oder Holdings verzeichnen Bestands-, Standort-, Lizenz- oder Zugriffsrechte, Signaturinformationen und institutionelle Besonderheiten zu einzelnen Exemplaren oder digitalen Einheiten.

Wie integriere ich externe Datenquellen?

Importieren Sie Qualitätsdaten über SRU, OAI-PMH, Z39.50, KBART, EAD oder MARC-Profilimporte. Definieren Sie Importprofile, Feldmappings und Qualitätskontrollregeln, um Konsistenz zu gewährleisten.

Wie gehe ich mit nicht-lateinischen Schriften und Mehrsprachigkeit um?

Nutzen Sie Unicode (UTF-8), erfassen Sie Namensformen parallel (Originalschrift, Transkription nach Standards wie ALA-LC, ISO 9). Pflegen Sie Sprachkennzeichen (z. B. BCP 47), prüfen Sie die sprachenübergreifende Sortier- und Suchfähigkeit Ihres Systems.

Wie sichere ich die Qualität meiner Katalogdaten?

Kombinieren Sie Plausibilitätsprüfungen, Autoritätsabgleich (z. B. Gemeinsame Normdatei (GND), VIAF), Peer-Review-Prozesse, automatisierte Validierungen (Schematron, SHACL), Monitoring-Tools und Änderungsprotokolle zur nachhaltigen Qualitätssicherung.

Was bedeutet der Umstieg auf BIBFRAME?

Der Umstieg auf BIBFRAME transformiert Katalogdaten vom Record- ins Linked-Data-Modell. Vorteile sind größere Webnachnutzung und Vernetzbarkeit. Häufig geschieht die Einführung stufenweise und parallel zu MARC. Erfolgsfaktoren sind gepflegte Identifikatoren, Authority-Verknüpfungen und offene Systemarchitekturen. Community-Initiativen und Werkzeuge wie LD4P/Sinopia begleiten und unterstützen diesen Transformationsprozess.

Inhaltsverzeichnis