Nacházíte se v sekci: SDRUK » Odborné sekce » Sekce pro informační technologie
Zápis z jednání sekce IT SDRUK
Havlíčkův Brod, 1. - 2. 11. 2005
Přivítání Tomáš Gec (Krajská knihovna Vysočiny Havlíčkův Brod)
Úvodní slovo Tomáš Řehák (Městská knihovna v Praze)
Seznámení s programem
Sekce byla deklarovaná jako otevřená
Na příštích jednáních je nutné počítat s vložným
Byla představena rámcová koncepce trvalého uchování knihovních sbírek tradičních a elektronických dokumentů v knihovnách ČR
Bohdana Stoklasová: Koncepce trvalého uchovávání knihovních sbírek
Proběhla prezentace:
Odpovědnost za uchování knihovních sbírek
Koncepce rozvoje knihoven ČR na léta 2004-2005
Charakter koncepce
Obsah
Tabulky
Harmonogram
Východiska pro oblast digitálních dokumentů
Česká digitální knihovna (rozbor základního modelu)
Jaké jsou další rámce realizovatelnosti
Jednotná struktura pro každou oblast
Co se týká legislativní otázky
Dělení dokumentů na veřejně přístupné a neveřejné
Problematika autorských práv
Možná varianta kolektivní správy autorských práv pro zjednodušení zpřístupnění dokumentů
Je možné budovat vlastní uložiště kromě centrálního uložiště
Záleží na jednotlivých subjektech
Jaký je stav s centrálním uložištěm (realizace)
Předběžný termín realizace pilotního projektu je plánován na červenec 2006
Bude umět prezentační vrstva pracovat se vzdáleným uložištěm
Předpokládá se, že ano; je to otázka finančních zdrojů
Jak bude řešena bezpečnost dat
Osvětlí plánovaná analýza
Budou dvě lokality od sebe vzdálené, kde budou data replikované
Kvalita dodavatele
Jaká je nyní cesta ke kompatibilitě v rámci formátů
V Krameriu proběhla analýza na MARC, konvertor z DTD Krameria se nejeví jako problém
Nyní je to otázka času
Jaká role bude v koncepci pro vydavatele a jednotlivé účastníky
Vydavatelé budou zmíněni spíše v legislativě
Jednotliví účastníci mohou spadat do regionální úrovně, ovšem je nutné pracovat se stejnými standardy s ohledem na možnost spolupráce, propojování atd.
Budou jednotliví účastníci komunikovat přímo s Národní knihovnou, nebo bude možné zbudovat jednotlivé regionální (oborové, institucionální) repozitáře
Bude to možné a z praktických a finančních důvodů patrně žádoucí
Zbudování souborného katalogu, nutné zamezit duplicitním investicím do vlastní digitalizace stejných zdrojů
Spíše vhodné použít existující prostředky než budovat nový aparát
Jedná se velké množství objektů
Povinnost kontrolovat duplicitu v Souborném katalogu ČR
Donucovacím prostředkem by se mohly stát finanční zdroje ve smyslu příspěvku
Kdo tuto povinnost stanoví a kdo ji vykoná
Koordinace i s institucemi neknihovního typu
Vhodné prezentovat činnost jednotlivých objektů na webu.
Jaké jsou nyní možnosti ve formátech
Metadat. schémat je celá řada, ale není zatím možné říci, které je to nejlepší
Je nějaká představa peněz na digitalizaci
Odhadem 30.000.000 Kč ročně na všechny linie (klasické dokumenty, digitalizované historické i novodobé dokumenty a publikované digitální zdroje + částka na vybudování a provoz centrálního úložiště). Částka je kvalifikovaným odhadem a bude upřesněna do konce roku 2005
Je nutné hledat finance i mimo resort MK
Je možné získat peníze na digitalizaci z Evropské unie
Nikoliv, z fondů Evropské unie není možné získat, což je stanovisko Evropské komise
Po představení koncepce byl program rozdělen do 5 okruhů
Problematika standardů metadat
Martin Vojnar: Stručný úvod do METS
Proběhla prezentace:
Mnoho digitalizovaných a digitálních objektů doplněných různě provázanou množinou metadat
Vícenásobná struktura
METS - základní informace
METS = schéma založené na XML
Správce je Kongresová knihovna http://www.loc.gov/standards/mets/
Proč METS
Poskytování služeb
Zpracovávají složitější části reality
Dlouhodobá ochrana
METS - popis základních částí (kontejnerů)
Praktické dopady
Poměrně náročná datová struktura
Vyžaduje koordinaci při implementaci
Přehled implementací http://sunsite.berkeley.edu/mets/registry
Současný stav
Z amerického standardu se stává celosvětový standard
Dotazy:
Lze namapovat DTD používané v Krameriovi do struktury METS.
Ano, za předpokladu oddělení příslušných částí DTD Krameria a jejich převedení do odpovídajících častí struktury METS(popisná/technická/strukturální) s tím, že by to mělo být publikováno jako METS profil
Debata:
V NKP se používá již druhá generace standardů (problematika již implementovaných standardů v aplikacích)
Jsou dva vhodné standardy a to nástroje kolem Krameria nebo METS
Vhodná volba je otázka finanční, výhledově finanční, politická,…
Kramerius je méně technicky problematické řešení nežli celosvětové systémy
Neni vhodné zvolit kompatibilní DTD výměnný formát, ale vlastní formát jednotlivých institucí by měl být na uvážení jednotlivých institucí
Jaké jsou možnosti popisných metadat pro METS: DC, MARCXML, TEI, EAD aj.
Zřejmě základní otázkou z pohledu uživatelského je materiální stránka věci
V žádném případě není vhodné pracovat s digitalizovaným dokumentem v adresářové struktuře
Jaká je zásadní výhoda METSu
Jedná se o strukturu pro výměnný formát nezávislou na aplikační vrstvě
Propojuje vše kolem digitálního objektu do jednoho balíku
Popis standardizované digitalizace je možné získat na stránkách http://digit.lib.cas.cz
Problematika digitalizace jednoho svazku cca 300 stran.
Digitalizační centrum nabízí momentálně neskenování přibližně za 600 Kč a vlastní výroba metadat přibližně 1200 Kč
Možnosti automatizace popisu s pomocí OCR
Národní knihovna se zapojuje do Evropské digitální knihovny (je nutné se přizpůsobit)
SW na provoz digitální knihovny
Software pro provoz digitální knihovny
Tvorba metadat
Sírius (Elsys)
Vhodný pro rutinní zpracování digitalizovaných dokumentů
Všechny operace se provádí v jednotném prostředí, nesnižuje se kvalita neustálým ukládání dokumentu při přenosu na další nástroje
Je to modulární systém, který je možné optimalizovat pro vlastní subjekt
Komerční systém
Prezentace
Kramerius (Národní knihovna a Akademie věd ČR)
Open source systém pro zpřístupnění digitalizovaných dokumentů
Vznikl primárně na periodika, úprava pro knihy je reakce na povodně s nutností zachovat digitální exempláře poškozených knih
Je to otevřený systém
Externí modul Corel X-Metal (komerční záležitost)
Vhodné pro uchovávání, zpřístupňování nebo výměnu digitálních dokumentů
Podporuje protokol OAI-PMH v2.0
Do budoucna možné použít distribuovaný diskový prostor
DigiTool (Ex Libris)
Systém na mezinárodních standardech
Schopnost pracovat s širokou škálou dokumentů
Systém pro datový repozitář, import, popis, archivaci a zpřístupnění včetně ochrany autorských práv.
Cena se pohybuje v řádech milionů
Další možnosti
Open source řešení náročné na pracovníky (instalace) např. Fedora, DSpace, GreenStone
Kramerius zřejmě z koncepčního hlediska zcela nevyhovuje potřebám České digitální knihovny
Nelze mu toto vytýkat jako nedostatek, systém byl koncipován a navržen především jako nástroj pro zpřístupnění digitálních objektů, funkce editování byly přidány dodatečně nad rámec původního zadání a jako komplexní řešení pro repozitář nebyl tento systém koncipován
Nelze srovnávat systémy Kramerius, Fedora a DigiTool, každé řešení je principiálně jiné
Fedora je otevřený systém, který vyžaduje silný tým programátorů pro dopracování. Pokud NK takovým týmem nedisponuje, měla by uvažovat o hotovém komerčním řešení.
Možnost sestavit testovací team na testování České digitální knihovny
Budou nějaká katalogizační doporučení
Jsou dostupná v zárodku na stránkách Digitalizačního centra Akademie věd ČR http://digit.lib.cas.cz/index.php?cat=pokyny
DTD v Krameriovi pro periodika i monografie je snadno převoditelné do formátu MARC21 (základ konverze byl demonstrován), při zápisu bibliografických údajů je třeba se řídit platnými katalogizačními pravidly
Metadata pro oblast preservation je třeba analyzovat a postupně doplnit na základě mezinárodních standardů (prozatím nejvhodnějším kandidátem PREMIS, ale nutno monitorovat vývoj a jeho praktické aplikace a zkušenosti s ním
Je vhodnější používat jemnější popis a do hrubšího ho konvertovat
technické parametry digitalizace
Adolf Knoll: Doporučení pro pořizování datových souborů při digitalizaci analogových originálů
Doporučení viz. dokument "Doporučení pro pořizování datových souborů při digitalizaci analogových originálů"
Debata:
Jaké jsou formáty pro záchranu
Z tohoto jsou obrázky vyloučeny
Při záchraně se dokumenty nejprve mikrofilmují a následně skenují a čím je větší dokument tím je menší rozlišení DPI
Kvalita mikrofilmu je zatím dostatečná
Mikrofilm je vhodný pro dlouhodobé skladování a není závislý na technologiích
Je potřeba vytvářet mikrofilmy
V tomto okamžiku ve vztahu k zastarávání el. nosičů to nutné je
Je problematické ochránit mikrofilm před fyzickým poškozením oproti digitálním záznamům
Je možné z digitálních dokumentů udělat kopie bez ztráty kvality, kdežto z mikrofilmu toto možné není. Při další kopii tato kopie ztrácí na kvalitě
Jaké je vhodné rozlišení pro OCR
Nyní je vhodné čím je text drobnější, je lepší vyšší počet DPI . Vhodné je používat 600 DPI lze použít i 300 DPI.
Rozlišení není jediný parametr pro OCR
Jazykové mutace
Zobrazení obrázků v Djvu
Plusem je rychlost zobrazování
Mínusem je nutnost doinstalování podpory
Řešením by bylo nabídnout i jiné formáty např. Jpeg, Png,..
S touto úpravou se v Krameriu počítá
Dalším řešením je generovat uživatelům například PDF
Možnost vložit do Krameria PDF dokumenty
Principiálně to možné je, ale momentálně je to v řešení
Je možné z autorského zákona uložit fyzicky soubory na centrální uložiště, ale zobrazovat je z lokálního Krameria v případě, že mohu tyto data zobrazovat pouze z lokálního uložiště.
Právně
Ten kdo platil digitalizaci, má 10 let práva na digitální dokument
Záleží na novém autorském zákonu
2.11.2005
Způsoby dlouhodobé archivace digitálních objektů
Úvod:
Současný stav:
Jak plánujete uchovávat digitální objekty
Národní knihovna
Pásková robotická knihovna.
V robotu dvě identické pásky a jedna páska v trezoru. Nyní tato technologie není již podporována.
Vhodný přechod na centrální uložiště dat rozdělené do dvou míst.
Digitalizační centrum Akademie věd ČR
Záloha je na pásky
Nyní kapacita 1,5 TB
V budoucnu přechod na diskové pole
Kontrola pásek se neprovádí
Dokud nejsou data zazálohovaná, jsou na dvou discích
Karlova univerzita
Zálohuje na pásky
Některé dokumenty na CD-ROMech
Plán:
Distribuovaný diskový prostor (out sourcing)
Debata:
Zkoušel někdo na archivaci přepisovatelné CD nebo DVD nosiče
Není vůle od výrobců
Je možné vypálit data na 2 DVD nosiče od různých výrobců a jednou za 3 roky přepálit
Archivovatelné CD nebo DVD nosiče se rozšíří při tlaku běžných fotoamatérů
Jak uchovávat i nestandardizované formáty
Proto je nutné mít v metadatech informace nejen o formátu, ale i nástrojích pro práci s formátem
Nelze mít vše popsané, pro všechny soubory, které se archivují, je nutné vybírat to důležité
Existuje doporučení jak psát web, aby byl dobře archivovatelný
Zatím zřejmě nikoliv, ale je možná jistá podobnost s předpisem pro psaní webu pro nevidomé (BFW) uživatele
Další možností archivace je možné použít "OAI-PMH BFV" protokol
Je ve světě možné dostat výtisky v elektronické podobě a ušetřit náklady na digitalizaci
Ve světě to není jednoznačné, někde toto je možné je, jinde nikoliv
Problematika standardizace elektronického povinného výtisku
Uvažoval někdo o sdružování serverů více organizací pro zvýšení výkonu
Je zde problematika technického řešení
Volný výpočetní výkon je možné použít například na převody grafických formátů
Bylo by možné použít Premis k archivaci
Na závěr proběhla prezentace k jednoznačným identifikátorům
Martin Vojnar: Jednoznačné identifikátory
Potřeba identifikace
Na úrovni popisných metadat nelze použít identifikátory pro tištěné podoby dokumentu, je nutné použít registrovaný identifikátor (URN, PURL, doi, handle)
Pro sbírky národního významu - identifikátor na mezinárodní úrovni
Pro sbírky lokálního významu - identifikátor na národní úrovni
Lze přidělovat SIGLU ovšem pouze pro knihovny
Při kontrole nepoužívat kontrolu číslic, ale spíše kontrolních součtů
Využití identifikace
Digitální knihovna musí zajistit mechanismus linkování (tj. na základě poskytnutých metadat být schopna přímého linkování k objektu)
Identifikátory musí být nejlépe na vždy, nesmí se při jakékoliv migraci změnit
Lze doporučit kompatibilitu s OpenURL
Příkladem může být úzká spolupráce německy mluvících zemí (D-A-CH)
Každá národní knihovna přiděluje jedinečná čísla ve svém jemném prostoru v rámci NBN
Pro www prohlížeče jsou k dispozici plug-iny
Bylo by možné převzít systém z WebArchivů
Diskuse
Možná cesta podle www.ikaros.cz , kde je na začátek článku přidán identifikátor v rámci metadat DC
Jak by se v Krameriu identifikovalo, respektive co
Dvě cesty, identifikovat pouze titul nebo až nejmenší část celku
Bylo by možné Kramerius implementovat do JIB díky protokolu OAI-PMH
Po nákupu technologie je to možné
Je nutné, aby identifikační aktivita byla vedena od shora, nikoliv od zdola.
Výběr fondů vhodných pro digitalizaci
NKP
Nejvážnější problém jsou noviny
Existuje národní program, ve kterém je možné se hlásit o dotace na digitalizaci
MKP
5 let systematicky tipují dokumenty
Ohrožený fond je široký
Akademie věd
Významné tituly časopisů vydaných Akademií věd
Tituly, které jsou užitečné pro vědce (to, co nezastarává)
Později časopisy, které jsou zajímavé i z historického hlediska
Digitalizace vzácných tisků se nyní spouští (řeší se problematika, kam s tím)
UK
Digitalizace periodik a sbírky fotografií
Připravuje se digitalizace 3D objektů
Podrobněji viz. příloha.
Diskuse:
Jakým způsobem vznikne dohoda o tom, kdo co bude digitalizovat
NKP se pokouší o určitou koordinaci, ale zatím to není nijak závazné a rozšířené
Vhodné by bylo zobrazit veřejně, co kdo digitalizuje
V tuto chvíli existuje registr periodik na stránkách Národní knihovny
Řešením by bylo u knih souborný katalog, využití souborného katalogu CASLIN
Jakým způsobem se bude rozlišovat vlastní kvalita digitalizace
Bylo by možné vytvořit stupnici kvality digitalizace
V tuto chvíli to řeší nastavení VISKu v podmínkách
V krajním případě by mělo být možné kritéria snížit
Výsledkem by měla být národní databáze, která by obsahovala i příznak toho, v jaké kvalitě to je digitalizováno
NKP je schopná dodat nástroj, ale zřejmě není schopná to spravovat
Vyskytuje se otázka, jak spravovat již digitalizovaný fond
Vhodné by bylo na web SDRUKu umístit na začátku roku plány knihoven na digitalizaci
V okamžiku, kdy je již dokument digitalizován jinou institucí, je možné získat kopii
Záleží na domluvě s danou institucí
Nabízí se možnost založit konsorcium, do kterého by subjekty vlastní dokumenty vložily a bylo by řečeno, že je to všech členů.
Závěr:
Koncepce české digitální knihovny bude dána v rámci konference SDRUK IT k připomínkování
Doporučení p. Mgr. Knolla Technické parametry digitalizace bude doplněna o optimální parametry OCR a zveřejněna na webu.
Systém Kramerius se bude dále vyvíjet v závislosti na finančních možnostech (v rámci vývoje je možné uvažovat o otestování distribuovaného sdílení dat)
U DTD použitých v systémech Manuscriptorium a Kramerius Národní knihovna garantuje možnost migrace (za předpokladu striktního dodržování těchto DTD, nikoli jejich modifikací) při přechodu na jiný formát