
Här visas hur CAST används för webbarkivering, både vid insamling, analys och paketering av nedladdade webbplatser.
Bilden ovan visar en övergripande bild av CAST (det blåa fältet). I dag använder vi CAST för att samla in webbplatser som ligger publicerade ute på Internet. Intagsmodulen är dock tänkt att kunna förändras till att även kunna hantera andra typer av digitalt material. Funktionerna analys, paketering och leverans som i dag används till att undersöka och packa ihop filer som legat ute på nätet är modulärt uppbyggda och kan användas till olika typer av material.
Insamling i CAST görs med hjälp av crawlingsverktyget Heritrix. Heritrix är byggt speciellt för bevarande av webb och används i de största webbinsamlingarna världen runt. (Läs mer om Heritrix på sidan om CAST.)
Heritrix är komplicerat att använda och vi har bland annat byggt ett gränssnitt som kan förenkla start av insamling. Detta användes tidigare i projektet Testplattformen, numera konfigurerar vi varje ny insamling direkt i Heritrix eftersom vi vill kunna specialanpassa insamlingarna mer finkorningt.
En av styrkorna med Heritrix är att det kan bevara insamlade webbplatser i filformatet WARC som skapats just för detta syfte av personerna bakom Internet Archive och IIPC. (Läs mer om WARC på sidan om CAST.)
När en startad insamling har blivit färdig, efter några timmar eller dygn beroende på dess storlek, hanteras den via en webbsida.
För varje insamling visas datum då den gjordes, vilken URL som omfattas, en beskriving av insamlingen samt det namn insamlingen fått. Kolumnerna till höger ger tre olika alternativ:
Visa webbplats visar upp den insamlade webben med hjälp av programvaran Wayback Machine, installerad på en server hos oss. Användaren får först se en tabell som visas vid vilka tillfällen en specifik webbplats har samlats in av oss och genom den välja vilken insamling som ska visas upp.
I Wayback körs WARC-filerna på samma sätt som när de låg publicerade ute på internet, dvs att man kan klicka sig fram med hjälp av menyer och länkar och allt ser ut som det gjorde på den skarpa webbplatsen.
Det som inte fungerar är sökfält och dynamiska sidor som visar upp innehåll beroende på val som användaren gör. Externa länkar, alltså såna som pekar på en adress utanför den insamlade domänen, syns men är inte klickbara.
Att det är en nedladdad webbplats syns i adressfältet, den här ligger på våran server på LDB-centrum. Där ser man också vilket datum och vilken tid som insamlingen gjordes. (Mer information om Wayback Machine finns på sidan om CAST.)
På bilden ovan har vi valt det andra alternativet från tabellen, Visa analys på det insamlade materialet.
Ovanför tabellerna finns ett id för paketet som innehåller alla de filer som har laddats ner, samt även datum för insamlingen och vilken domän det gäller. Det totala antalet insamlade filer i analysen på bilden var 22.862 stycken.
De två tabellerna på bild presenterar filerna i MIME-format respektive på versionsnivå. I bägge tabellerna kan man se vilka typer av filer som fanns vid tiden för insamlingen, hur många filer som var av vardera typ och tre olika referenser till varje fil:
Utanför bild finns mer information: en tabell som visar de filer som inte med säkerhet kunde identifieras, en som listar samtliga http-statuskoder (t.ex. 404, file not found) och information om viruskontrollens resultat, dvs om det fanns några filer där virus identifierades. Även i dessa fall får användaren information till var varje fil finns och var de refereras till.
All denna information sammanfattas av oss till en analysrapport och kan även anpassas enligt önskemål. Informationen används för att skapa bättre arkivpaket för men också för att göra den skarpa webbplatsen bättre både för användaren i dag och enklare för framtida bevarande.
CAST har utvecklats för att skapa metadatafiler och automatfylla dessa med data från verktygen som används och slutligen verifiera filerna mot scheman. Syftet med dessa funktioner är framför allt att underlätta för levererande myndighet då metadatastrukturerna har byggts upp i samarbete med svenska Riksarkivet för att vara enkla att leverera. En annan stor fördel är att antalet fel minskar.
En del av den metadata som behövs kan dock inte hämtas in automatiskt utan måste fyllas i manuellt av användaren. Till detta har vi skapat ett formulär där användaren själv skriver in information om organisation, diarienummer m.m. Just detta formulär skapar det data som krävs för Riksarkivets ADDML-filer.
Om behov finns kan vi utveckla nya formulär som specialanpassas enligt andra organisatorers önskemål.
Slutligen skapar CAST ett informationspaket av den insamlade webbplatsens filer tillsammans med loggfiler och rapportfiler från verktygen. I detta skede kan användaren välja vilka metadatafiler som ska tas med i paketet, vissa är dock obligatoriska.
Även här kan LDB-centrum erbjuda kund att specialanpassa paket enligt egna behov.
Det kunden får är ett informationspaket i form av en TAR-fil. Paketet innehåller insamlingen (av en eller flera WARC-filer, beroende på storlek), metadatafiler (ADDML, PREMIS, METS samt Filinfo, samtliga i XML) samt ett antal rapporter och loggfiler från crawlningsverktyget, inklusive kontrollsummor.
Slutligen levererar vi TAR-filen samt analysrapport i digital form på överenskommet sätt, exempelvis med ftp eller på någon typ av lagringsmedia.