Analys i CAST

Vad visar egentligen analysfunktionen i CAST och hur kan vi använda informationen?

Vad kan man se av analysen i CAST?

En analys på insamlad webbplats visar följade information:

Paket-ID (SIP): Unik identifierare för varje insamling
Insamlad adress och datum för insamling

"Visa detalj" öppnar ytterligare information:
- Enligt vilken profil insamlingen är gjord
- Datum och person som gjort insamlingen
- Verktyg och version som crawlat
- Verktyg och version som har analyserat filformaten
- Datum för när nedtagningen har analyserats
- Vilket antivirusprogram som har kontrollerat filerna
- Antal WARC-filer i samlingen

Under detta visas antal insamlade filer, samt om några infekterade filer hittades av antivirusprogrammet.

Nedanför finns tre tabeller:
1. Filer per MIME-format
2. Filerna uppdelade efter version
3. Filer som inte kunde identifieras fullt ut

"PUID", Pronom Unique Identifier är en länk till mer läsning om formatet i formatregistret Pronom på National Archives i Storbritannien.

Kolumner med namn "References" innehåller länkar som öppnar en ny tabell. Den listar samtliga filer av den valda typen samt även vilka webbsidor som innehåller referenser (länkar) till dessa filer. Dessa länkar leder till den skarpa webbplatsen, inte till de insamlade sidorna.

Längst ner finns en tabell som visar HTTP-statuskoder från insamlingen. Kod 1 visar hur många DNS som anropats, kod 200 betyder att anrop har lyckats. 300- och 400-serierna indikerar möjliga problem, t.ex kod 404 "File not found".

Även här kan man följa länkarna i References och se vart filer med vardera statuskod leder respektive finns refererade till på överliggande webbsida.

En bättre webbplats och en bättre insamling!

Informationen som fås ut från CAST analysfunktion kan ge fördelar både för den publicerade webbplatsen som för arkivpaketen. Delar av informationen är kontextinformation som styrker arkivfilernas äkthet genom att visa vad insamlingen gäller, vilken domän som har samlats in, vem som gjort insamlingen, när den gjordes och med vilka verktyg.

Förutom detta ger analysrapporten information om hur stor insamlingen blev och hur många filer av vardera MIME-typ och version som togs in. Denna information är av största vikt för att skapa arkivpaket som är hållbara över lång tid. Ett filformat som inte anses vara lämpligt kan med hjälp av CAST enklare bytas ut eftersom CAST visar dels var varje unik fil finns samt även vilka andra filer som refererar till en specifik fil. Eftersom CAST även visar antal filer av vardera version samt deras storlek blir det enklare att beräkna tidsåtgång om filerna ska konverteras.

CAST analys berättar också om det finns några filer som innehåller virus och om så skulle vara fallet även var filen finns och vilken eller vilka andra sidor som refererar till den, även detta för att enkelt kunna ta bort eller byta ut den infekterade filen. 

Dessutom ger CAST information om samtliga HTTP-statuskoder från insamlingen. Dessa visar både vilka anrop som fungerade problemfritt och vilka filer som inte kunde tas ner och anledningen till detta. Ett exempel är statuskod 404 som visar att en fil som önskats ta ned av någon anledning inte kunde hittas. Denna analys kan användas för att förbättra webbplatsen ute på nätet men också för att göra bättre arkivpaket.

Sidansvarig: Lena Lindbäck

Publicerad: 9 november 2011

Redigerad: 9 november 2011

Luleå tekniska universitet