Hur tar man itu med datakvaliteten i Swepub?

Enligt instruktionen för Kungliga biblioteket (KB) ska myndigheten tillhandahålla en fullgod och heltäckande datakälla för utvärdering av svenska vetenskapliga publikationer (SFS 2018:15). I dagsläget utgör dock datakvaliteten ett hinder för Swepub att uppfylla detta. Även om Swepub ska stödja kvalitetssäkring, behöver lärosätena som ansvarar för dataleveranserna till Swepub satsa på förbättrad datakvalitet redan vid inmatningen.

Swepub har sedan 2013 vidareutvecklats för att kunna ta itu med datakvaliteten. Utvecklingen har utgått från att synliggöra bristerna i datakvalitet så att dessa skulle åtgärdas i de lokala publikationsdatabaserna som levererar data över forskningspublikationer till Swepub. Nackdelen med denna metod är dock att det kräver aktivt agerande av dem som arbetar med datakvalitet i de lokala publikationsdatabaserna i form av export av dataunderlag från Swepub för lokal åtgärd. Dessutom beror majoriteten av de systemidentifierade bristfälligheterna på omständigheter som inte går att åtgärda, till exempel att en upphovsperson inte har blivit tilldelad en lokal personID eller att personen har bytt namn. Dessa faktorer tillsammans har gjort det svårt för data att gå vidare i kvalitetssäkringsprocessen.

Nu när Swepub fortsätter vidareutvecklas ändras tillvägagångssättet. I stället för att först samla in alla data i Swepub, processera data i förhållande till helmängden och sedan märka upp bristfälligheter för senare åtgärder, kommer data att valideras redan vid ingången med en tydlig rapportering på bristerna till den som skickar in data. Denna valideringstjänst kommer att validera, korrigera och berika data utifrån bristerna i den inskickade publikationsposten. Valideringsprocessen kommer att dokumenteras så att det är transparent för dataleverantören att se vad som händer med data i Swepub samt möjligt att implementera även lokalt redan vid inmatningen. Målet är att på detta sätt höja datakvaliteten redan vid infarten som gör det i längden mer hanterbart och snabbare att ladda om, processera och kvalitetssäkra data i Swepub.

Swepubs arkitektur-hypotes av Martin Malmsten

En viktig del i denna tjänst kommer att vara validering av identifikatorer, framför allt ISSN. ISSN är nyckelkomponent i auktoritetsregister över publiceringskanaler. Vetenskapsrådet (VR) arbetar med att ta fram en svensk lista över auktoriserade publiceringskanaler i samarbete med KB som en del av det pågående samnordiska arbetet med skapandet av en gemensam nordisk lista över publiceringskanaler. Målet är att genom validerade ISSN kunna koppla till auktoritetsregister över publiceringskanaler som avgör vilka publikationer räknas med som vetenskapliga vid nationella analyser och kartläggningar.

En del av berikningen kommer att bestå av automatisk ämnesklassificering på nivå 2 (3-siffernivå) enligt Standard för svensk indelning av forskningsämnen 2011. Publikationsposter som saknar denna klassificering kommer att få ett antal förslag på klassificering som rankas högst enligt textanalys utifrån abstract och befintliga ämnesklassificeringar i Swepub i första hand. Swepub-projektgruppen har tagit fram en prototyp, och en pilot för att testa träffsäkerhet av den automatiska ämnesklassificeringen drar igång så småningom.

Hur kan lärosätena bidra till datakvalitetshöjningen i Swepub? Den frågan håller SUHF-initierat projekt Datakvalitet i Swepub ur ett lärosätesperspektiv på att undersöka. VR:s beställarunderlag för ett analyserbart Swepub som utgångspunkt kommer projektet att se över arbetsgången i datakvalitetsarbetet och föreslå åtgärder och beslut som behöver tas för förverkligande av dessa åtgärder. Projektgruppen har haft möten med både KB och VR för avstämning. Projektet anordnade även två framgångsrika workshopar för att engagera lärosätena att identifiera nyttan med Swepub ur ett lärosätesperspektiv, en i Göteborg den 19 februari och en i Stockholm den 26 februari. Projektet pågår fram till den sista mars och rapporten lämnas till SUHF-representanterna i Gruppen för Swepub. Resultatet kommer att användas i det fortsätta arbetet med vidareutvecklingen av Swepub. Projektuppdraget kan du läsa på KB:s webbplats för Gruppen för Swepub under Forum för nationell bibliotekssamverkan och utveckling.

Både arbetet med svenska listan, ämnesklassificeringen och datakvalitet-projektet kommer att rapporteras på mötet i Gruppen för Swepub den 17 april. Dagordningen och minnesanteckningarna publiceras på webbplatsen för Gruppen för Swepub så håll utkik.

 

  5 comments for “Hur tar man itu med datakvaliteten i Swepub?

  1. Cristian
    21 mars, 2018 at 11:40

    Autoklassning enligt Standard för svensk […] baserat på träningsdata från SwePub kan testas här: http://klassificera.ub.umu.se . Ett tips är att komplettera features extraherade från text från titel/abstract med t.ex. publiceringskanal och termer från affilieringar om ni inte redan gjort det. Medförde signifikanta förbättringar i våra experiment i alla fall.

    • 21 mars, 2018 at 11:49

      Tack för tipset! Ja, tanken är att vidareutveckla prototypen med extrahering från titel, publiceringskanal och affilieringar.

  2. Per Funke
    4 april, 2018 at 06:01

    affilieringarnas format måste säkras så att man kan se institution, lärosäte och land i en bestämd ordning. Om man skall kunna göra nätverksanalyser med någon noggrannhet är detta nödvändigt. Med hjälp av ett gott underlag man åskådliggöra nätverk inom ett fält, som möjligen inte är kända, för de forskare man betjänar med analyser. Detta är viktigt att ta i beaktande och något som görs i alltför liten omfattning.

  3. 9 april, 2018 at 07:45

    Det vore naturligtvis önskvärt att kunna åstadkomma fullständiga affilieringar med institution, lärosäte och land. Vi hoppas på att kunna skapa förutsättningar för detta i framtiden. I dagsläget ligger fokus dock på att kvalitetssäkra grunddata.

  4. 11 april, 2018 at 07:10

    Ett litet experimen jag gjort på Wikidata där LIBRIS numret blir en nyckel in till primärkällor hos Riksarkivet SVAR

    http://minancestry.blogspot.se/2018/04/kan-wikidata-en-brygga-mellan-libris.html

    Hlsn
    Magnus Sälgö

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *

Denna webbplats använder Akismet för att minska skräppost. Lär dig hur din kommentardata bearbetas.