Pilot för Swepubs semiautomatiska ämnesklassificering

I ett tidigare Librisblogginlägg har vi berättat om prototypen för semiautomatisk ämnesklassificering som Swepub-projektet har tagit fram. Under april genomförde vi en pilot för att testa träffsäkerheten och funktionaliteten av den semiautomatiska ämnesklassificeringen med hjälp av Stockholms universitetsbibliotek.

Piloten utgick på att testa ämnesklassificeringsprototypen i ett praktiskt arbetsflöde, både vid granskning av manuellt inmatade publikationsposter och vid import från Web of Science. Urvalet bestod av abstract från sakkunniggranskade tidskriftsartiklar inom de fyra ämnesområdena vid Stockholms universitet: humaniora, juridik, samhällsvetenskap och naturvetenskap. Som stöd hade medverkande på Stockholms universitetsbibliotek underlag i form av instruktioner och testfrågor. Rapportering skedde efter två veckors testning.

Medverkande i piloten ansåg prototypen för semiautomatisk ämnesklassificering vara relativt enkel att använda. Absracten klistras på och med klick av Enter genererar den bakomliggande algoritmen träffar på nivå 2 enligt Standard för svensk indelning av forskningsämnen. Den första kolumnen består av de tresiffriga koderna på nivå 2. Den andra består av poängen som algoritmen genererar utifrån abstracten i förhållande till de klassifikationerna som liknande abstracten har klassificerats med i Swepub. Den tredje kolumnen innehåller benämningen av ämnesklassifikationen. Det som ansågs vara besvärligt var att sökrutan inte utökades utifrån längden av abstracten och att det inte fanns reset-funktion för att tömma sökrutan. Det upptäcktes även en bugg med abstract genererande error-meddelande till synes utan tydligt mönster.

Exempel på den semiautomatiska ämnesklassificeringen utifrån följande post i Swepub: http://swepub.kb.se/bib/swepub:oai:publications.lib.chalmers.se:250838?vw=full

Medverkande konstaterade att abstract i naturvetenskapliga ämnen generellt gav mer precisa och stramare utfall på ämnesklassificering än humanistiska och samhällsvetenskapliga. Av humaniora och samhällsvetenskap fick särskilt abstract i historia och tvärvetenskapliga ämnen mer oprecisa och utspridda utfall på klassificering medan abstract i utbildningsvetenskap, juridik och ekonomi generellt genererade högre träffsäkerhet.

Utifrån kommentarer och förslag från medverkande i piloten kommer projektgruppen arbeta vidare med prototypen i följande aspekter:

  • Algoritmen behöver justeras så att den genererar snävare träffar
  • Utöver abstract kan träffsäkerheten utökas genom att implementera även nyckelord, publiceringskanal, titel och affiliering som dataunderlag för algoritmen
  • Endast 3-4 högst rankade förslag bör visas med tydlig rankningsordning
  • Referensram för hur precis och tillförlitligt klassificeringsförslaget är i förhållande till de andra förslagen för att underlätta val av ämnesklassifikationen
  • Möjlighet att välja djupare klassificering än på nivå 2 om en sådan är ytterligare mer precis
  • Instruktion för hur algoritmen fungerar

Stort tack till Stockholms universitetsbibliotek för medverkande!

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *