Saturday, February 28, 2009

Varför pluggar bibliotekarier i 4 år? Ett praktiskt exempel på indexeringens fallgropar.

Jag möter allt som oftast på en väldigt förståelig men alltid lika irriterande fördom om oss bibliotekariestudenter.

”SKA DU LÄSA I 4 ÅR!? VARFÖR SKA MAN LÄSA TILL BIBLIOTEKARIE I 4 ÅR FÖR?! NI BIBLIOTEKARIER STÅR JU BARA OCH LÅNAR UT BÖCKER ÄNDÅ, VARFÖR SKA MAN LÄSA I 4 ÅR ÄR INTE DET ONÖDIGT?!”

Till alla er som någon gång frågat denna fråga eller någon gång funderar på att fråga en bibliotekariestudent den här frågan... till alla er, jag ska försöka förklara dessa obegripliga 4 år genom ett mycket illustrativt exempel.

Många av er har säkert hört talas om radiosidan Last.fm på nätet? En fantastisk sida där du plitar in din önskade musikgenre eller artist och så vips får du massor med musik och av sidan rekommenderad liknande musik. Skitsmart och väldigt roligt eftersom man får så många nya bra tips på artister :-D

Dock har Last.fm ett seriöst fel som ligger i hur dess skapare har indexerat musiken som på automatisk väg skickas till användarens dator och spelas upp i dennes högtalare.

Ett index är alltså den där långa raddan termer du ofta hittar längst bak i en bok, där specifika ord och uttryck finns listade med ett tillhörande sidnummer så att du raskt ska hitta igen just det ordet i boken.
En indexeringsterm är just ett sådant ord - ett ord som utmärker i sig i ett sammanhang på något vis och på det sättet hjälper till att särskilja ett verk från ett annat i en samling, samt kopplar samman verk med varandra för att kunna placeras i hanterbara kategorier.
Klassifikation handlar om att dela in verk i klasser - på biblioteket ser du det som ”Skönlitteratur” med underkategorier som fantasy, sci-fi och deckare (man kan argumentera om dessa kanske snarare ska benämnas genrer, men bara för att illustrera...), ”Faktaböcker” med underkategorier som marint liv, teknik och historia. Indexering handlar om att plocka ut ord eller termer som är så specifika för just det verket så att det lätt kan återfinnas vid en sökning - till exempel räcker det inte att indexera en bok om Medeltiden med enbart termen ”medeltiden” om just den här boken fokuserar på digerdöden i Frankrike. Då behövs även ”digerdöden” och ”Frankrike”. I sofistikerade söksystem kan användaren även ange att vissa termer inte ska finnas med, just för att kunna sålla i stora samlingar. Jag kanske inte vill ha böcker om digerdöden i England och kan således välja att termen ”England” inte ska plockas upp av systemet.

Det var något om indexering det. Nu till det praktiska exemplet;

Jag lyssnade på Last.fm idag och kände mig på humör för lite folkrock (vad jag trodde var folkrock i alla fall) så jag skrev helt sonika in ”Flogging Molly” i sökfältet varpå jag fick musik från Flogging Molly och programmet plockade även in relaterade artister som Dropkick Murphys och The Real McKenzies. Men sent om sider började Last.fm tycka att jag skulle lyssna på Millencollin, The Offspring och Sex Pistols.

WTF?

Jag började då kika närmare på Last.fm-s indexeringstermer som informativt nog presenteras för användaren så att man ska ha lite koll på vad de anser att en artist hamnar i för kategori. Efter lite fipplande fram och tillbaka kom det fram att den gemensamma nämnaren för The Offspring och Flogging Molly var indexeringstermen ”Punk”.

Alltså, finns ”punk” med hos en artists indextermer kommer Last.fm att leta upp ALLA artister i kategorin Punk och spela dem för mig! För mig är det här fullständigt irrelevant eftersom jag inte ville ha punk i den breda benämningen.
Jag ville ha FOLKpunk, även om jag själv benämnde det som folkrock i tanken.

Här kommer vi alltså till ett teoretisk dilemma med praktiska konsekvenser, och det är just DET som vi bibliotekariestudenter spenderar 4 år med att fundera över. Hur indexerar man en samling på bästa sätt för att hela tiden utvinna ”relevant” information för användaren?
Problemet är ju att ”relevant” är en jättesvår fråga, och det är därför som vi får situationer med Last.fm-exemplet. Att indexera brett med PUNK kan ha sina fördelar för någon som vill ha en generell musikblandning inom just kategorin Punk. Men när man söker på artister, som Flogging Molly, förväntar man sig åtminstone en fiol eller två och inte västkustamerikaner som spelar gitarr med tänderna.

För övrigt har jag Last.fm igång och den föreslog just Green Day... (Fortfarande är söktermen ”Flogging Molly”)

Jag som bibliotekarie vänder mig rätt mycket emot det här med generell indexering, i denna aspekt.
Last.fm använder sig till och med (jippi!) av så kallade sammansatta indexeringstermer där ”folk punk” täcker in punkaspekten av Flogging Molly och Dropkick Murphys. Varför stannar de inte där? Varför lägger de till ”punk” OCKSÅ?
Där har vi problemet!

I min åsikt, vilken är en av många, skiljer sig folkpunk från ”vanlig” punk à la Sex Pistols och Green Day. Folkpunken jag letade efter har inslag den så kallade folkmusiken med ganska karaktäristiska instrument som fiol, säckpipa och ofta vissa taktarter. Punken i sig självt är inte folkpunk i detta avseende. Puritanen kanske håller med mig medan anarkisten säger att jag är dum i huvudet, men hur som... jag är inte intresserad av Green Day när jag sökt på Flogging Molly, vi kommer inte ifrån detta dilemma!

Om vi helt sonika tog bort paraplybegrepp som Rock och Punk skulle systemet haverera... så mitt förslag är att göra mer bruk av de sammansatta termerna, för min känsla säger mig att om en användare söker på PUNK är han eller hon mer intresserad av punken som Ebba Grön, Six Pistols och Millencollin. Skriver användaren att han eller hon vill höra FOLK PUNK handlar det mer om influenser från folkmusiktraditionen.
Jag påstår inte att jag är en expert på musikaliska genrer nu, där skulle jag behöva hjälp om jag var den som skulle indexera Last.fm-s stora samling, men jag vet i alla fall att specifika termer har sina fördelar framför generella.

Sluta slasktrattindexera! Det blir bara förvirrande! Det är därför man pluggar till bibliotekarie i 4 år.

Tack för ordet.