Archive for May, 2008

Jobb, ämnen, människor

Wednesday, May 7th, 2008

Medans Virgil klurar på 18 ämnesklassificieringar passar jag och Don Pullen att spela lite på tangenterna. Det är på tiden. Bottarna är som bekant utsläppta i det fria och det känns lite som när ungarna flyttade ut. Skönt men med viss saknad. Nu är mitt kontor hemmet, Odenplan, Hötorget och cafeer, kan det bli bättre? Jag och Mattias, min nya vän och kompanjon ångar fram i hiskliga hastigheter. Jag klassificierar allt i min väg, Mattias psykograferar allt i hans och tillsammans kan vad som helst hända, händer. Nu med även med uppbackning av Ragnar och ev. Björn.

Och Dons fingrar flimmrar snabbare över tangentbordet - pling pling plong. Knapp, knapp knapp svarar jag.

Roger har gjort en värstinginsats för att stabilisera klassificieringsservern, det visade sig att minnet kunde ta slut lite hur som helst på surVPSen, vilket ledde till helt bisarra krascher p.g.a. ohanterade bad_alloc exceptions. Roger kom på ett genialiskt tillvägagångssätt att återskapa problemen genom att simulera minnesbrist med viss sannolikhet. Undantaget bad_alloc kastades vilt, likt nyutexaminerade studentmössor, under en vecka i vår test miljö. På så sätt lyckades vi röka ut en hel drös minnesrelaterade buggar.

Och min gamla bittra dator, Virgil, bara tänker och tänker: hmm, kärlek och sex? politik? litteratur? matlagning? skönhet? alla dessa ämnen.. nåväl snart får jag väl gå i pension, jag är, enligt min egen beräkning, 150 datorår.

Emil jobbar med gränssnittet, databasen och det blir riktigt snyggt och bra. Jag blir lika imponerad varje gång jag har någon SQL fråga.. att fråga.. och han svarar som om det var hans modermål. Skoj att lära av lillebror. Plus att jag alltid kan fråga Far när han inte umgås med sin rishög [1, 2] dvs .

Här är några lyckade klassificierare som vi byggt (ska leta fram resultaten vid tillfälle):
Spam (Spam / Legitimate) (exarbete)
Reuters (en drös nyhetskategorier)
Psykografi (Extrovert / Introvert / Sensing / iNtution /Thinker / Feeler) (swe)
Kön (Male / Female) (eng)
Ålder (10s/20s/30s/40s) (eng)
Sentiment (Positive / Negative) (eng)
Språk (44 st samma som google)

Snart kanske jag kan lägga till ämnesklassificieraren i listan, om bara dattahärket kan skärpa sig och spotta ut resultatet.

Jon: Hur svårt kan det vara? Alla ser väl om ett dokument handlar om litteraturen eller om husdjuren?
Virgil: Så säg mig Jon, ”Lars Collmar går i pension från sin tjänst som präst i Adolf Fredriks församling. Men präst i natten förblir han och Helga Hund, hans litterära husdjur, kommer tillbaka i en femte bok som är under produktion.” Religon, litteratur eller husdjur?

Dattan har en poäng och har nu kört 85% av testerna.

Tack Mor och Far och Mia och Emil och AC för hjälpen med rummet i helgen. Det blev som ni ser bra:

Bra

Och som du ser Mor har jag rakat mig, tack för rakmaskinen:

Före

Före

Och nu mina vänner har Virgil tänkt klart:

Parsing classes for cache…  (Andlighet och religon)  (Bloggar)  (Bredband)  (Familj)  (Husdjur)  (Konsumentomdömen)  (Kärlek och sex)  (Litteratur)  (Mat och matlagning)  (Miljövänliga produkter)  (Mobiltelefoni)  (Motion och hälsa)  (Musik)  (Pengar och ekonomi)  (Personlig utveckling)  (Poker)  (Politik)  (Skönhet)######################################
Ämnen  delta = 1.000
######################################
Macro-precision: 0.907
Macro-recall: 0.752
Macro-F1: 0.822
WAcc: 0.768
tp: 676.000 tn: 223.000 fp: 69.000 fn: 292.000

Med tanke på den brusiga träningsdatan (har automatiskt samlat in den under dagen) så är jag nöjd. Den platsar inte på ovanstående lista än, men jag är övertygad om att den kommer att hamna där denna vecka.