Dymov

2005-09-07

Uppdatering

Nu har jag modifierat frekvensgrafen så att den visar procentandel av alla ord istället för st, vilket var lite svåröverskådligt. Nu blir det alltså lättare att förstå. Intressant att veta är också att endast tio ord (att, och, det, i, jag, är, som, en, på, för) står för 74% av alla ord vi använder! Här ska tilläggas att en vanlig dag använder vi (ni:) runt 10000 ord. 90/10-regeln är alltså (inte helt oväntat) tillämpbar på vårt språkbruk (rent teoretiskt borde detta också innebära att det finns en enorm effektiviseringspotential i vårt sätt att tala, då kanske så mycket som 80-90% av allt vi säger inte förmedlar den viktigaste informationen. zip....). En tolkning av detta kan vara att vi i allmänhet har en ganska enkel begreppsapparat som använder enkla operationer och applicerar dessa på alla objekt (sååå långsökt). Här:

Inläggsgrafen har också fått två undergrafer: ord per inlägg och länkar per inlägg. Formen på graferna i början är nog mycket beroende av att indexet då innehöll för få bloggar för att bearbeta dem statistiskt. Här:
För den som är så nyfiken att den orkat läsa hit kan jag säga att de tre stora frågorna som jag just nu brottas med är filtrera eller inte filtrera ord för att göra ett trendindex, detektering av bloggar (med hjälp av hakank?), samt att flytta hela projektet till en separat server, då jag nu har det på min laptop. Det känns lite omodernt att behöva gå ifrån datorn en halvtimme;) Och lite lekande kring Markov n-gram.