Hur fungerar egentligen Googles sökmotor, och hur kan den söka igenom alla webbsidor på bråkdelen av en sekund?
Anledningen till att detta fungerar är att så kallade "
crawlers", spindlar (dvs automatiserade datorprogram) används för att i förväg ladda hem alla webbsidor och skapa ett index för alla ord som finns på webbsidorna.
När man sedan söker på ett ett eller flera ord via sökmotorns "
Searcher" (webbgränssnittet), så används detta index för att se vilka sidor som innehåller de ord som man angivit.
Sökmotorn behöver såklart inte gå ut och leta igenom varje sida när en fråga ställs, vilket skulle ta alldeles för lång tid. Istället används endast detta index för att se vilka sidor som innehåller orden.
Googles indexeringsprocess:
1. Googles crawlers letar upp sidor som de hittat länkar till och sparar sidorna i Repository. Detta kan synas i loggfilerna för en webbplats genom att "Googlebot" har besökt sidan.
2. The indexer tar sedan sidorna ur Repository och skapar ett gigantiskt index som placeras i de sk Barrels, vilket är ett stort distribuerat system för att snabbt kunna sökas igenom.
Detta index innehåller information om varje ord som har funnits i de olika sidorna. Det innehåller information om var någonstans ordet finns i varje dokument, samt lite annan information så som en uppskattning av fontstorlek och hur viktigt det verkar vara för dokumentet.
3. The Indexer letar även upp alla länkar som finns på en sida, och lagrar dessa länkar i Anchors-servern. URL Resolver går sedan igenom dessa länkar och skapar adresser som sedan kan användas för att hämta hem dessa sidor.
4. URL Resolver gör även en annan viktig funktion, nämligen att ha kontroll på vilken sida som länkar till andra sidor. En lista med sådan länkinformation sparas i Links och kan sedan användas för att räkna ut ett så kallat PageRank värde för varje sida.
5. The Sorter sorterar om information som finns i Barrels från att ha varit sorterat på sidor, till att vara sorterat på orden. Man skapar på så sätt ett så kallat "inverted index", som behövs vid sökning.
6. The searcher tar detta "inverted index" och använder det för att svara på frågor på Googles hemsida. De ord man skriver in letas upp i inverterade indexet, som i sin tur returnerar de sidor som innehåller orden. Den lista som man fås sorteras sedan enligt en avancerad rankalgoritm som försöker visa de mest relevanta sidorna längst upp i resultatlistan.
Därför slog Google igenom
Google var mycket duktiga på att få med många sidor i sitt index, deras "coverage" var mycket högt, de kunde inkludera fler sidor än de flesta andra sökmotorer, mycket tack vare deras distribuerade nätverkslösning. De hade tusentals datorer i olika kluster som samarbetade i ett speciellt utvecklat nätverk för att snabbt kunna indexera och svara på frågor.
Den viktigaste anledningen till Googles framgång var ändå hur deras ranking fungerade. Den grundläggande idén om hur resultatlistan ska rankas var formeln
TF/IDF (Term Frequency delat med Inverse Document Frequency).
Ett exempel, man gör en sökning på ordet "googled". TF är då antalet gånger som ordet förekommer på varje sida. Ju fler gånger ordet förekom, desto högre TF/IDF värde fick sidan och sådeles rankas sidan högre.
IDF faktorn är ett mått på hur unikt ordet är. Ord som är ovanliga kommer då att få större betydelse än vanliga ord. Om man t ex jämför orden "googled" och "en", så förekommer ordet "en" i många fler dokument på webben än vad ordet "googled" gör. Därför skulle ordet "en" inte ha lika stor betydelse för rankningen som "googled" om man sökt på båda dessa ord.
Det fanns flera problem med denna ranking, dels kunde man ganska lätt lura sökmotorer att få sin sida högt rankad genom att skriva viktiga ord många gånger någonstans på sidan. Man kunde även lägga in populära ord så som "microsoft" på sin sida och då direkt få många besökare på sin sida.
Detta sätt för att ranka sidor fungerade inte speciellt bra och Google utvecklade då en algoritm för att beräkna sidors värde,
The PageRank Algorithm.
Jag kommer att gå in djupare på hur
PageRank-algoritmen fungerar vid ett senare tillfälle.
Just nu värderat 5.0 av 5 människor
- Currently 5/5 Stars.
- 1
- 2
- 3
- 4
- 5
Allmänt, SEO
google