Articles / januari 22, 2022

Introducing Consistent Hashing

30 apr, 2020 – 11 min read

Met de opkomst van gedistribueerde architecturen, werd consistent hashing mainstream. Maar wat is het precies en hoe verschilt het van een standaard hashing-algoritme? Wat zijn de precieze beweegredenen erachter?

Eerst zullen we de belangrijkste concepten beschrijven. Daarna zullen we in bestaande algoritmen duiken om de uitdagingen van consistent hashen te begrijpen.

Hashing

Hashing is het proces om gegevens van willekeurige grootte om te zetten in waarden van vaste grootte. Elk bestaand algoritme heeft zijn eigen specificatie:

MD5 produceert 128-bit hash-waarden.
SHA-1 produceert 160-bit hash-waarden.
enz.

Hashing kent vele toepassingen in de informatica. Een van deze toepassingen heet bijvoorbeeld checksum. Om de integriteit van een dataset te verifiëren, kan een hashing-algoritme worden gebruikt. Een server hasht een dataset en geeft de hash-waarde door aan een client. Vervolgens hasht de client zijn versie van de dataset en vergelijkt de hash-waarden. Als ze gelijk zijn, moet de integriteit worden geverifieerd.

De “moeten” hier is belangrijk. Het slechtst denkbare scenario is als er een botsing optreedt. Een botsing is wanneer twee verschillende stukken gegevens dezelfde hash-waarde hebben. Laten we een voorbeeld uit het echte leven nemen door de volgende hashing functie te definiëren: gegeven aan een persoon geeft het zijn geboortedatum terug (dag & geboortemaand). De verjaardagsparadox vertelt ons dat als we maar 23 mensen in een kamer hebben, de kans dat twee personen dezelfde verjaardag hebben (dus een botsing) meer dan 50% is. Daarom is de verjaardagsfunctie waarschijnlijk geen goede hashing functie.

Als een snelle inleiding op hashing is het belangrijk om te begrijpen dat het hoofdidee gaat over het verspreiden van waarden over een domein. Bijvoorbeeld:

MD5 verspreidt waarden over een 128-bit ruimtedomein
Een hashtable (of hashmap) met een array van 32 elementen heeft een interne hashing-functie die waarden verspreidt naar elke index (van 0 tot 31).

Load Distribution

Load distribution kan worden gedefinieerd als het proces van het verspreiden van belasting over nodes. De term node is hier uitwisselbaar met server of instance. Het is een rekeneenheid.

Load balancing is een voorbeeld van load distribution. Het gaat om het verdelen van een set taken over een set bronnen. We gebruiken bijvoorbeeld load balancing om de API-verzoeken te verdelen over webserver-instanties.

Wanneer het om gegevens gaat, gebruiken we liever de term sharding. Een database shard is een horizontale partitie van gegevens in een database. Een typisch voorbeeld is een database gepartitioneerd in drie shards waarbij elke shard een subset van de totale data heeft.

Load balancing en sharding hebben een aantal gemeenschappelijke uitdagingen. Het gelijkmatig verdelen van gegevens bijvoorbeeld om te garanderen dat een knooppunt niet wordt overbelast in vergelijking met de andere. In sommige contexten moeten load balancing en sharding ook taken of gegevens aan dezelfde node koppelen:

Als we de operaties voor een bepaalde consument moeten serialiseren, één voor één afhandelen, moeten we het verzoek naar dezelfde node routeren.
Als we gegevens moeten distribueren, moeten we weten welke shard de eigenaar is voor een bepaalde key.

Klinkt dat bekend? In deze twee voorbeelden, verspreiden we waarden over een domein. Of het nu een taak is die verspreid wordt over server nodes of gegevens die verspreid worden over database shard, we vinden het idee terug dat geassocieerd wordt met hashing. Dit is de reden waarom hashing kan worden gebruikt in combinatie met lastverdeling. Laten we eens kijken hoe.

Mod-n Hashing

Het principe van mod-n hashing is het volgende. Elke sleutel wordt gehasht met een hashing-functie om een invoer in een geheel getal om te zetten. Daarna voeren we een modulo uit gebaseerd op het aantal nodes.

Laten we eens een concreet voorbeeld met 3 nodes bekijken. Hier moeten we de belasting verdelen over deze knooppunten op basis van een sleutelidentificatie. Elke sleutel wordt gehashed en dan voeren we een modulo operatie uit:

De nodes worden voorlopig gelijkmatig verdeeld. We komen hier later nog op terug.

Dan wordt het tijd om te kijken hoe we de sleutels gaan representeren. Eerst hebben we een functie f nodig die een ring index (van 0 tot 11) teruggeeft op basis van een sleutel. We kunnen daarvoor mod-n hashing gebruiken. Aangezien de lengte van de ring constant is, zal dat geen probleem opleveren.

In ons voorbeeld zullen we 3 sleutels definiëren: a, b en c. We passen f toe op elke sleutel. Laten we aannemen dat we de volgende resultaten hebben:

f(a) = 1
f(a) = 5
f(a) = 7

Daarom kunnen we de toetsen op de ring op deze manier plaatsen:

Hoe koppelen we een bepaalde sleutel aan een knooppunt? De belangrijkste logica is om vooruit te gaan. Van een gegeven sleutel geven we het eerste knooppunt terug dat we vinden terwijl we voorwaarts gaan:

In dit voorbeeld associëren we a met N1, b en c met N2.

Nu gaan we eens kijken hoe het opnieuw in evenwicht brengen wordt beheerd. We definiëren een ander knooppunt N3. Waar moeten we die plaatsen? Er is geen ruimte meer om de totale verdeling uniform te maken. Moeten we de knooppunten herschikken? Nee, anders zouden we niet meer consistent zijn, is het niet? Om een node te positioneren hergebruiken we dezelfde hashing functie f die we introduceerden. In plaats van te worden aangeroepen met een sleutel, kan hij worden aangeroepen met een knooppunt-identifier. Dus de positie van het nieuwe knooppunt wordt willekeurig bepaald.

Een vraag rijst dan: wat moeten we doen met a aangezien het volgende knooppunt niet meer N1 is:

Universe

Introducing Consistent Hashing

Hashing

Load Distribution

Mod-n Hashing

Rendezvous

Ring Consistent Hash

Jump Consistent Hash

Wat is het Perfect Consistent Hashing Algoritme?

Leave a Reply Cancel