Inhaltsmoderation

Dezentrale Moderation ist ein ungelöstes Problem. Hashiverse gibt nicht vor, es vollständig gelöst zu haben, hat aber einen geschichteten, prinzipiengeleiteten Ansatz, der die meisten gängigen Fehlermodi adressiert, ohne eine zentrale Autorität wieder einzuführen. Jede Schicht ist für sich nützlich; zusammen bieten sie eine aussagekräftige Abdeckung.

Schicht 1: Organisches Verfallen durch Heilung

Inhalte in Hashiverse überleben, solange Clients sie weiter abrufen. Jedes Mal, wenn ein Client einen Bucket von Beiträgen abruft, identifiziert er Server, denen Beiträge fehlen, und schließt diese Lücken. Das bedeutet, dass beliebte, häufig besuchte Inhalte kontinuierlich auf den nächstgelegenen Servern des Netzwerks repliziert werden. Inhalte, die niemand abruft, hören auf, geheilt zu werden. Während Server sich füllen und ihre LRU-Verdrängungsrichtlinien anwenden, wird unverlinkter Inhalt leise verworfen — ohne zentrale Entscheidung, ohne Abmahnung, ohne menschliches Urteil.

Inhalte, die Bestand haben, haben das, weil sie für jemanden interessant bleiben. Inhalte, die akuten Schaden verursachen — eine Belästigungskampagne, gezielte Desinformation — schießen typischerweise im Engagement nach oben und verblassen, wenn die Episode vorüber ist. Sobald Clients sie nicht mehr abrufen, hört die Heilung auf, und das Netzwerk vergisst sie auf natürliche Weise. Wirklich persistenter schädlicher Inhalt würde persistentes menschliches Interesse erfordern, eine viel höhere Hürde, als einmal etwas zu posten.

Schicht 2: PoW-gewichtete Rückmeldung

Nutzer können auf Beiträge mit getypter Rückmeldung reagieren: positive Reaktionen (Like, Liebe usw.) und Meldekategorien wie sensible Inhalte, Hassrede, Belästigung, Falschinformationen, Spam und Betrug. Jedes Signal trägt einen Proof-of-Work-Pegel. Das Netzwerk hält das global maximale PoW-Signal pro Paar (post_id, feedback_type) und heilt dieses Maximum zwischen Servern.

Schadensmetriken werden aus dem Aggregat der Meldesignale berechnet, gewichtet nach ihrer PoW. Hoch-PoW-Signale von mehreren unabhängigen Nutzern sind sehr schwer zu manipulieren: Ein Gegner müsste die kombinierte Arbeit einer Community überrechnen, die sich für ein Stück Inhalt einsetzt.

CSAM-Meldungen

Material über sexuellen Kindesmissbrauch (CSAM) ist eine eigene Feedback-Kategorie mit einer niedrigeren clientseitigen Abdeckungsschwelle als andere Meldetypen — eine geringere Menge akkumulierten PoW-Signals reicht, bevor der Client den Inhalt abdeckt. Die zugrunde liegende PoW-Mechanik ist allerdings identisch zu allen anderen Feedback-Typen: Melder müssen weiterhin echte Rechenarbeit leisten, was der primäre Sybil-Resistenzmechanismus ist.

Dieses Design ist ein bewusster Kompromiss. Jeder Mechanismus mit niedriger Schwelle und schneller Wirkung kann instrumentalisiert werden: Ein Troll könnte legitime Inhalte fälschlich als CSAM markieren, um sie zu zensieren. Die PoW-Anforderung bedeutet, dass massenhafte Falschmeldekampagnen einen echten und proportionalen Preis haben, der sie in großem Maßstab wirtschaftlich unattraktiv macht. Abdeckung ist auch nicht unumkehrbar — der Betrachter behält die Fähigkeit, den Inhalt mit einer starken Warnung freizulegen — was die Nutzerautonomie wahrt und verhindert, dass eine einzige falsche Meldung einen Beitrag dauerhaft für alle zum Schweigen bringt.

Wenn ein Nutzer eine CSAM-Meldung einreicht, zeigt der Client einen Bestätigungsdialog mit dem Hinweis, dass das fälschliche Melden von CSAM in vielen Ländern illegal ist und Strafverfolgungsressourcen von echten Fällen von Kindesmissbrauch abzieht.

Quelle: encoded_post_feedback.rs

Schicht 3: Vom Nutzer konfigurierbare Kategorien

CSAM wird immer gefiltert. Das ist ein hart kodierter, nicht überschreibbarer Standard. Alle anderen Schadenskategorien haben vom Nutzer konfigurierbare Standardwerte: Gewalt, Drohungen und Spam werden standardmäßig gefiltert; das Filtern von Erwachseneninhalten ist standardmäßig aktiv, kann aber für passende Kontexte abgeschaltet werden. Die Konfiguration lebt im Client, nicht auf einem Server, sodass kein Serverbetreiber die Wahl eines Nutzers überschreiben kann.

Schicht 4: Friktions-proportionale Enthüllung

Statt markierte Inhalte vollständig zu verbergen — was eine Form von Zensur wäre — führen Clients eine Enthüllungsverzögerung ein, proportional zur Schwere des Community-Feedback-Signals:

Niedriges Signal: 0–5 Sekunden Verzögerung, bevor der Inhalt gezeigt wird
Mittleres Signal: 10–30 Sekunden
Hohes Signal: 30–60+ Sekunden

Die Verzögerung ist sitzungsbasiert: Hat ein Nutzer einmal die Verzögerung abgewartet und einen Inhalt angesehen, wird er in derselben Sitzung nicht erneut gefragt. Das respektiert die Nutzerautonomie — der Inhalt ist zugänglich — und macht eine zufällige Konfrontation mit stark markierten Inhalten praktisch schwierig. Die Friktion erfüllt eine ähnliche Funktion wie der „Bist du sicher?"-Dialog, skaliert auf das Community-Anliegen.

Schicht 5: Bildbeschränkungen in öffentlichen Kontexten

Bilder in Hashtag- und Erwähnungs-Buckets — Kontexte, in denen Inhalte Nutzern gezeigt werden, die den Autor nicht spezifisch abonniert haben — sind standardmäßig eingeschränkt. Die persönliche Timeline eines Nutzers hat keine solche Einschränkung. Das begrenzt den Wirkungskreis bildbasierten Schadens in Entdeckungs-Kontexten, ohne Inhalte innerhalb gewählter Abonnements zu beeinflussen.

Schicht 6: Klassifizierer auf dem Gerät (ausstehend)

Diese Schicht ist geplant, aber noch nicht umgesetzt, in Erwartung ausreichender Reife clientseitiger KI-Modelle, die im Browser laufen. Die Absicht ist, dass der Client einen Nacktheits-Klassifizierer lokal ausführt — kein an einen zentralen Dienst gesendeter Inhalt — und automatisch eine Inhaltswarnung anwendet, bevor das Community-PoW-Feedback-System Zeit hatte, Signal zu sammeln. Das ist besonders wertvoll für frisch gepostete Inhalte, die noch nicht von genug Nutzern gesehen wurden, um Abdeckungsschwellen auszulösen.

Der führende Kandidat ist NSFWJS, der MobileNet-basierte Klassifikation komplett im Browser über TensorFlow.js ausführt. Mit zunehmender Modellqualität und Browser-Inferenzleistung wird auch ein geschichteter Ansatz erwogen, der NSFWJS für schnelles erstes Screening mit einem leistungsfähigeren Modell für Altersschätzung kombiniert.

Wechselwirkung der Schichten

Die Schichten sind so gestaltet, dass sie konstruktiv zusammenwirken. Ein schädlicher Inhalt, der ins Netzwerk gelangt, trifft sofort auf: PoW-Kosten beim Einreichen (teuer im Maßstab), Bildbeschränkungen in Entdeckungskontexten, On-Device-Klassifikation und Community-Feedback, das mit der Zeit PoW-Gewicht sammelt und zunehmende Friktion einführt. Nach sechs Monaten verfällt der Inhalt vollständig. Keine einzelne Schicht reicht; zusammen schaffen sie mehrere unabhängige Barrieren, die ein Gegner gleichzeitig überwinden muss.

Bekannte Lücken

Textbasierter Schaden, der keine Bildklassifizierer auslöst und nicht schnell Community-Meldungen ansammelt — raffinierte Desinformation, subtiles Grooming, kontextabhängige Drohungen — ist der schwierigste Fall. Das Sechs-Monats-Fenster bedeutet, dass schwerer Schaden eine unangenehm lange Zeit vor seinem Verfallen persistieren kann. Das sind echte Grenzen der Architektur. Die Arbeit an verbesserter Erkennung läuft weiter, innerhalb der Beschränkungen, das System dezentral und den Client zum Schiedsrichter dessen, was angezeigt wird, zu halten.

Quelle: encoded_post_feedback.rs

Weiter Resilienz und Selbstheilung