Quantcast File System

QFS steht jedem Interessierten zum kostenlosen Download zur Verfügung. Besuchen Sie unser Repository auf GitHub.

Arbeiten mit Big Data ist nicht einfach – oder günstig.

Big Data erfordert enorme Speicher- und Rechnerkapazität, Strom und Platz, um die Hardware zu betreiben und zu kühlen. Und: ausreichend Personal und Ressourcen. Jede Organisation, die mit Big Data arbeitet, weiß, die damit verbundenen Kosten steigen rasant. Die oberste Priorität lautet daher: Effizienz.

Das ist QFS 1.0

Entwickelt von Quantcast und jetzt für die Open Source-Community freigegeben ist das Quantcast File System (QFS), eine Alternative zum Hadoop Distributed File System (HDFS) für intensive Rechenprozesse mit großen Datenmengen auf Computerclustern. Es handelt sich hier um ein schon in der Praxis bewährtes verteiltes Dateisystem , das zu 100 % Open-Source und voll integriert in Hadoop ist – eine deutlich bessere Performance bei 50 % geringerem Speicherverbrauch.

Warum Open Source?

Dateisysteme sind kritische Infrastruktur und müssen solide sein. Unserer Ansicht nach sind die Gründlichkeit und Zusammenarbeit der Open Source-Community der beste Weg, um QFS voranzubringen. Im Gegenzug kann das System Organisationen, die es für sich nutzen, große Vorteile bringen.

Wir begrüßen Fragen, Kommentare und Beiträge zum QFS-Projekt und freuen uns auf die Zusammenarbeit, um es kontinuierlich weiterzuentwickeln. Wir werden unsere Änderungen regelmäßig in GitHub integrieren und neue Versionspakete veröffentlichen.

Mehr Rechnerleistung – weniger Hardware

Eine kompakte Datenspeicherung mit geringeren Anforderungen senkt die Ausgaben für Festplatten und Strom. Gleichzeitig erbringt ein schnellerer Datendurchsatz mehr Leistung – und bessere Ergebnisse. Genau dafür haben wir QFS entwickelt.

Key Features von QFS
  • Reed-Solomon (RS)-Fehlerkorrektur. Bei einem großen Cluster sind ausgefallene Rechner und fehlerhafte Laufwerke eher die Regel als die Ausnahme. Deshalb ist die Toleranz bei fehlenden Daten entscheidend. HDFS setzt Dreifach-Replikation ein und verdreifacht so die Datenmenge. QFS nutzt nur den halben Speicherplatz, indem es dieselbe Fehlerkorrekturtechnik verwendet wie CDs und DVDs. Dadurch bietet es eine bessere Wiederherstellungsquote bei nur 1,5-facher Erweiterung.
  • Höherer Schreibdurchsatz. Schlankere Datencodierung spart nicht nur Speicherplatz, es müssen auch weniger Daten geschrieben werden. Da jeder Job über QFS nur halb so viele physische Daten erzeugt, halbiert er auch seine Last auf das jeweilige Cluster. Die Jobs schreiben Daten schneller, zudem können mehr Jobs gleichzeitig ausgeführt werden.
  • Schnelleres Auslesen. Eine Festplatte ist die langsamste Komponente eines Clusters; ihre maximale Lesegeschwindigkeit beträgt rund 50 MB/s. HDFS liest jeden Datenblock aus einem einzigen Speicher, deshalb übernimmt es dessen Geschwindigkeit. QFS liest jeden Block parallel aus sechs Speichern aus und kommt damit auf eine theoretische maximale Lesegeschwindigkeit von 300 MB/s. Das zeigt sich in einem enormen Geschwindigkeitszuwachs für Echtzeit-Jobs.
  • Direkte I/O. Die schnellste Methode, Daten aus einem Speicher auszulesen (oder darauf zu schreiben), besteht in großen, sequentiellen Bursts. Normale I/O APIs ermöglichen es Daten zu buffern und mit Swap Disk große, effiziente Bursts in kleine, ineffiziente Bursts herunterzubrechen. So stellen sie sicher, dass der Speicherzugriff optimal bleibt.
  • Fester Speicher. QFS ist in C++ implementiert und verwaltet seinen eigenen Speicher sorgfältig in einem festen Speicherbereich. Das ermöglicht schnellere Operationen ohne Unterbrechungen zur Speicherbereinigung. Zudem ist QFS Ressourcen-schonend, da es andere Prozesse auf demselben Rechner nicht ausbremst, denn es fordert vom Betriebssystem niemals zusätzlichen Speicher (mit dem Risiko von Ein-/Auslagerung und zusätzlicher Speicheraktivität). Dank seiner Speicherverwaltung bleibt die Performance hoch und die Administration einfach.
  • Nachweislich zuverlässig. Verlässlichkeit ist für ein Dateisystem entscheidend. Sie lässt sich nur durch Zeit und harte Arbeit in einer angemessen herausfordernden Umgebung erzielen. Quantcasts Datenverarbeitungsanforderungen sind zusammen mit unserem Geschäft stetig gewachsen. Tagtäglich laufen bei uns über 40 Terabyte ein, und unsere tägliche MapReduce-Verarbeitung kann 20 Petabyte übersteigen.