Apache Parquet ist ein spaltenorientiertes Speicherformat, das speziell für die Verwendung mit Big-Data-Verarbeitungs-Frameworks optimiert ist. Im Gegensatz zu zeilenorientierten Formaten speichert Parquet Daten spaltenweise, was eine äußerst effiziente Datenkomprimierung und -kodierung ermöglicht. Diese spaltenorientierte Speicherung hat den Vorteil, dass Abfrage-Engines nur die für eine bestimmte Abfrage notwendigen Spalten abrufen müssen, wodurch I/O-Vorgänge erheblich reduziert und die Abfrageleistung signifikant verbessert wird. Parquet ist als selbstbeschreibendes Format konzipiert, was bedeutet, dass das Datenschema direkt in der Datendatei selbst eingebettet ist. Dies eliminiert die Notwendigkeit externer Metadaten-Speicher und vereinfacht das Datenmanagement erheblich. Es unterstützt eine breite Palette von Datentypen sowie komplexe verschachtelte Strukturen. Parquet wird häufig in Data Warehousing, Data Lakes und anderen Big-Data-Anwendungen eingesetzt, wo eine effiziente Datenspeicherung und -abfrage von entscheidender Bedeutung ist. Seine nahtlose Integration mit populären Frameworks wie Apache Spark, Hadoop und Presto macht es zu einer vielseitigen Wahl für moderne Datenverarbeitungs-Pipelines. Das Format ist sowohl für Lese- als auch für Schreiboperationen ausgelegt, obwohl es oft in Szenarien verwendet wird, in denen Daten einmal geschrieben und viele Male gelesen werden (write-once, read-many).