Apache Parquet 是一种专为大数据处理框架优化的列式存储格式。与面向行的格式不同,Parquet 按列存储数据,这使得数据压缩和编码效率更高。这种列式存储允许查询引擎仅检索给定查询所需的列,从而显著减少 I/O 并提高查询性能。Parquet 被设计为自描述的,这意味着模式(schema)嵌入在数据文件本身中。这消除了对外部元数据存储的需要,并简化了数据管理。它支持广泛的数据类型和复杂的数据嵌套结构。Parquet 在数据仓库、数据湖以及其他对高效数据存储和检索至关重要的的大数据应用中被广泛使用。它与 Apache Spark、Hadoop 和 Presto 等流行框架的集成,使其成为数据处理管道中的多功能选择。该格式专为读写操作而设计,尽管它通常用于“一次写入,多次读取”(write-once, read-many)的场景。