Apache Arrow IPC 流格式(.arrow)是一种二进制文件格式,专为高效的数据传输和存储而设计,尤其是在 Apache Arrow 生态系统内部。它是一种列式内存格式(columnar memory format),意味着数据是按列而非按行组织的,这对分析工作负载非常有益。此格式促进了进程和系统之间的数据零拷贝共享(zero-copy data sharing),显著降低了开销并提高了性能。Arrow IPC 流通常用于在支持 Arrow 格式的应用程序之间传输大型数据集,例如数据处理引擎、数据库和机器学习框架。该格式包含描述数据模式(schema)的元数据,支持自描述的数据交换。它针对快速的序列化和反序列化进行了优化,使其成为实时数据处理和高性能计算的理想选择。该格式与语言无关(language-agnostic),有多种编程语言的实现,包括 Python、Java、C++ 和 R。.arrow 文件扩展名通常代表一个 Arrow 数据流,它可以是一个批次(batch),也可以是代表更大数据集的一系列批次。该格式设计为可扩展,并支持各种数据类型和编码方式。