目录
TensorFlow 与 Apache Arrow 数据集搭配简介
Apache Arrow 本质上是一种基于内存的列式数据的标准格式,旨在提高系统之间的效率和互操作性。
因此,这确保了您可以高效地处理数据,同时与不同规模的各类系统无缝集成。
Arrow 数据集是 tf.data.Dataset 的扩展,因此两者可利用相同的 API 与 tf.data 流水线集成,并可作为 tf.keras 的输入。TensorFlow I/O 目前提供 3 种 Arrow 数据集,按名称排序如下:ArrowDataset、ArrowFeatherDataset 和 ArrowStreamDataset。这三种数据集均由相同的底层 Arrow 数据馈送,且此类底层数据具有两个重要特征:结构化 和 批量化。