Iceberg 将数据存储和查询计算分离开来。这降低了成本并改善了运营,使公司能够以低成本存储数据,并根据需要支付计算费用。如果您在 Iceberg 中维护存储层,则可以将任何查询引擎(Trino、Spark、Snowflake 等)换成任何独特的工作负载。这种架构通常称为 Lakehouse,本质上是一个由独立的存储层和计算层组成的“可组合数据仓库”。
Lakehouse 架构图
公司可以在 Lakehouse 中分离计算和存储。
根据定义,每个查询引擎执行 就业数据库 的任务都不同。有些引擎在不同的项目中比其他引擎更好——这就是为什么,例如,你会看到企业同时使用 Snowflake 和 Databricks。在不同的工作负载下同时使用 Snowflake 和 Databricks 的问题在于,你必须在这些平台之间来回移动数据。Iceberg 提供了一个不需要移动的未来——所有这些计算引擎都可以简单地连接到统一的存储层。
为每个任务选择最有效的查询引擎不仅可以提高性能,还可以让公司节省总体计算成本,并在竞争性查询引擎之间协商以获得更优惠的价格。
通过将数据保留在您的环境中来提高安全性
过去,大多数数据仓库(如 Snowflake 和 BigQuery)都要求您“导入”数据才能使用其查询引擎(并以表格格式存储数据)。这会导致数据离开您的云环境。
现在,随着 Snowflake 和 Databricks 等供应商支持 Iceberg 和 Delta Lake 等表格格式,公司可以将数据保存在其云环境中并将查询引擎引入该环境。