通过分离计算和存储来提高性能并降低成本

nusaibatara · Post by **nusaibatara** » Mon Mar 17, 2025 9:49 am

Iceberg 将数据存储和查询计算分离开来。这降低了成本并改善了运营，使公司能够以低成本存储数据，并根据需要支付计算费用。如果您在 Iceberg 中维护存储层，则可以将任何查询引擎（Trino、Spark、Snowflake 等）换成任何独特的工作负载。这种架构通常称为 Lakehouse，本质上是一个由独立的存储层和计算层组成的“可组合数据仓库”。

Lakehouse 架构图

公司可以在 Lakehouse 中分离计算和存储。

根据定义，每个查询引擎执行就业数据库的任务都不同。有些引擎在不同的项目中比其他引擎更好——这就是为什么，例如，你会看到企业同时使用 Snowflake 和 Databricks。在不同的工作负载下同时使用 Snowflake 和 Databricks 的问题在于，你必须在这些平台之间来回移动数据。Iceberg 提供了一个不需要移动的未来——所有这些计算引擎都可以简单地连接到统一的存储层。

为每个任务选择最有效的查询引擎不仅可以提高性能，还可以让公司节省总体计算成本，并在竞争性查询引擎之间协商以获得更优惠的价格。

通过将数据保留在您的环境中来提高安全性
过去，大多数数据仓库（如 Snowflake 和 BigQuery）都要求您“导入”数据才能使用其查询引擎（并以表格格式存储数据）。这会导致数据离开您的云环境。

现在，随着 Snowflake 和 Databricks 等供应商支持 Iceberg 和 Delta Lake 等表格格式，公司可以将数据保存在其云环境中并将查询引擎引入该环境。