明星模型示例

Learn, share, and connect around europe dataset solutions.
Post Reply
Bappy11
Posts: 450
Joined: Sun Dec 22, 2024 9:27 am

明星模型示例

Post by Bappy11 »

拆分列的示例

最好的例子是将时间戳(例如 2022-04-22 14h:30m:24s)分成单独的日期字段和时间字段。对于整个 2022 年,日期字段的基数为 365(一年的天数)。时间字段的基数为 24h 60m 60s= 86,400。

如果将这两者合并为一列,那么该列将包含多达 86,400*365 = 31,536,000 种可能的日期和时间组合。无论每种组合是否实际出现,您的字典都会比日期和时间字段的两个字典合并后大得多。即 31,536,000 对 365 和 86,400。

Power BI 中的基数示例

Power BI 中的基数示例
Power BI 中基数的这个示例展示了 Power BI 中如何确定列的存储大小。



限制值的大小
表格单元格中的值可以采用不同的方式存储。您可以做些什么来最小化表中值的存储大小?

使用星型模型对数据进行建模
在这个例子中,我们有一个数据平台,其中的数据是按照星号建模的。这意味着尽可能少的信息被存储两次。这样,每条收据行都会记录购买商品的商店编号。单独的表格描述了商店的所有特征(例如位置、大小、营业时间等)。通过将数据建模为星型,这些信息仅需存储一次,而无需在每条收据行中重复存储。


明星模型示例
Power BI 中星型模型的一个示例。客户、商店、产品、日期和收货特征只需记录一次,然 荷兰电报数据 链接到正确的收货行。



数据类型和小数位数
如何将数据存储在列中也对模型的大小有影响。上面已经描述了随着基数的增加,字典的大小会发生什么变化。因此,存储小数点后 10 位的数字是没有用的。我们通常将数字限制为小数点后四位,以便四舍五入到美分时不会出现差异。

上面的例子说明了为什么提前考虑减少 Power BI 数据集的大小很重要。这样,仪表板就能正常工作,并且组织内部的采用也能顺利进行。这样,您就可以确保您的同事确实会使用您创建的仪表板。在很多情况下,不建议将 BI 工具直接链接到数据源。使用数据仓库作为中间层可以显著提高性能。

想要了解有关优化数据集或创建交互式仪表板的更多信息吗?
留下您的详细信息,我们将会与您联系。


联系我们
更多关于数字战略、托管服务以及数据和人工智能的博客
Post Reply