准确的电话号码和 WhatsApp 号码提供商。 如果您想要电子邮件营销活动列表或短信营销活动,那么您可以联系我们的团队。 电报: @latestdbs

采样或不采样有什么关系吗?

所以问题是什么时候采样什么时候不采样?在大数据世界中这还重要吗?正如我将在这里指出的,在今天的大多数情况下,浪费精力担心它是没有意义的。只要满足一些基本标准,就可以做任何您喜欢的事情。 所以问题是……什么时候采样,什么时候不采样?在大数据世界中这还重要吗?正如我将在这里指出的,在今天的大多数情况下,浪费精力担心它是没有意义的。只要满足一些基本标准,就可以做任何您喜欢的事情。 更多阅读 使用 RHadoop 对 Hadoop 中的数据进行重采样 大数据亵渎:为什么要采样? 关联规则挖掘的数据采样 首先,让我们处理一下采样不起作用的情况。如果您需要找到前 100 位消费客户,则无法通过样本来实现。您必须查看每一个客户才能准确识别前 100 名客户。但是,此类场景虽然很常见,但并不是最普遍的分析要求类型。然而,对于“不采样”人群来说,它们确实代表了轻松的胜利。同样,即使是基于样本构建的模型也需要应用于宇宙才能正确使用它。

因此在部署时采样不是一种选择

其次我们要记住许多分析过程都会以某种方式处理或删除异常值和极值。与上面的“前 100 个”问题相反,许多顶部或底部的观察结果可能会被删除或调整,以免产生太大的影响。即使 澳大利亚手机号码列表 数据集中存在此类观察结果,也不会使用它们。 上面这一点很重要。例如,在构建客户倾向模型时,您希望它广泛适用于“典型”客户。也许确实有一个客户的花费是次高客户的 1,000 倍。即使这是真的,该客户也非常极端和非典型,因此您不应该将他们包含在您的模型中。该模型旨在区分大众,少数极端客户可能会为了达到其预期目的而牺牲该模型的功能。任何有如此极端行为的客户一开始就值得组织进行特殊处理。你不需要模型来告诉你这一点。 最后,让我们回到一个典型的场景。你需要一个平均值。或者您想从某种预测模型中获得参数估计值。从统计学上来说,正确抽取模拟总体的足够大小的样本将会得到与使用所有数据相同的答案。

电话号码列表

我可以看到那种景色然而

这种观点的一个漏洞是,正确的建模过程将涉及开发和验证数据集的某种组合……无论如何,这些都是有效的样本!其他人会认为您应该只使用所需的数据量,并且使用超过所需 CRB目录 的最小样本量是浪费时间和资源。我也能看到这样的景色。这一观点的一个漏洞是,如果可用资源可以轻松及时地处理所有数据,那么就不会浪费太多资源。 我发现我真的不在乎。如果有人为我做一个项目想要抽样,只要样本足够大并且绘制正确,我就可以接受。如果有人想使用宇宙,我也同意,只要与样本相比所需的额外资源没有实际意义。我相信我会得到相同的结果,所以我不会参与有关抽样的争论。 我意识到这种冷漠的立场几乎可能涉及每个人,因为大多数人都站在栅栏的一侧或另一侧。我想我的观点很简单,在开发分析过程时,还有很多其他更“充实”的话题需要花时间讨论。在当今世界,我不认为为了是否采样而失去太多睡眠有什么用。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注