准确的电话号码和 WhatsApp 号码提供商。 如果您想要电子邮件营销活动列表或短信营销活动,那么您可以联系我们的团队。 电报: @latestdbs

通过太阳黑子进行地震预测第二部分常见的数据挖掘错误

当我写最后一篇文章时,我想知道我的追随者多久才会注意到我在实验中引入的错误。 让我们开始寻宝吧! 1. 不要总是相信您的数据:它们通常不是同质的。 在这篇文章中,我将 之间时间范围内的地震与相应的太阳黑子分布联系起来。 一个好的数据挖掘者必须经常检查他的数据集!您应该始终问自己数据是否以一致的方式生成。 更多阅读 数据安全 NIST 800-171 保障措施帮助非联邦网络处理 CUI 数据挖掘真的有助于白标 SEO 吗? IT 硬件初创公司利用数据分析进行市场研究 数字标牌中大数据和分析的力量 数据分析提高投资信托的投资回报率 当我写最后一篇文章时,我想知道我的追随者多久才会注意到我在实验中引入的错误。 让我们开始寻宝吧! 1. 不要总是相信您的数据:它们通常不是同质的。 在这篇文章中,我将之间时间范围内的地震与相应的太阳黑子分布联系起来。 一个好的数据挖掘者必须经常检查他的数据集!您应该始终问自己数据是否以一致的方式生成。

考虑我们的例在进一步分

析之前正确的问题应该是:“地震震级一直以来都是用同一种技术测量的吗?” 我认为这是非常错误的,但是如何检查我们的数据是否一直以不同的方式生成呢? 在这种情况下,我认为过去的技术不够准确,无法测量微弱的地震,因此我按年份和最小震级收集了地震:如您所见,很明显,1965 年之前收集的数 阿尔及利亚手机号码列表 据已在下一期间以不同方式注册。 从图中可以看出,1965年之前只有大地震(震级>6.5级)被记录到, 这就是地震向外增加的原因! …在上一篇文章中,我在“地震分布”图的标题中留下了线在这种情况下,清理数据集的最佳方法是仅过滤震级大于 6.5 的地震。 让我向您展示一种显示过滤数据的不同方式:“气泡图”。 气泡的大小代表地震的强度 气泡的大小代表地震的次数 我喜欢气泡图,因为它确实是在 2D 中绘制 3D 数据的好方法! 2. 数据采样:您的数据采样是否正确? 在上一篇文章中,我只考虑了在美国登记的地震。

电话号码列表

它能代表我们正在进行的实验吗?

太阳黑子应该对整个地球表面产生影响,因此这种现象应该在每个地方产生相同的影响。 ……但众所周知:有些地区更容易发生地震,而其他地区发生地震的可能性非常低。 因此,将这两种现象联系起来的正确方法是考虑地震的世界分布。 3. 不要依赖训练集上的好结果。 这可能是我在帖子中玩过的最糟糕的笑 CRB目录 我向您展示了使用支持回归模型获得的非常好的结果。 …不幸的是,我使用了整个数据集作为训练集,并且我没有在新数据集上检查模型! 在现实场景中,这种错误常常会给客户带来错误的期望。 我提出的训练模型似乎对解释数据集非常有帮助,但正如预期的那样,它无法很好地预测:(。 如何避免过度拟合问题?这个问题的解决方案并不是那么简单,但原则上,我认为交叉验证技术是缓解此类问题的安全方法。 这是新模型: 左图显示了训练集(蓝色表示每年的地震次数,红色表示预测模型。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注