准确的电话号码和 WhatsApp 号码提供商。 如果您想要电子邮件营销活动列表或短信营销活动,那么您可以联系我们的团队。 电报: @latestdbs

为什么在预测分析中定义目标变量至关重要

每个数据挖掘项目都从定义要解决的问题开始。我不会在这里描述CRISP-DM流程,但我在与客户合作时经常使用该通用框架,以便他们了解该流程。 每个数据挖掘项目都从定义要解决的问题开始。我不会在这里描述CRISP-DM流程,但我在与客户合作时经常使用该通用框架,以便他们了解该流程。 问题定义的一部分是定义目标变量。我认为这是与数据相关的过程中最关键的步骤,比数据准备、缺失值插补以及用于构建模型的算法更重要,因为它们都一样重要。 目标变量携带了所有信息,这些信息总结了我们希望从用于构建预测模型的算法的角度预测的结果。然而,这在很多方面都可能产生误导。我正在解决一种可能被目标变量愚弄的方法,请允许我引导您走上这条路。 更多阅读 图像 预测建模如何改变我们的工作和生活方式 预测建模者需要了解数学吗? 预测分析世界纽约市会议宣布演讲者阵容 建模的主要组件 全球经济衰退中的分析:固定价格运营仪表板 假设我们正在组织中构建欺诈模型。

假设在我们的组织中

确定欺诈的过程首先是识别可能的欺诈案件(通过提示或预测模型),然后将案件分配给经理,由他确定哪个调查员将接手该案件(假设经理认为有价值) ),然后指派侦查人员,如果发现欺诈,则将案件送交法庭审理,最终定罪或判当事人无罪。 我们的组织希望使用预测模型优先考虑将哪些案例发 阿尔巴尼亚手机号码列表 送给调查人员。我们决定将所有被发现具有欺诈性的案件(即所有已审理并定罪的案件)用作目标变量。让我们假设所有相关人员都擅长自己的工作,不会做出武断或糟糕的决定(这当然也是一个问题!) 我们也暂时把这里涉及的时间滞后(问题本身)放在一边,只将信念视为目标变量。目标变量实际上向我们传达了什么?当然,我们希望这个目标变量能够传达欺诈风险。当然,当定罪发生时,我们非常有信心该案件确实是欺诈,因此“1”是欺诈的强有力且明确的标签。 但是,“0”呢?其中包括哪些案例? – 从未调查过的案件(即,我们怀疑它们不是欺诈,但不知道) – 分配给从未分配过该案件的经理的案件(他/她认为这些案件不值得调查。

电话号码列表

已分配给调查员但调查尚未完成

或从未完成,或被确定不包含欺诈的案件 – 上法庭但被裁定“无罪”的案件 请记住,所有这些都被赋予相同的标签:“0” 这意味着任何表面上看起来具有欺诈性但没有足够资源进行调查的案件都被称为“非欺诈性案件”。这意味着已经调查但调查员被撤职去调查其他案件的案件被称为“非欺诈”。这也意味着,由于与 CRB目录 欺诈本身无关的技术问题而被法院驳回的案件被称为“非欺诈”。 换句话说,仅定义为“最终定罪”的目标变量不仅代表案件的欺诈风险,还代表调查和法律制度。也许高风险的复杂案件会被丢弃,因为它们(在这个特定的时间,对于这些特定的调查人员)不值得花时间。这是我们想要预测的吗?我会说“不”。我们希望目标变量代表风险,而不是系统。 这就是为什么当我研究欺诈检测问题时,目标变量的定义需要时间:我们必须找到代表风险、信息丰富且一致的度量,但不要度量系统本身。对于不同的客户来说,这意味着不同的权衡,但通常这意味着使用流程早期的措施。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注