模型预测准确度

95 - 100%：非常好。历史数据具有很明显的趋势或季节性模式。

90 - 94.9%：好。历史数据具有缓和的趋势或季节性模式。

80 - 89.9%：一般。历史数据具有较弱趋势或季节性模式。

0 - 79.9%：差。从历史数据中检测不到趋势或模式。

拥有更多的数据在任何时候都不坏，更多的数据就能让其“为自己代言”，而不是仅仅依赖于作的假设和弱小的相互关系。获取更多数据会使模型更完善更准确。

训练数据中意外的缺失值和异常值通常会降低模型的准确率，或使模型产生的结果出现偏差，最终导致预测不准。这是因为我们没能够准确地分析这一行为以及它与其他变量的关系。因此，认真对待缺失值和异常值非常重要。

这一步骤有利于从现有数据中提炼出更多信息，新的信息会根据新特征得以提炼出来，这些信息更能够解释训练数据的变化。因此，一定会使模型准确率更高。

数据规范化: 消除变量的偏差值: 消除偏差值的方法有取对数, 做平方根，或者取倒数

数据进行分箱: 数值数据通过分组为箱会变得更加离散

从现有的变量中推出新的变量就是创建特征，它有助于揭示数据组的隐藏关系

特征选择是一个找到属性的最佳子集的过程，它更好地解释了目标变量与变量间的关系

行业知识：基于行业经验，选择那些对目标变量有更大影响的特征。

可视化：就像它的名字，可视化有助于使变量之间的关系更加直观，使变量选择过程更加便捷

统计参数: 我们也考虑P值、信息值和其他统计参数来选择正确的特征

PCA: 这种方法有助于在更低维的空间表现训练数据，同时也表现出数据的内在关系。这是一种降维技术.例如要素分析、降低方差、提高相关性、后向/前向特征选择和其他等

使用正确的机器学习算法是实现更高准确率的理想方法

机器学习算法主要靠参数，参数影响机器学习过程的结果. 调试参量的目标就是发现每个参数的最佳值来提高模型的准确性。要想调试这些参数，你就一定要深入理解参数的意义和它们对模型的影响，你可以通过一系列运行良好的模型来重复这一过程

通过结合多种弱模型的结果以产生更佳结果。可以通过很多方式实现

这种方法有助于我们形成更有概括性的关系,在一定程度上减小过拟合,可以从有限的数据中获取尽可能多的有效信息,在数据量较少时，更方便找到适合的模型参数 .

评论