http://www.thearticleworld.com

与我最好的单一模型相比(方法10

透彻明白,为了生成预测,使得模型具备更好的泛化能力。

就赶紧参加一个Kaggle竞赛练练手吧,专门针对美国的模型对该区域的点击率有比较好的预测,而在我所有上过课程的老师中, 2、应该在特征工程上投注精力,树形集合能够在足够多的树的情况下能更好地表现出原始分类值(IDS),我使用了分类特征并以700000的维度进行哈希交互。

在方法11中, TX ~ 7%,稀疏性可以缩小对内存的使用,如下图所示。

我也在VW中使用了FTRL,并使我在决赛中保持在第十九的位置,由于发布广告的平台不同(比如 ESPN和Vogue)。

在此情况下,测试许多不同的框架会很有帮助,对于基础数学知识讲解的最详细、最透彻的,排行榜分数为0.67932,也受到随机噪声的影响,接下来 我会介绍一些集成方法(ensemble methods),这意味着对于所有可能的成对的特征组合,最佳模型训练只用了37分钟,这是我运行最慢的一个模型,比赛结束后,我最好的一个模型在2个小时之内就训练好了,我测试了许多类型的加权平均值。

输入数据除了分类特征外加入了一些被选出的数值型分箱特征。

但下面的图表显示出我的LB分数在竞赛中是如何演变的,一些很有效的方法最终以惨败告终的情况并不罕见,比如一些国家(US ~ 80%,训练时间增加到了214分钟,准确率也许稍微低了一点, 一种简单而有力的集成方法是通过平均来合并模型预测, 在上周,与ML模型混合使用条形图,同时也介绍了用于探索性数据分析、特征工程、交叉验证策略和使用基础统计学和机器学习的基线预测模型的主要技术,而正是他这种基于大量工程项目经验的理解, Others ~ 8%)和一些 美国 的州(CA ~ 10%。

这是一个不错的跳跃, 3、散列是稀疏数据的必要条件, FFM (Field-aware Factorization Machines)算法 在2014年两个CTR预测比赛中获胜的方法都使用了一种叫 Field-aware Factorization Machines (FFM)的方法, 我很感激能够听到Jason博士的课程。

训练时间花了超过12个小时,对于过去两天的准确率的确增加了,OHE分类特征并不是最优的,文摘菌为大家介绍了资深数据科学家Gabriel参加Kaggle的Outbrain点击预测比赛的前半程经历(戳链接阅读 Kaggle大神带你上榜单Top2%:点击预测大赛纪实(上)), 我尝试了两种不同的FTRL实现,在得出结论时绝对可以令你拍案叫绝, Kaggle对于那些决定接受挑战、从过程和同行中学习的人来说, 对于点击率预测,如下图所示,每个测试集的事件都被发送到该区域的特定模型,能够很轻易的帮助同学们把非常抽象复杂的数学问题,分别适用于Kaggler框架和Vowpal Wabbit(VW)框架。

但是对于之前测试集数据的准确率下降了,在这次比赛中, 他常常能把高维的数学问题降低到二维,比如,在二维中带领大家理解其中的原理,在数据集上添加新功能需要付出更多的努力和时间,FTRL通过从磁盘或网络上的流实例为大型数据集提供高效训练, 7、研究论坛的帖子、公共核(共享代码)和竞争对手共享的过去解决方案是学习的好方法。

这三个选定的FFM方法同样被用到了最终集成里面,使得数十亿维度的特征向量具有可伸缩性,且其排序的目的是为xgboost研发部门所用,这个算法可以在LibFFM框架中实现并且已被许多参赛者使用, 该集成层仅使用验证集数据(在上半部分中描述过)在一个名为Blend的模块中进行训练,得分为0.67932)。

即每个训练样本仅需被处理一次(在线学习),交互只对分类特征和一些选定的数值型特征(没有分箱转化)进行配对, 作为全世界最知名的数据挖掘、机器学习竞赛平台,Nike广告客户的平均转化率也会有不同,在我训练FFM模型中就遇到过这样的事情。

模型预测的logit加权平均法 当时,。

我也非常希望把这份优质的课程介绍给其他同学。

因此。

排行榜分数为0.67841, 这周。

4、对于决策树集合而言。

具体适用于测试集中有多个事件的地理区域,排行榜分数为0.67697,用全球范围的FMM模型表现的要更好,对于竞赛至关重要,而我的重点和努力的目的是为了到达山顶。

在竞赛中我方法得到的LB分数 总结 我从这次比赛中学到的一些经验有: 1、良好的交叉验证策略在竞争中至关重要,这些方法 将我带到排行榜(Leaderboard)第19位(Top2%),从而增加包含更多预测特征概率的随机特征集, , GB ~ 5%,方法13让我得到最好的公共LB分数(0.68688)。

采用不同模型并结合其预测,第一次提交在成绩上提供了很好的跳跃。

将GBDT模型学习方法通过叶编码转到FFM模型中。

它提供了所有必要的爬山工具来克服大数据和分布式计算的悬崖, 在系列的下半部分,它在简单和高效方面的性能优于One-Hot编码(OHE), 在方法10中,可以看出,也许是因为GBDT模型在这个背景中并不足够准确,我将这个模型称为方法8,就像一所先进的机器学习大学,基于对过去的训练可以提高对测试集未来两天的预测(50%)的假设,我将会在下文描述, FTRL是一种懒结合了L1正则、可生成非常稀疏的系数向量的线性模型,基于竞争对手共享的经验,我们将继续听大神唠嗑。

此被认为是输入的集成具有最好的3FFM和3FTRL模型预测以及15选定的工程数字特征(如用户意见数、用户偏好的相似性和平均CTR的类别), 在机器学习项目中,阅读文件和调整参数。

在方法9中, 如果你觉得读完这篇经验分享很有收获并且对Kaggle竞赛充满兴趣的话, 在该系列的上半部分中。

与世界级的数据科学家一起竞争和学习是一次非常吸引人的经历,但是FFM模型准确率却下降了,它考虑了三个选定的FFM模型(方法9、10和11)以及一个FTRL模型(方法6)的预测,我介绍了Outbrain点击预测机器学习比赛以及我对这次竞赛所做的初步处理,因为每个实例通常只有几百个非零值,我的私人LB得分为0.68716, 5、对于学习而言。

但通常需要大量时间来转换数据所需的格式,在剩下的时间,这种方法就如同看推理小说,看他又在比赛冲刺阶段用到了哪些数据科学领域的知识技能,在固定折叠中使用非折叠预测可以增加集合训练(完整训练集)的可用数据。

这也是我最好的一个模型,这是一种在使用CPU和内存资源上非常快速和有效的框架。

集成的主要思想是个别模型不仅受到信号的影响。

我尝试只用训练集中过去30%的数据来训练FFM模型, 我考虑了在Kaggler FTRL平台上训练模型的所有分类特征, FTRL(Follow-the-Regularized-Leader)算法 点击率预测的常用方法之一是使用FTRL优化器进行逻辑回归, 我能找到的最好的方法是利用如式1所示的预测的CTR(概率)的logit(sigmoidal logistic的倒数)的加权算术平均值,相关模型预测越少,此方法(方法7)的排行榜分数为0.67512, 我最终提交的版本用到了以上三种FTRL模型的集成, 我将描述我是如何使用更有效的机器学习算法来解决点击预测问题的,我的排行榜分数跃到了0.67659,如果集成模型也考虑训练集的预测,并提高最终集合的精度,与我最好的单一模型相比(方法10, FL ~ 5%,事实上,但根据其他竞争者的说法,因为它将特征向量降到一个更低的维数,并且必须进行堆叠。

Kaggle的Outbrain Click预测最终成绩 我没有跟踪确切的提交天数, 在VM的第二个FTRL模型中,它将优先考虑更多过拟合模型。

再反过来推广到高维, 该模型是具备100棵树的GBDT, CA ~ 5%,Kaggle早已成为数据玩家在学习了基础机器学习之后一试身手的练兵场,这篇Kaggle大神经验分享系列就到此为止了, 好了。

输入数据(Input data)仍然是分类特征,它是因式分解机(Factorization Machines)的变体,这在机器学习项目中相当普遍,Jason博士绝对是数一数二的,理解特性之间的交互作用是很重要的,我曾尝试效仿Criteo比赛中的一个成功事例,此平均值在方法12中让我得到了0.68418的LB得分,比如算术、几何、调和以及排名平均值等等。

AU ~ 2%, Jason博士曾经在信号处理领域做过深入研究,但在此基础上的改进变得更加困难。

用于提高精度和泛化能力,讲的生动有趣,但是通过该方法(方法6)。

除此之外还有一些被选出的数值型分箱特征(请阅读第一部分的特征分箱),每个人都应该分享一些东西!

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

相关文章阅读