农企新闻网

IJCAI 2018广告算法大赛落下帷幕,Top 3 方案出炉

发布者:高悦东
导读雷锋网(大众号:雷锋网)AI 研习社音讯,IJCAI-18 阿里妈妈搜索广告转化预测竞赛近日落下帷幕,本次竞赛为阿里妈妈与 IJCAI2018、天池平台结合举行,总奖池 37000 美元,共吸引到 5204 支队伍参赛。此次竞赛提供了广告点击相关的用户(user)、广告商品(ad)、检索词(query)、上下文内容(context)、商店(shop)等信息,参赛选手需求在这些条件下预测广告发生购置

雷锋网 (大众号:雷锋网) AI 研习社音讯,IJCAI-18 阿里妈妈搜索广告转化预测竞赛近日落下帷幕,本次竞赛为阿里妈妈与 IJCAI2018、天池平台结合举行,总奖池 37000 美元,共吸引到 5204 支队伍参赛。

此次竞赛提供了广告点击相关的用户(user)、广告商品(ad)、检索词(query)、上下文内容(context)、商店(shop)等信息,参赛选手需求在这些条件下预测广告发生购置行为的概率(pCVR),方式化定义为:

pCVR=P(conversion=1 | query, user, ad, context, shop)

主办方希望在思索到用户行为偏好、商品长尾散布、热点事情营销等一系列要素的前提下,应用海量买卖数据精确高效地预测用户购置意向。此次竞赛设置了如下两类应战:

  • 日常的转化率预估

  • 特殊日期的转化率预估

目前,竞赛后果曾经出炉。雷锋网看到,来自京东尚科,天池代号为「plants」的选手取得冠军,IJCAI-17 冠军团队取得者周耀、郭鹏博以及李智取得季军,浙江工业大学陈波成、中南大学罗宾理和天津大学吴昊组成的「躺分队」取得第三名,作为前三名中独一一支先生团队,他们的竞赛方案也曾经出炉。

在方案中,他们次要讨论了异常日期处置成绩,次要思绪如下:

难点与应战

这次竞赛的难点有二,一是如何在正常流量数据中,找到合适表达促销/渐变的特征;二是如何在模型选择上,找到尽快落地于工业界的轻量级框架。

剖析数据 

训练数据为 8 月 31 日- 9 月 7 日上午,需求预测 9 月 7 日下午的用户点击率,8 月 31 日-9 月 5 日转化率波动,但 6 日下降,7 日猛增,揣测 7 日为大促节日。

关于异常日期处置而言,仅仅思索前六天的转化率和第七天的高转化率是不太合适的,如何处置第七天的转化率异常是这道题需求处理的一大痛点。

四种训练集划分

针对此成绩,他们依据对数据的剖析、特征的构建、以及对实践场景的考虑,提出了四种训练集划分:

1. 全量统计特征提取第七天特征——all-to-7 

2. 全量数据的抽样统计——sample 

3. 独自第七天的特征提取——only7 

4. 全量数据——all

结构四种训练集划分的目的如下: 

1)结构出训练集中的差别性,方便模型交融 

2)在每组训练集中,对高维特征停止选择,选择后停止特征分组

特征工程:

首先执行如下三步操作:

  1. 上述根底特征分列

  2. 去掉取值变化小的列

  3. 去掉缺失值过多的列

IJCAI 2018广告算法大赛落下帷幕,Top 3 方案出炉

剖析进程如下:

IJCAI 2018广告算法大赛落下帷幕,Top 3 方案出炉

特征工程总览如下:

IJCAI 2018广告算法大赛落下帷幕,Top 3 方案出炉

特征选择

特征选择的办法有如下2点:

1)罗宾理同窗在GitHub的开源代码,参照糖尿病精准医疗大赛的特征选择,地址如下:

https://github.com/luoda888/tianchi-diabetes-top12/blob/master/README.md

以及应用贪婪、模仿退火算法,结构出多组特征,适用于组内模型交融。 

2)应用 Std/Mean 训练集测试集散布分歧的思想,停止特征选择,保证线上线下特征的分歧性。

模型选择及交融

分组后对不同的模型停止训练,结构组内特征的差别性,模型的差别性 。

他们选择的办法有 Xgboost/Lightgbm/GBDT+LR/Catboost/NN 模型 

在 NN 模型里,运用对多个模型求 Average 的办法,运用的模型如下: 

  • DeepFM/DeepFFM (原始 ID 特征放入穿插层) 与 Lightgbm 线下差距 0.0001 (千分点) 

  • AFFM/AFM (对原始 ID 特征参加 Attention) 与 Lightgbm 线下差距 0.00001 (万分点) 

  • FNN/FFNN/NFM (将特征工程后放入网络构造) 与 Lightgbm 线下差距 0.0001 (千分点) 

将上述模型按对该组训练集的数据敏理性训练后加权,失掉该组 NN 的后果 Ans_nn。每组特征都可以放入上述五个模型中,即组内选择出的特征数 n 乘以组内模型数 m 即为该组模型的数量 = n*m。依据模型间的相关性,分配不同的权重停止加权交融,失掉该组的答案 Ans_k。

接上去,在组间训练集中,对每组的 Ans_k 停止加权交融失掉 Ans_final,然后应用前六天的上下午,每小时均值的变化趋向,线下预测出线上能够的均值,为 0.036287135,最初对 Ans_final 做 Logit 逆变换。

模型交融框架如下:

IJCAI 2018广告算法大赛落下帷幕,Top 3 方案出炉

比照赛的总结有如下三点:

1)对促销时期应思索变化特征

2)合理的特征提取框架是致胜之道

3)多模型的交融提升精度较多

方案概况: https://github.com/luoda888/2018-IJCAI-top3

竞赛官网: https://tianchi.aliyun.com/co不知道从何时开始,个人信用渗透到生活的方方面面。图书、数码产品免押金借用,办理签证无需银行流水证明,甚至租车住酒店都不需要交付押金……mpetition/introduction.htm?spm=5176.11163580.0.0.4f5564f0sOZqnA&raceId=231647

雷锋网 AI 研习社编辑整理。