盘算广告中常用的几种方法
发布时间:2023-11-06 00:41 作者:Bsport体育在线官网 点击: 【 字体:大 中 小 】
1.CTR预估CTR预估是盘算广告中最焦点的算法之一,那么CTR预估是指什么呢?简朴来说,CTR预估是对每次广告的点击情况做出预测,预测用户是点击还是不点击。详细界说可以参考 CTR. CTR预估和许多因素相关,好比历史点击率、广告位置、时间、用户等。
CTR预估模型就是综合思量种种因素、特征,在大量历史数据上训练获得的模型。CTR预估的训练样本一般从历史log、离线特征库获得。样本标签相对容易,用户点击标志为1,没有点击标志为0. 特征则会思量许多,例如用户的人口学特征、广告自身特征、广告展示特征等。
这些特征中会用到许多种别特征,例如用户所属职业、广告展示的IP地址等。一般对于种别特征会采样One-Hot编码,例如职业有三种:学生、白领、工人,那么会会用一个长度为3的向量划分表现他们:[1, 0, 0]、[0, 1, 0]、[0, 0, 1]. 可以这样会使得特征维度扩展很大,同时特征会很是稀疏。
现在许多公司的广告特征库都是上亿级此外。2.DNN深度神经网络(DNN)近年来在图像、语音、自然语言等领域大放异彩,特别是在图像分类、语音识别、机械翻译方面DNN已经凌驾人,精度已经到达商业应用水平。不外,DNN在CTR预估这种场景的应用却仍在探索中。
图像、语言、自然语言领域的数据一般是一连的,局部之间存在某些结构。好比,图像的局部与其周围存在着精密的联系;语音和文字的前后存在强相关性。
可是CTR预估的数据如前面先容,是很是离散的,特征前后之间的关系许多是我们排列的效果,并非自己是相互联系的。3.EmbedingNeural Network是典型的一连值模型,而CTR预估的输入更多时候是离散特征,因此一个自然的想法就是如何将将离散特征转换为一连特征。
如果你对词向量模型熟悉的话,可以发现之间的共通点。在自然语言处置惩罚(NLP)中,为了将自然语言交给机械学习中的算法来处置惩罚,通常需要首先将语言数学化,词向量就是用来将语言中的词举行数学化的一种方式。一种最简朴的词向量方式是one-hot,但这么做不能很好的描画词之间的关系(例如相似性),另外数据规模会很是大,带来维度灾难。
因此Embeding的方法被提出,基本思路是将词都映射成一个牢固长度的向量(向量巨细远小于one-hot编码向量大些),向量中元素不再是只有一位是1,而是每一位都有值。将所有词向量放在一起就是一个词向量空间,这样就可以表达词之间的关系,同时到达降维的效果。既然Embeding可以将离散的词表告竣一连值的词向量,那么对于CTR中的种别特征也可以使用Embeding获得一连值向量,再和其他一连值特征组成NN的输入。
下图就是这种思路的表达。因此问题的关键就是接纳何种Embeding技术将离线特征转换到离线空间。3.1 FM Embeding Factorization Machine是近年来在推荐、CTR预估中常用的一种算法,该算法在LR的基础上思量交织项,如下面公式所示:FM在后半部门的交织项中为每个特征都分配一个特征向量V,这其实可以看作是一种Embeding的方法。
Dr.Zhang在文献[1]中提出一种使用FM获得特征的embeding向量并将其组合成dense real层作为DNN的输入的模型,FNN。FNN模型的详细设计如下:Dr.Zhang在模型中做了一个假设,就是每个category field只有一个值为1,也就是每个field是个one-hot表达向量。
field是指特征的种类,例如将特征occupation one-hot之后是三维向量,但这个向量都属于一个field,就是occupation。这样虽然离散化后的特征有几亿,可是category field一般是几十到几百。模型获得每个特征的Embeding向量后,将特征归纳到其属于field,获得向量z,z的巨细就是1+#fields * #embeding。
z是一个牢固长度的向量之后再在上面加入多个隐藏层最终获得FNN模型。Dr.Zhang在FNN模型的基础上又提出了下面的新模型PNN. PNN和FNN的主要差别在于除了获得z向量,还增加了一个p向量,即Product向量。Product向量由每个category field的feature vector做inner product 或则 outer product 获得,作者认为这样做有助于特征交织。
另外PNN中Embeding层不再由FM生成,可以在整个网络中训练获得。3.2 NN EmbedingGoogle团队最近提出Wide and Deep Model。在他们的模型中,Wide Models其实就是LR模型,输入原始的特征和一些交织组合特征;Deep Models通过Embeding层将稀疏的特征转换为浓密的特征,再使用DNN。
最后将两个模型Join获得整个大模型,他们认为模型具有memorization and generalization特性。Wide and Deep Model中原始特征既可以是category,也可以是continue,这样更切合一般的场景。
另外Embeding层是将每个category特征划分映射到embeding size的向量,如他们在TensorFlow代码中所示:deep_columns = [ tf.contrib.layers.embedding_column(workclass, dimension=8), tf.contrib.layers.embedding_column(education, dimension=8), tf.contrib.layers.embedding_column(gender, dimension=8),tf.contrib.layers.embedding_column(relationship, dimension=8),tf.contrib.layers.embedding_column(native_country, dimension=8),tf.contrib.layers.embedding_column(occupation, dimension=8), age, education_num, capital_gain, capital_loss, hours_per_week]4.联合图像现在许多在线广告都是图片形式的,文献[4]提出将图像也做为特征的输入。这样原始特征就分为两类,图像部门使用CNN,非图像部门使用NN处置惩罚。其实这篇文章并没有太多新颖的方法,只能说多了一种特征。对于非图像特征,作者直接使用全毗连神经网络,并没有使用Embeding。
5.CNNCNN用于提取局部特征,在图像、NLP都取得不错的效果,如果在CTR预估中使用却是个难题。我认为最大的难题时如何构建对一个样本构建如图像那样的矩阵,能够具有局部联系和结构。如果不能结构这样的矩阵,使用CNN是没有什么意思的。文献[5]是揭晓在CIKM2015的一篇漫笔,文章提出对使用CNN来举行CTR预估举行了实验。
一条广告展示(single ad impression)包罗:element = (user; query; ad, impression time, site category, device type, etc) 用户是否点击一个广告与用户的历史ad impression有关。这样,一个样本将会是(s, label) ,s由多条l组成(数目不定)作者提出CCPM模型处置惩罚这样的数据。
每个样本有n个element,对每个element使用embeding 获得定长为d的向量ei∈Rdei∈Rd,再结构成一个矩阵s∈Rd∗ns∈Rd∗n,获得s矩阵之后就可以套用CNN,后面的其实没有太多创新点。6.RNN思量搜索场景下的CTR预估,如果思量历史信息,如可以将一个用户的历史ad impression组成一个时间序列。
RNN很是适适时间序列的场景,如语言建模等。这篇 揭晓在AAAI2014将RNN模型引入CTR预估。
作者首先在数据集上验证了用户的点击行为与之前的ad impression历史有关联:如果用户在之前的impression很快脱离广告页面,那么将会在接下来一段时间内不会点击类似的广告。如果用户最近有过与广告相关的查询,那么接下来点击相关广告的可能性会大幅提升。前面的两种行为还可能随着距离时间的增加而不是那么相关。当前关联不止这些,而且人工难以描画,需要模型来自动提取。
RNN模型对此类问题很是适用,作者的主要事情是将数据集结构成适合RNN的输入(即对用户的历史ad impression凭据时间排序),对模型自己并没有革新。参考文献1.Deep Learning over Multi-field Categorical Data – A Case Study on User Response Prediction2.Product-based Neural Networks for User Response Prediction3.Wide & Deep Learning for Recommender Systems4.Deep CTR Prediction in Display Advertising5.A Convolutional Click Prediction Model最后,给大家推荐一个我平时在用的机械学习交流社区——“八斗问答”(微信小法式搜索)。围绕深度学习、机械学习等主题展开,有许多高校教授、博士生、工程师入驻,免费在线解答疑惑。
本文关键词:盘算,广告,中常,Bsport体育娱乐官网入口,用的,几种,方法,1.CTR,预估,CTR
本文来源:Bsport体育娱乐官网入口-www.mgzshls.com

猜你喜欢

题南峰褚道士


Switch恋爱养成大作《记忆之歌》跳票 第一季度发售


“Bsport体育娱乐官网入口”《暗黑3》PTR2.5补丁远古洪荒装备改版被吐槽没卵用


《海之号角:神秘海怪》今日正式登陆Switch平台


00后组合“龙拳小子”踢馆上海电影节


FPX成功晋级S赛 RNG和TES争夺第二张门票


Bsport体育官方网站|海禄牧业署理入口的3800余头澳牛顺利抵达天津港


奉和常舍人晚秋集贤院即事寄徐薛二侍郎


Bsport体育在线官网_《魔女与百骑兵2》曝中文宣传片 画风Q萌动作精彩


RPG新作《YIIK》实机演示视频公布 确认登陆全平台
