卷积神经网络VGG

VGG是Oxford的Visual Geometry Group的组提出的,VGG的缩写也来自于这个组的名字。VGG网络探索了提升网络的深度对最终的图像识别准确率的重要性,同时在VGG中尝试使用小的卷积核来构建深层的卷积网络。VGG在当年的ILSVRC 2014上取得了第一的成绩,证明了增加网络的深度能够在一定程度上提高网络的性能。

发布博客 2022-09-23 20:56:45
999 次阅读
BERT知识蒸馏Distilled BiLSTM

Distilled BiLSTM是对于知识蒸馏较为一般性的实践,将BERT模型(Teacher)蒸馏到一个简单的BiLSTM模型(Student),蒸馏的目标函数中的蒸馏loss也是采用了对比logits结果的差异。虽然理论上较为简单,但是最终的结果是与与ELMo模型具有相同的效果,说明知识蒸馏的方法的有效性。

发布博客 2022-09-16 18:16:12
973 次阅读
知识蒸馏基本原理

知识蒸馏通过对Teacher模型的压缩得到效果接近的Student模型,由于网络模型复杂度的减小,使得压缩后的Student模型的性能得到较大提升。

发布博客 2022-09-12 18:44:15
1543 次阅读
BERT模型解析

Bidirectional Encoder Representation from Transformers(BERT),即双向Transformer的Encoder表示,是2018年提出的一种基于上下文的预训练模型,通过大量语料学习到每个词的一般性embedding形式,学习到与上下文无关的语义向量表示,以此实现对多义词的建模。

发布博客 2022-09-01 19:26:23
1313 次阅读
卷积神经网络AlexNet

AlexNet卷积神经网络在CNN的发展过程中起着非常重要的作用,AlexNet是由加拿大多伦多大学的Alex Krizhevsky等人提出。在当年的ImageNet图像分类竞赛,取得了大赛的冠军并且效果大大好于第二名。如今回过来看,AlexNet的主要贡献是ReLU、Dropout、Max-Pooling,这些技术基本上在AlexNet之后的大多数主流架构中都能见到。

发布博客 2022-08-27 22:11:31
1346 次阅读
Transformer的基本原理

Google于2017年提出了解决Seq2Seq问题的Transformer模型,用Self-Attention的结构完全代替了传统的基于RNN的建模方法,同时在Transformer的模块中加入了词序的信息,最终在翻译任务上取得了比RNN更好的成绩。

发布博客 2022-08-27 16:46:03
1902 次阅读
生成对抗网络GAN

生成对抗网络GAN中通过生成网络G和判别网络D之间的“生成”和“对抗”过程,通过多次的迭代,最终达到平衡,使得训练出来的生成网络G能够生成“以假乱真”的数据,判别网络D不能将其从真实数据中区分开。

发布博客 2022-05-06 19:28:36
1042 次阅读
Facebook搜索的向量搜索

在召回模型的训练中,为了使得模型具有更好的鲁棒性,模型的样本尤为重要,相比而言,负样本更重要,通常,选择曝光且点击的样本作为负样本,随机选择样本作为负样本,同时,在训练过程中适当插入难负样本对于模型的鲁棒性有很好的作用。

发布博客 2022-04-23 17:41:50
1461 次阅读
GPT:Generative Pre-Training

GPT模型中通过采用Transformer结构中的Decoder作为语义模型的提取模型,可以显著提升文本语义的学习能力,同时两阶段的学习方法对于可以方便的将GPT应用在不同的任务中。

发布博客 2022-04-23 16:15:18
1051 次阅读
深度兴趣网络DIN

鉴于单一的固定向量不能表达用户兴趣的多样性,在深度兴趣网络DIN中使用了注意力机制捕获目标item与用户的行为序列中的item之间的相关性,得到在特定目标item的场景下的用户兴趣表示,从而提升对用户及时兴趣的捕捉能力。

发布博客 2022-04-23 10:44:38
1144 次阅读
文本生成seq2seq框架

与原始的Encoder-Decoder模型相比,加入Attention机制后最大的区别就是原始的Encoder将所有输入信息都编码进一个固定长度的向量之中。而加入Attention后,Encoder将输入编码成一个向量的序列,在Decoder的时候,每一步都会选择性的从向量序列中挑选一个集合进行进一步处理。这样,在产生每一个输出的时候,都能够做到充分利用输入序列携带的信息。

发布博客 2022-04-13 02:28:15
1080 次阅读
Multi-gate Mixture-of-Experts(MMoE)

通过结合门控网络和混合专家组成的MMoE模型,从实验的结论上来看,能够利用同一个模型对多个任务同时建模,同时能够对多个任务之间的联系和区别建模。

发布博客 2022-04-07 12:32:31
1344 次阅读
Embeddings from Language Models(ELMo)

ELMo通过大量语料训练出与上下文无关的一系列向量表示,不同层级的向量带有不同的语言,包括了词法信息,句法信息以及语义信息,通过不同的组合,并在具体的上下文环境中微调得到带有上下文的词向量表示,并能够应用到具体的下游任务中。

发布博客 2022-04-05 17:55:25
1177 次阅读
Neural Factorization Machines(NFM)

Neural Factorization Machines(NFM)是在2017年提出的用于求解CTR问题的算法模型,在Wide & Deep模型被提出后,相继出现了一些改进的算法模型,如DeepFM和DCN可以看成是对于Wide & Deep模型中Wide部分的改进,而此处的NFM模型则是可以看作是对Deep部分的改进。

发布博客 2022-04-05 15:32:17
1146 次阅读
Deep Learning Recommendation Model(DLRM)

DLRM(Deep Learning Recommendation Model)是Facebook在2019年提出的用于处理CTR问题的算法模型,与传统的CTR模型并没有太大的差别,文章本身更注重的是工业界对于深度模型的落地,在文中介绍了很多深度学习在实际落地过程中的细节,包括如何高效训练。

发布博客 2022-04-03 23:35:07
1413 次阅读