卷积神经网络NIN

在传统的CNN网络中,使用卷积(Convolution)操作来提取感受野中的特征,卷积操作是由一个线性变换与非线性激活函数组成,为了能增强CNN网络的局部辨识能力,2014年Network In Network的结构被提出,其使用多层感知机的网络结构替换感受野上的线形变换和非线性激活函数,以此来增强模型的局部建模能力。

2022-09-24 13:00:01
阅读:29

卷积神经网络VGG

VGG是Oxford的Visual Geometry Group的组提出的,VGG的缩写也来自于这个组的名字。VGG网络探索了提升网络的深度对最终的图像识别准确率的重要性,同时在VGG中尝试使用小的卷积核来构建深层的卷积网络。VGG在当年的ILSVRC 2014上取得了第一的成绩,证明了增加网络的深度能够在一定程度上提高网络的性能。

2022-09-23 20:56:45
阅读:32

BERT知识蒸馏Distilled BiLSTM

Distilled BiLSTM是对于知识蒸馏较为一般性的实践,将BERT模型(Teacher)蒸馏到一个简单的BiLSTM模型(Student),蒸馏的目标函数中的蒸馏loss也是采用了对比logits结果的差异。虽然理论上较为简单,但是最终的结果是与与ELMo模型具有相同的效果,说明知识蒸馏的方法的有效性。

2022-09-16 18:16:12
阅读:50

知识蒸馏基本原理

知识蒸馏通过对Teacher模型的压缩得到效果接近的Student模型,由于网络模型复杂度的减小,使得压缩后的Student模型的性能得到较大提升。

2022-09-12 18:44:15
阅读:54

BERT模型解析

Bidirectional Encoder Representation from Transformers(BERT),即双向Transformer的Encoder表示,是2018年提出的一种基于上下文的预训练模型,通过大量语料学习到每个词的一般性embedding形式,学习到与上下文无关的语义向量表示,以此实现对多义词的建模。

2022-09-01 19:26:23
阅读:62

卷积神经网络AlexNet

AlexNet卷积神经网络在CNN的发展过程中起着非常重要的作用,AlexNet是由加拿大多伦多大学的Alex Krizhevsky等人提出。在当年的ImageNet图像分类竞赛,取得了大赛的冠军并且效果大大好于第二名。如今回过来看,AlexNet的主要贡献是ReLU、Dropout、Max-Pooling,这些技术基本上在AlexNet之后的大多数主流架构中都能见到。

2022-08-27 22:11:31
阅读:89

Transformer的基本原理

Google于2017年提出了解决Seq2Seq问题的Transformer模型,用Self-Attention的结构完全代替了传统的基于RNN的建模方法,同时在Transformer的模块中加入了词序的信息,最终在翻译任务上取得了比RNN更好的成绩。

2022-08-27 16:46:03
阅读:114

生成对抗网络GAN

生成对抗网络GAN中通过生成网络G和判别网络D之间的“生成”和“对抗”过程,通过多次的迭代,最终达到平衡,使得训练出来的生成网络G能够生成“以假乱真”的数据,判别网络D不能将其从真实数据中区分开。

2022-05-06 19:28:36
阅读:98

Facebook搜索的向量搜索

在召回模型的训练中,为了使得模型具有更好的鲁棒性,模型的样本尤为重要,相比而言,负样本更重要,通常,选择曝光且点击的样本作为负样本,随机选择样本作为负样本,同时,在训练过程中适当插入难负样本对于模型的鲁棒性有很好的作用。

2022-04-23 17:41:50
阅读:253

GPT:Generative Pre-Training

GPT模型中通过采用Transformer结构中的Decoder作为语义模型的提取模型,可以显著提升文本语义的学习能力,同时两阶段的学习方法对于可以方便的将GPT应用在不同的任务中。

2022-04-23 16:15:18
阅读:228