Felix的个人博客

BERT模型解析

Bidirectional Encoder Representation from Transformers（BERT），即双向Transformer的Encoder表示，是2018年提出的一种基于上下文的预训练模型，通过大量语料学习到每个词的一般性embedding形式，学习到与上下文无关的语义向量表示，以此实现对多义词的建模。

发布博客 2022-09-01 19:26:23

3024 次阅读

卷积神经网络AlexNet

AlexNet卷积神经网络在CNN的发展过程中起着非常重要的作用，AlexNet是由加拿大多伦多大学的Alex Krizhevsky等人提出。在当年的ImageNet图像分类竞赛，取得了大赛的冠军并且效果大大好于第二名。如今回过来看，AlexNet的主要贡献是ReLU、Dropout、Max-Pooling，这些技术基本上在AlexNet之后的大多数主流架构中都能见到。

发布博客 2022-08-27 22:11:31

2382 次阅读

Transformer的基本原理

Google于2017年提出了解决Seq2Seq问题的Transformer模型，用Self-Attention的结构完全代替了传统的基于RNN的建模方法，同时在Transformer的模块中加入了词序的信息，最终在翻译任务上取得了比RNN更好的成绩。

发布博客 2022-08-27 16:46:03

3921 次阅读

生成对抗网络GAN

生成对抗网络GAN中通过生成网络G和判别网络D之间的“生成”和“对抗”过程，通过多次的迭代，最终达到平衡，使得训练出来的生成网络G能够生成“以假乱真”的数据，判别网络D不能将其从真实数据中区分开。

发布博客 2022-05-06 19:28:36

2002 次阅读

Facebook搜索的向量搜索

在召回模型的训练中，为了使得模型具有更好的鲁棒性，模型的样本尤为重要，相比而言，负样本更重要，通常，选择曝光且点击的样本作为负样本，随机选择样本作为负样本，同时，在训练过程中适当插入难负样本对于模型的鲁棒性有很好的作用。

发布博客 2022-04-23 17:41:50

2746 次阅读

GPT：Generative Pre-Training

GPT模型中通过采用Transformer结构中的Decoder作为语义模型的提取模型，可以显著提升文本语义的学习能力，同时两阶段的学习方法对于可以方便的将GPT应用在不同的任务中。

发布博客 2022-04-23 16:15:18

1988 次阅读

深度兴趣网络DIN

鉴于单一的固定向量不能表达用户兴趣的多样性，在深度兴趣网络DIN中使用了注意力机制捕获目标item与用户的行为序列中的item之间的相关性，得到在特定目标item的场景下的用户兴趣表示，从而提升对用户及时兴趣的捕捉能力。

发布博客 2022-04-23 10:44:38

2122 次阅读

文本生成seq2seq框架

与原始的Encoder-Decoder模型相比，加入Attention机制后最大的区别就是原始的Encoder将所有输入信息都编码进一个固定长度的向量之中。而加入Attention后，Encoder将输入编码成一个向量的序列，在Decoder的时候，每一步都会选择性的从向量序列中挑选一个集合进行进一步处理。这样，在产生每一个输出的时候，都能够做到充分利用输入序列携带的信息。

发布博客 2022-04-13 02:28:15

2072 次阅读

Multi-gate Mixture-of-Experts（MMoE）

通过结合门控网络和混合专家组成的MMoE模型，从实验的结论上来看，能够利用同一个模型对多个任务同时建模，同时能够对多个任务之间的联系和区别建模。

发布博客 2022-04-07 12:32:31

2956 次阅读

Embeddings from Language Models（ELMo）

ELMo通过大量语料训练出与上下文无关的一系列向量表示，不同层级的向量带有不同的语言，包括了词法信息，句法信息以及语义信息，通过不同的组合，并在具体的上下文环境中微调得到带有上下文的词向量表示，并能够应用到具体的下游任务中。

发布博客 2022-04-05 17:55:25

2117 次阅读

Neural Factorization Machines（NFM）

Neural Factorization Machines（NFM）是在2017年提出的用于求解CTR问题的算法模型，在Wide & Deep模型被提出后，相继出现了一些改进的算法模型，如DeepFM和DCN可以看成是对于Wide & Deep模型中Wide部分的改进，而此处的NFM模型则是可以看作是对Deep部分的改进。

发布博客 2022-04-05 15:32:17

2141 次阅读

Deep Learning Recommendation Model（DLRM）

DLRM（Deep Learning Recommendation Model）是Facebook在2019年提出的用于处理CTR问题的算法模型，与传统的CTR模型并没有太大的差别，文章本身更注重的是工业界对于深度模型的落地，在文中介绍了很多深度学习在实际落地过程中的细节，包括如何高效训练。

发布博客 2022-04-03 23:35:07

2715 次阅读

DeepFM

在DeepFM网络中，通过将Wide & Deep模型中的Wide侧模型替换成FM模型，实现自动的交叉特征选择，从而实现无需人工参与就可以通过模型进行端到端的学习，自动学习到各种层级的交叉特征。

发布博客 2022-04-03 00:26:25

2084 次阅读

Deep&Cross Network（DCN）

Deep&Cross Network（DCN）是由Google于2017年提出的用于计算CTR问题的方法，是对Wide&Deep[2]模型的进一步改进。线性模型无法学习到特征的交叉属性，需要大量的人工特征工程的介入，深度网络对于交叉特征的学习有着天然的优势，在Wide&Deep模型中，Deep侧已经是一个DNN模型，而Wide侧是一个线性模型LR，无法有效的学习到交叉特征。

发布博客 2022-03-30 21:41:42

2985 次阅读

人脸识别系统FaceNet原理

Google在2015年提出了人脸识别系统FaceNet，可以直接将人脸图像映射到欧式空间中，空间中的距离直接代表了人脸的相似度。

发布博客 2022-03-29 09:56:46

2305 次阅读

Felix的专栏 Keep your eyes open and your feet moving forward. You'll find what you need.

热门文章