NLP

FastChat 是一个开源的用于训练，评估以及部署大模型的框架，本文聚焦在模型的推理部分，从源码的角度介绍其基本的工作原理。

利用 FastChat 框架部署一个完整的模型服务主要分为三个部分，分别为： Controller ， Server 以及多个 Worker 。

发布博客 2023-10-22 21:11:34

6387 次阅读

在TinyBERT中，精简了BERT模型的大小，设计了三种层的蒸馏，分别为transformer-layer，embedding-layer以及prediction-layer。同时，为了能够对以上三层的蒸馏，文中设计了两阶段的训练过程，分别与BERT的训练过程对应，即预训练和fine-tunning。

发布博客 2022-11-08 23:48:15

3007 次阅读

BERT知识蒸馏Distilled BiLSTM

Distilled BiLSTM是对于知识蒸馏较为一般性的实践，将BERT模型（Teacher）蒸馏到一个简单的BiLSTM模型（Student），蒸馏的目标函数中的蒸馏loss也是采用了对比logits结果的差异。虽然理论上较为简单，但是最终的结果是与与ELMo模型具有相同的效果，说明知识蒸馏的方法的有效性。

发布博客 2022-09-16 18:16:12

1986 次阅读

BERT模型解析

Bidirectional Encoder Representation from Transformers（BERT），即双向Transformer的Encoder表示，是2018年提出的一种基于上下文的预训练模型，通过大量语料学习到每个词的一般性embedding形式，学习到与上下文无关的语义向量表示，以此实现对多义词的建模。

发布博客 2022-09-01 19:26:23

3244 次阅读

Transformer的基本原理

Google于2017年提出了解决Seq2Seq问题的Transformer模型，用Self-Attention的结构完全代替了传统的基于RNN的建模方法，同时在Transformer的模块中加入了词序的信息，最终在翻译任务上取得了比RNN更好的成绩。

发布博客 2022-08-27 16:46:03

4229 次阅读

GPT：Generative Pre-Training

GPT模型中通过采用Transformer结构中的Decoder作为语义模型的提取模型，可以显著提升文本语义的学习能力，同时两阶段的学习方法对于可以方便的将GPT应用在不同的任务中。

发布博客 2022-04-23 16:15:18

2055 次阅读

文本生成seq2seq框架

与原始的Encoder-Decoder模型相比，加入Attention机制后最大的区别就是原始的Encoder将所有输入信息都编码进一个固定长度的向量之中。而加入Attention后，Encoder将输入编码成一个向量的序列，在Decoder的时候，每一步都会选择性的从向量序列中挑选一个集合进行进一步处理。这样，在产生每一个输出的时候，都能够做到充分利用输入序列携带的信息。

发布博客 2022-04-13 02:28:15

2130 次阅读

Embeddings from Language Models（ELMo）

ELMo通过大量语料训练出与上下文无关的一系列向量表示，不同层级的向量带有不同的语言，包括了词法信息，句法信息以及语义信息，通过不同的组合，并在具体的上下文环境中微调得到带有上下文的词向量表示，并能够应用到具体的下游任务中。

发布博客 2022-04-05 17:55:25

2181 次阅读

神经网络语言模型

什么是语言模型？通俗的来讲是判断一句话是否符合人说话的模型，神经网络语言模型是在统计语言模型的基础上，通过神经网络模型对句子的概率分布建模的方法。

发布博客 2021-10-10 22:47:40

3820 次阅读

文本分类fastText算法解析

fastText算法原理解析

发布博客 2020-12-05 17:34:20

2488 次阅读

CNN在文本建模中的应用TextCNN

CNN在文本建模中的应用

发布博客 2020-12-05 12:23:09

2923 次阅读

长短期记忆网络LSTM

循环神经网络RNN存在长距离依赖的问题，长短期记忆（Long Short-Term Memory，LSTM）网络便是为了解决RNN中存在的梯度爆炸的问题而提出。在LSTM网络中，主要依靠引入“门”机制来控制信息的传播。

发布博客 2020-09-20 23:56:48

2871 次阅读

循环神经网络RNN

循环神经网络（Recurrent Neural Networks, RNN）主要用于处理时序数据，如文章，视频等

发布博客 2020-09-17 19:53:36

3069 次阅读

深度语义模型DSSM

深度语义模型（Deep Structured Sematic models, DSSM）是在2013年由微软的研究人员提出，主要解决的是在搜索的过程中，对于传统的依靠关键词匹配的方法的弊端（语义上的相似）提出的潜在语义模型。DSSM算法在实际工作中也被证明是卓有成效的算法，不仅在搜索中得到广泛的应用，同时也被使用在推荐系统的召回中。

发布博客 2020-09-15 23:49:06

2724 次阅读

Attention-Based BiLSTM

Attention-Based BiLSTM结合双向的LSTM（Bidirectional LSTM）以及Attention机制处理文本分类的相关问题，通过attention机制，该方法可以聚焦到最重要的词，从而捕获到句子中最重要的语义信息。

发布博客 2020-08-10 15:49:51

2584 次阅读

NLP

文章分类