Other Thoughts
Published:
Some of Other Thoughts
NLP 模型处理方法变化
- N-gram: 计算相连词汇的概率,但不知语意
- word2vec:用中心词预测来学习语意,但是窗口固定,只能看n-1个词汇
- RNN:循环网络,能处理任意长度,但是长时记忆容易忘,而且必须顺序执行,很慢
- LSTM:解决了长时记忆,但还是顺序执行
- Attention:并行,且能看全部
LSTM
Link: 9.2. 长短期记忆网络(LSTM) — 动手学深度学习 2.0.0 documentation (d2l.ai)
H是短时记忆,C是长时记忆
用sigmod来决定是不是计算重要性,来遗忘或者记忆
用tanh来得到embedding
