Other Thoughts
Published:
Some of Other Thoughts
Agentic RL 思考
感觉RL只是在规范LLM的回答方式,并没有增强LLM的智能
- GRPO就是只增强了比均值表现好的action,但是感觉没有新的知识注入到模型的paremeter中。或者说action的规范也是一种对于知识的梳理?
NLP 模型处理方法变化
- N-gram: 计算相连词汇的概率,但不知语意
- word2vec:用中心词预测来学习语意,但是窗口固定,只能看n-1个词汇
- RNN:循环网络,能处理任意长度,但是长时记忆容易忘,而且必须顺序执行,很慢
- LSTM:解决了长时记忆,但还是顺序执行
- Attention:并行,且能看全部
LSTM
Link: 9.2. 长短期记忆网络(LSTM) — 动手学深度学习 2.0.0 documentation (d2l.ai)
H是短时记忆,C是长时记忆
用sigmod来决定是不是计算重要性,来遗忘或者记忆
用tanh来得到embedding
