Other Thoughts

Published: February 05, 2026

Some of Other Thoughts

Agentic RL 思考

感觉RL只是在规范LLM的回答方式，并没有增强LLM的智能

GRPO就是只增强了比均值表现好的action，但是感觉没有新的知识注入到模型的paremeter中。或者说action的规范也是一种对于知识的梳理？

NLP 模型处理方法变化

N-gram: 计算相连词汇的概率，但不知语意
word2vec：用中心词预测来学习语意，但是窗口固定，只能看n-1个词汇
RNN：循环网络，能处理任意长度，但是长时记忆容易忘，而且必须顺序执行，很慢
LSTM：解决了长时记忆，但还是顺序执行
Attention：并行，且能看全部

LSTM

Link: 9.2. 长短期记忆网络（LSTM） — 动手学深度学习 2.0.0 documentation (d2l.ai)

H是短时记忆，C是长时记忆

用sigmod来决定是不是计算重要性，来遗忘或者记忆

用tanh来得到embedding

Bluesky Facebook LinkedIn X (formerly Twitter)