平时的一些ideas
平常脑海突然觉得可尝试的一些ideas
头脑风暴
模型中间层随便random或者shuff一下会怎样
参数初始化以及token idx的值对模型效果有较大影响
- idx后的embedding模型咋训练
- 在Attention的时候会加重自身的注意力信息
- 多头注意力(以及优化的)是默认了各个子空间的重要性是平等的,是否需要分配不同的权重,如何有机融合?如何实现?
几乎每一个token在全句中的注意力都是稀疏的(MHA一方面缓解了这个问题)
不同注意力头attention后的可视化分析
论文: “What Does BERT Look At? An Analysis of BERT’s Attention” “Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting, the Rest Can Be Pruned” "
头数目与emb_dim的分析对比(模型效果)
激活函数真的就不能升维度吗
embedding在后层再用一次可以嘛(会不会跟short-cut的效果一样)
长序列输入可以先padding再压缩
关注度不等重要
GBDT和ResNet思想一致
软间隔、标签平滑、噪音
高数,投影,降维度,积分
卷积转换成矩阵乘法跟那个旋转位置编码的旋转矩阵很相似哎
如何解决未来数据稀缺问题,或者数据高质量问题
一个领域的专业在另一行业就成为工具了(也是以后需要考虑和发展的方向)
RNN的位置编码靠隐藏层状态矩阵
用极坐标改写RoPE
深度学习(特别是NLP领域)每五-六年进行一次大变革
tokenizer识别不出来的token不一定会无法输出
栈具有记忆功能(状态机、自动机)
MoE的加入以及负载均衡解决办法
kl距离相对熵,和位置编码,交叉熵
开关和记忆(异或或者掩码用01比特序列)