网站地图官方微信:
网站首页 炮梁乡 广陵镇 盘谷镇 蔡沟乡 凉姜乡 铜锣乡

当前位置: 首页 >

为什么我还是无法理解transformer?

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。

反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。

总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。

为什么我还是无法理解transformer?

  • | Rust的工程配置为何用toml格式? |

    选择一个足够先进、坑少的格式是非常明智的,否则后患无穷。 T...

    查看详情>>
  • | 为什么bilibili后端要用go来写? |

  • | 为什么新买的ThinkPad比不上几年前的旧型号? |

  • | 我是新手想养鱼,预算不超过200。有什么好的建议或者禁忌吗。? |

  • | 作为一个服务器,node.js 是性能最高的吗? |

  • | 为什么中国的英语教育这么失败? |

  • | 真的有这种又苗条身材又爆炸的么? |

  • | 为什么 S.H.E. 三位成员的生活反转这么大? |

  • | 长得和刘亦菲很像是一种什么体验? |

  • | 你觉得鸿蒙NEXT生态成熟大概要用几年? |

  • | 为什么有的人喜欢带着 MacBook 去咖啡店或者书店上网,而不是 ThinkPad 之类的? |

  • 买了一台海尔洗衣机。 到货后发现是haicr ,哈哈哈...

    2025-06-29
  • 看用途和预算。 不差钱的电影发烧友和单机游戏玩家上顶配4K(...

    2025-06-29
  • 厂商虽然公布了自己的性能数据,但是大家都知道厂商一般都会用一...

    2025-06-29
  • 团队 code review 时,一位同事把 count(*...

    2025-06-29

关注我们

添加微信好友,关注最新动态