About 8,800,000 results
Open links in new tab
  1. 神经正切核 (ntk)的进展如何,好像热度不高了? - 知乎

    我对神经正切核的理论进展了解不多,只是看过维基的程度,理论上的进展确实可能热度没那么高了,毕竟像NTK这样的大突破不是天天有。 但是在应用方面,我认为它的热度依然很高。目 …

  2. 再论大模型位置编码及其外推性(万字长文) - 知乎

    Sep 23, 2025 · 图4-6 不同插值方法的效果(这里的scale是指位置插值中扩大的倍数k,alpha是指NTK中的lambda参数或者是公式(15)中的alpha参数) 从图中可以看出在 时,NTK可以在 …

  3. RoPE外推优化——支持192K上下文长度 - 知乎

    Sep 26, 2025 · Baichuan2-Turbo-192k 今天,我们要介绍的就是其背后的技术, 通过 dynamic ntk 等方法提升大模型的长文本理解、外推能力。 在上一篇文章中,我们详细介绍了旋转位置编 …

  4. 深度学习理论之Neural Tangent Kernel第一讲:介绍和文献总结

    基本介绍在神经网络中,neural tangent kernel (NTK) 是描述无限宽深度神经网络在梯度下降训练过程中演化的核。它最开始由Arthur Jacot, Franck Gabriel, 和Clément Hongler在2018年发表 …

  5. 除了RoPE,对LLMs有长度扩展优势的还有哪些位置编码? - 知乎

    - 变体:包括动态NTK插值(推理时动态调整缩放因子)、NTK-by-parts(对不同维度分组缩放)。 4. **FIRE (Flexible In-Context Rendering)** - 原理:使用可学习的连续函数(如MLP) …

  6. 深度学习理论研究之路 - 知乎

    深度学习理论之Feature Learning 综述和介绍 继Neural Tangent Kernel (NTK)之后,深度学习理论出现了一个理论分支,人们常常称它为feature learning (theory)。 不同于NTK,feature …

  7. transformer如何处理长文本? - 知乎

    为了解决这个问题,我们可以应用一种称为 NTK 感知 [4] 位置插值的巧妙机制,该机制不是将 RoPE 的每个维度均等地缩放 s,而是通过 减少高频和增加低频 来将插值密度分散到多个维度 …

  8. CVHub-理论篇 - 知乎

    位置编码之路:SIN->ALiBi->RoPE ->PI->NTK->YARN 前言:假期翻看了一年前总结的有关位置编码的笔记,发现在某些角度上有了新的理解,本次也分享出来。

  9. language model的上下文长度外推为什么是很困难的? - 知乎

    具体来说,YaRN 是基于 NTK-aware 方法的进一步拓展,通过结合温度缩放和 NTK-by-parts 插值,来提升长文本外推能力。 即 YaRN = NTK-aware + NTK-by-parts + Dynamic NTK。 然后我 …

  10. 徐帅婧 - 知乎

    Dec 31, 2024 · 继Neural Tangent Kernel (NTK)之后,深度学习理论出现了一个理论分支,人们常常称它为feature learning (theory)。 不同于NTK,feature learning认为神经网络在梯度下降过 …