西风 发自 凹非寺
量子位 | 公众号 QbitAI
从信息理论的角度来看这有点出人意料,似乎已经在完整的32-bit中成功移除了这些知识,但当你将其压缩到4-bit时,知识又重新出现了。
这让人不禁想知道在压缩/量化步骤中到底丢失了什么信息。
可能这些知识从未真正丢失,只是被隐藏了。
如果我们把神经网络看作是代码,权重就是源代码,微调实际上可能有效地修改了这些代码,以阻止返回某些结果。
因此,你可能只是在某些输出周围建立了防火墙。但量化可能使这些最近的编辑消失,它们太微小而无法保留。
通信人家园 (https://test.txrjy.com/) | Powered by C114 |