欧洲杯体育使得无需任何成对对应相关-开云(中国)Kaiyun·官方网站 - 登录入口

发布日期:2025-09-06 06:04    点击次数:149

欧洲杯体育使得无需任何成对对应相关-开云(中国)Kaiyun·官方网站 - 登录入口

无需任何配对数据,就能收尾文本镶嵌的模子空间治愈?!

曾因 llya 下野 OpenAI,在互联网上掀翻斟酌飓风的柏拉图暗意假说建议:

总计弥漫大边界的图像模子都具有交流的潜在暗意。

那么是否存在针对文本模子的通用潜在结构呢?

康奈尔大学现时给出了 Plus 版谜底——vec2vec,首个无监督文本镶嵌的跨向量空间治愈活动。

诈欺分享潜在空间,不仅保留镶嵌结构和底层输入语义,还大概反推索要镶嵌信息。

vec2vec 在标的镶嵌空间中与信得过向量的余弦相似度高达0.92,并在超越8000 个当场打乱的镶嵌上收尾完满匹配,揭示了总计编码器在不同架构或稽察数据下都领有委果交流的暗意阵势。

具体本色,接下来咱们逐一拆解。

增强版柏拉图暗意假说

文本镶嵌当作 NLP 的中枢技巧,存在好多基于不同数据集、数据洗牌样子和开动化的镶嵌模子。

但不同模子之间由于稽察数据、架构不同,生成的镶嵌向量空间实足不兼容,无法胜利进行对皆。

于是团队从柏拉图暗意假说中吸收灵感,建议强柏拉图暗意假说 (S-PRH):

使用交流标的和模态、但不同数据及模子架构稽察的神经相聚,会敛迹到一个通用潜在空间,使得无需任何成对对应相关,即可学习到它们表征之间的治愈相关。

vec2vec 即是在此基础上构建,中枢念念想即是学习和诈欺文本暗意的通用潜在结构,收尾表征的镶嵌空间转机,而无需任何成对的数据或编码器。

vec2vec 接受模块化架构,其中镶嵌向量通过特定空间的适配器模块进行编码息争码,并流程分享骨干相聚完成传递。

输入适配器和,明天自每个编码器特定空间的镶嵌治愈到维度为的通用潜在暗意。

分享骨干从适配后的输入中索要通用潜在镶嵌,再输出适配器和将其全部治愈回编码器特定空间。

因此,治愈函数、和迥殊重构映射、界说为:

总计组件的参数聚积记为

与图像不同,由于镶嵌向量不具有空间偏向性,因此接受带有残差伙同、层归一化和 SiLU 非线性激活函数的多层感知机 (MLP)替代 CNN。

为了确保治愈后的向量保留镶嵌语义和几何结构,还引入了以下耗费函数进行优化:

抗拒性耗费:饱读动生成的镶嵌在镶嵌层和潜在层均匹配原始镶嵌的教化诀别。

重建耗费:强制镶嵌在映射到潜在空间并复返原始空间后与开动暗意高度一致。

轮回一致性耗费:当作无监督的配对对皆代理,确保大概镶嵌治愈并复返时耗费最小。

向量空间保握耗费:确保翻译青年景镶嵌的成对相关保握一致。

执行效果

团队使用三个主见估量治愈质料:

平均余弦相似度:估量治愈效果与标的的平均接近进程。

Top-1 准确率:治愈效果的标的是最周边的比例。

平均排行:标的相关于治愈效果的平均排行。

如图所示,在当然问题(NQ)数据集上,vec2vec 在交流骨干模子配对(如 GTE 与 E5)中达到接近 1.0 的 Top-1 准确率,显赫优于基线。

vec2vec 在诀别外数据(如推文和医疗纪录)上也弘扬肃穆。举例,在 TweetTopic 上,GTE 到 Stella 的余弦相似度达 0.92,Top-1 准确率 100%。

下表也考据了 vec2vec 在单模态与多模态镶嵌(如 CLIP)中的治愈后劲。

同期执行也知道,vec2vec 不仅不错保留镶嵌的几何结构,还保留弥漫的语义以收尾属性估量。

在某些模子配对中,80%的文档可通过零样本反演复原本色,尽管效果还并不完满,但也再次知道镶嵌委果与其输入相同体现高保简直语义信息。

以上关联 vec2vec 的执行效果,为强柏拉图暗意假说提供了有劲左证,针对 CLIP 的效果也初步标明不错适用于其他模态。

虽然,这将有助于跨系统拜谒信息,具有广博的学问分享后劲,但随之而来的安全风险也必须筹商其中。

仅通过镶嵌向量就可收尾语义信息治愈的才略,将会让底层文本的明锐信息更容易受到坏心索要和抨击,要挟向量数据库安全。

这对数据安全来说既是冲破亦然挑战,那么你对此有什么主见呢?接待在评述区留言斟酌~

论文盛开:https://arxiv.org/abs/2505.12540

参考盛开:

[ 1 ] https://x.com/rishi_d_jha/status/1925212069168910340

[ 2 ] https://x.com/jxmnop/status/1925224612872233081

[ 3 ] https://www.youtube.com/watch?v=eJpfoDENSBc

—  完  —

� �  量子位 AI 主题经营正在征会聚!接待参与专题365 行 AI 落地有打算,一千零一个 AI 应用,或与咱们分享你在寻找的 AI 居品,或发现的AI 新动向。

� � 也接待你加入量子位逐日 AI 交流群,一谈来畅聊 AI 吧~

一键眷注 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「堤防心」

接待在评述区留住你的想法!欧洲杯体育