余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。
这种是单一的向量召回方式
召回机制下的 粗排何尝不是这种算法呢。
上述就是向量的算法工作原理。
知道了工作原理,其实万物皆可向量。
无非就是取实数值的点不同。
实数值取的点不同,精准度就完全不一样了。
在举个例子:2018年我们讲过“图搜”
图搜的底层逻辑就是向量召回
大家都认同图片和标题一样镶嵌着商品“信息”
主图最原始的信息就是颜色CMKY和RGB 根据色彩面积占比取实数值进行向量召回,找相似的图片过程的过程就是最原始搜索机制。
通过向量召回,找到相似图片进行打标,反过来在去搜索就是一个带有精准标签的人群。