向量搜索基础

向量搜索，也称为_相似性搜索_或_最近邻搜索_，是一种寻找与给定输入最相似项的强大技术。其应用场景包括理解用户意图的语义搜索、推荐系统（例如，音乐应用中的”您可能喜欢的其他歌曲”功能）、图像识别和欺诈检测。关于向量搜索的更多背景信息，请参阅最近邻搜索。

向量嵌入

与传统依赖精确关键词匹配的搜索方法不同，向量搜索使用_向量嵌入_——这是文本、图像或音频等数据的数值表示。这些嵌入以多维向量形式存储，捕捉了意义、上下文或结构中更深层的模式和相似性。例如，大型语言模型可以从输入文本创建向量嵌入，如下图所示。

从文本生成嵌入

向量嵌入是高维空间中的一个向量。其位置和方向捕捉了对象之间有意义的关联。向量搜索通过比较查询向量与存储的向量，并返回最接近的匹配项，来找到最相似的结果。UDB-SX 使用 k-最近邻算法来高效识别最相似的向量。与依赖精确词语匹配的关键词搜索不同，向量搜索基于这个高维空间中的距离来衡量相似性。

在下图中，Wild West 和 Broncos 的向量彼此更接近，而两者都与 Basketball 的向量相距较远，这反映了它们之间的语义差异。

相似性搜索

向量相似性衡量两个向量在多维空间中的接近程度，有助于完成诸如最近邻搜索和按相关性排序结果等任务。UDB-SX 支持多种用于计算向量相似性的距离度量（空间）:

要了解更多关于距离度量的信息，请参阅空间。