首页   >   新闻   >   文章

《向量数据库》第六章 优化向量数据库
- 2025 -
05/29
17:10
零号员工
发表时间:2025.05.29     作者:Jingyi     来源:ShoelessCai     阅读:10

《向量数据库》第六章优化向量数据库。



1.性能优化

降低延迟能够显著提升终端用户的体验,为企业扩展业务带来更多可能。多次请求数据库之后,向量数据库响应速度会直接关联用户体验。软件行业有一种说法,“硬件进步一年,软件进步三年”。本章节主要是优化向量计算、查询算法、通信协议三个角度。

01 使用指令集优化向量计算。包括余弦、内积、欧式距离,是系统开销最大的部分。方案,就是对特定指令集合进行优化。单指令多数据 SIMD,举个例子,每次计算的时候,多加载几个浮点,提高并行性。

02 查询优化算法。结合 BITMAP 和向量相似度的混合查询功能,允许在查询特定向量的时候,仅仅比符合特定过滤标签的向量,实现精细化的向量查询。查询过程中,过滤掉不满足条件的向量 ID,实际查询仍然在 1000 万个向量数据中进行。如果进行优化查询策略,在内存中逐一计算待查询的向量,与这 1000 个向量的相似度,最终保留目标结果向量。这种方法,在引擎中被称为“查询进化”,即根据不同的数据规模采用不同的查询算法。BITMAP 记录少于 1000 条,就是内存匹配模式。

03 优化通信协议。两个服务器的转发效率是优化的对象,VdbServer 和 ProxyServer。书上有代码的。

总结来说,就是 VdbServer 实现 gRPC 服务端,使得代理服务器通过 gRPC 协议,以长链接的方式持续向 VdbServer 发送请求。

测试系统的指标:访问延迟(覆盖99%)、吞吐量 QPS、召回率、事务处理速度、查询响应时间、系统吞吐量等。

步骤,准备测试数据(预期目标结果)、执行测试数据、计算测试指标(用 ID 进行批评,如果有错,进行召回)。



2.成本优化

首先要知道,数据库在 IT 项目中的成本占比是比较低的。业界通常使用 TCO Total Cost Ownership 指标,通常更加细致地考虑每个 GB 向量的存储成本,单次查询的资源成本。注意,优化本身是持续的、动态的过程。

VdbServer 写入、查询,引到内存资源。混合部署模式,CPU 成本下降约 40%,内存成本下降 30%。

单节点的成本。注意,单节点部署的可靠性、可用性都需额外成本。只部署 VdbServer 一个节点,MasterServer、ProxyServer 也在该节点上,为了达到数据的分布性质,将数据存到远程分布系统,例如,云上的分布块存储系统。ShoelessCai 评注,属于本节点之外的物理区域,可以肯定是属于分布式块存储系统,远程的分布方法或未可知,但是,可以肯定的是,数据一定有多个副本,达到数据多副本存储的目的。

书上介绍,虽然分布式的 CPU 和内存会额外增加,随着数据量增大,分布式系统的优势也逐渐显现了。远程的分布式块存储系统内的向量数据持久化,基于这部分持久化的数据,可以完成单节点的故障恢复。



3.易用性优化

开发者存储在数据库中的数据,显然应该免于未经授权的访问。进一步考虑到开发者误删,向量数据库要提供数据备份。

SDK。不同开发者需要不同入口访问,作为数据库提供方,提供一个统一的软件开发工具包(SDK)最合理的方式。

访问鉴权。向量数据库最好也是开放访问授权功能,公开数据库物理地址之后,可以用 TOKEN 访问。为每个访问用户编制有时钟的用户名和口令。鉴权机制的核心,在于合理使用服务端的密码。

更新鉴权元数据。用户名和口令,也有冗余数组处理并发,在 ProxyServer 这个函数里完成。



小结

性能优化。提升查询并行性、实施“查询优化”、gRPC 提升了通信效率。

成本优化。混和三种 Server 降低部署成本,减少节点数的单节点部署方案。

易用性。原来是基于 HTTP,转变成基于 SDK 方式。注意 jwt 鉴权方案。





原文链接

长按/扫码,有您的支持,我们会更加努力!







TOP 5 精选
回到顶部   回上一级
写文章

最新资讯




直播笔记


热点话题


精品论文


有你的鼓励
ShoelessCai 将更努力





文档免费。保护知识产权,保护创新。