ShoelessCai - 《向量数据库》笔记第三章

《向量数据库》笔记第三章

- 2025 -
02/05
19:10

零号员工

发表时间：2025.02.05 作者：Jingyi 来源：ShoelessCai 阅读：108

百闻不如一见。兵难隃度，臣愿驰至金城，图上方略。—— 班固

这是作者在这一章节写的话，笔者百度了一下：

赵充国说：“听一百次情况汇报不如亲自去看一趟。军事上的事情是很难在这么远的地方做判断的。我愿意到金城去实地看看，到底西羌叛乱的具体情况如何。根据看到的情况再呈上平定叛乱的图纸和方略。”

纸上得来始终觉得少了些什么，要真的把事情落实，把仗打好了，还得实地勘察，还得打开封装，看看内部究竟。

本书第三章，就是写的这些内容。略作笔记，要是哪位大神有高见，千万记得写邮件给到我们！

导读：

《向量数据库》笔记：数据库发展简史

如何理解“向量化”？

概略图的几个概念具有包含关系，在计算机中，以文件路径的形式触达资源。划分这些概念层次，主要是为了达到数据隔离效果。

这是录音部分，供我们读者骑车或者开车时候听。

（1）向量数据库介绍

（2）CAP理论

（3）Clustering 是获取标量的方法

索引的提出，永远是为了达到快速搜索到目标的目的。本章介绍了：

01 基础能力

1.主键索引

2.向量索引

nFLAT INDEX，HNSw INDEX, IVF 索引

3.过滤器索引

4.索引重建

这部分的概念，简言之，就是如果数据增加（样本增加的时候），要调整部分参数，使得你的 DB 的指标一直保持在自己要求的水平。值得注意的是，索引重建是一项高风险的操作。

关键指标

访问延迟（latency）：从系统收到查询请求，到返回响应所经历的时间。

实例吞吐量（throughpit）：给定测试条件下，单个服务实例在资源达到其性能的极限时候，能够持续处理最大工作负载量。

召回率（recall）：用于衡量查询结果的完整性。

02 高阶能力

1.动态 Schema

笔者用自己的话解释：写入即生成 ADT，触发式生成 ADT，属于 NoSQL。

具备 schema 能力的向量数据库，为开发者带来巨大的便利。实际场景，根据业务变化增加、减少字段。

2.别名机制

所有数据都需要由同一个向量模型生成，新的、旧的向量模型生成的数据，混合在一起使用，对召回率产生负面影响。

比较好的方案，就是基于别名机制来实现。为集合确定一个别名，通常是个比较短的字符串。一个集合可以有一个、或多个别名。

这里注意，你真的在操作的时候，你去设置一个别名的时候，输入计算机的，是一个路径。例如，用

/alias/set
< br>来设置别名。这是一个路经，同时是一个命令。我们在学习数据库系统的时候，知道这个约定俗成的用法。我们的读者在理解这些知识点的时候，就这么理解。

3.向量化

这个我之前搜集了一个建模时候向量化的做法，点击阅读《如何理解“向量化”？》。

通常需要开发者通过向量化模型，将原始的非结构化数据转换为向量数据，DBMS 有专门的【命令】（这个命令，我们可以理解为一种字段，计算之后的结果，也在这个【字段】中。ShoelessCai 评注），提前生成向量数据，生成向量数据的方式是使用向量模型。这里的向量模型，是现在很流行的机器学习，这种模型是需要开发者去选的，它的作用，就是把原始数据，转换成向量数据。向量数据库系统存在的意义，即降低了上述这类操作的门槛。

4.混合查询

混合查询是结合标量字段和向量字段的。举个例子，怎么去向量化图片，把【拍摄时间】、【拍摄地点】作为标量存储起来，查询的时候，slice 的效率就会高很多。

小结

1.向量 DB 五个逻辑层次的概念：实例、库、集合、文档和字段；

2.选择合适的索引类型：FLAT INDEX，HNSw INDEX, IVF INDEX

3.DBMS 关键指标：访问延迟、实例吞吐量。

4.动态 Schema，自己的总结，写入即生成。

5.别名机制，给到集合多个名称，使得新版本，可以直接使用老版本的内容。

6.向量化，作用是降低了数据库系统的门槛。

7.向量数据、标量数据配合使用的。

这是录音部分，供我们读者骑车或者开车时候听。

（1）向量数据库介绍

（2）CAP理论

（3）Clustering 是获取标量的方法