百闻不如一见。兵难隃度,臣愿驰至金城,图上方略。—— 班固
这是作者在这一章节写的话,笔者百度了一下:
赵充国说:“听一百次情况汇报不如亲自去看一趟。 军事上的事情是很难在这么远的地方做判断的。 我愿意 到金城去实地看看,到底西羌叛乱的具体情况如何。 根据看到的情况再呈上平定叛乱的图纸和方略。”
纸上得来始终觉得少了些什么,要真的把事情落实,把仗打好了,还得实地勘察,还得打开封装,看看内部究竟。
本书第三章,就是 写的这些内容。略作笔记,要是哪位大神有高见,千万记得写邮件给到我们!









导读:
《向量数据库》笔记:数据库发展简史 如何理解“向量化”? 概略图的几个概念具有包含关系,在计算机中,以文件路径的形式触达资源。划分这些概念层次,主要是为了达到数据隔离效果。
这是录音部分,供我们读者骑车或者开车时候听。
(1)向量数据库介绍
(2)CAP理论
(3)Clustering 是获取标量的方法
索引的提出,永远是为了达到快速搜索到目标的目的。本章介绍了:
01 基础能力
1.主键索引
2.向量索引
nFLAT INDEX,HNSw INDEX, IVF 索引
3.过滤器索引
4.索引重建
这部分的概念,简言之,就是如果数据增加(样本增加的时候),要调整部分参数,使得你的 DB 的指标一直保持在自己要求的水平。值得注意的是,索引重建是一项高风险的操作。
关键指标
访问延迟(latency):从系统收到查询请求,到返回响应所经历的时间。
实例吞吐量(throughpit):给定测试条件下,单个服务实例在资源达到其性能的极限时候,能够持续处理最大工作负载量。
召回率(recall):用于衡量查询结果的完整性。
02 高阶能力
1.动态 Schema
笔者用自己的话解释:写入即生成 ADT,触发式生成 ADT,属于 NoSQL。
具备 schema 能力的向量数据库,为开发者带来巨大的便利。实际场景,根据业务变化增加、减少字段。
2.别名机制
所有数据都需要由同一个向量模型生成,新的、旧的向量模型生成的数据,混合在一起使用,对召回率产生负面影响。
比较好的方案,就是基于别名机制来实现。为集合确定一个别名,通常是个比较短的字符串。一个集合可以有一个、或多个别名。
这里注意,你真的在操作的时候,你去设置一个别名的时候,输入计算机的,是一个路径。例如,用
/alias/set
< br>来设置别名。这是一个路经,同时是一个命令。我们在学习数据库系统的时候,知道这个约定俗成的用法。我们的读者在理解这些知识点的时候,就这么理解。
3.向量化
这个我之前搜集了一个建模时候向量化的做法,点击阅读《
如何理解“向量化”? 》。
通常需要开发者通过向量化模型,将原始的非结构化数据转换为向量数据,DBMS 有专门的【命令】(这个命令,我们可以理解为一种字段,计算之后的结果,也在这个【字段】中。ShoelessCai 评注),提前生成向量数据,生成向量数据的方式是使用向量模型。这里的向量模型,是现在很流行的机器学习,这种模型是需要开发者去选的,它的作用,就 是把原始数据,转换成向量数据。向量数据库系统存在的意义,即降低了上述这类操作的门槛。
4.混合查询
混合查询是结合标量字段和向量字段的。举个例子,怎么去向量化图片,把【拍摄时间】、【拍摄地点】作为标量存储起来,查询的时候,slice 的效率就会高很多。
小结
1.向量 DB 五个逻辑层次的概念:实例、库、集合、文档和字段;
2.选择合适的索引类型:FLAT INDEX,HNSw INDEX, IVF INDEX
3.DBMS 关键指标:访问延迟、实例吞吐量。
4.动态 Schema,自己的总结,写入即生成。
5.别名机制,给到集合多个名称,使得新版本,可以直接使用老版本的内容。
6.向量化,作用是降低了数据库系统的门槛。
7.向量数据、标量数据配合 使用的。
这是录音部分,供我们读者骑车或者开车时候听。
(1)向量数据库介绍
(2)CAP理论
(3)Clustering 是获取标量的方法