首页   >   新闻   >   文章

《向量数据库》笔记 第三章
- 2025 -
02/05
19:10
零号员工
发表时间:2025.02.05     作者:Jingyi     来源:ShoelessCai     阅读:4

百闻不如一见。兵难隃度,臣愿驰至金城,图上方略。—— 班固

这是作者在这一章节写的话,笔者百度了一下:

赵充国说:“听一百次情况汇报不如亲自去看一趟。 军事上的事情是很难在这么远的地方做判断的。 我愿意 到金城去实地看看,到底西羌叛乱的具体情况如何。 根据看到的情况再呈上平定叛乱的图纸和方略。”

纸上得来始终觉得少了些什么,要真的把事情落实,把仗打好了,还得实地勘察,还得打开封装,看看内部究竟。

本书第三章,就是 写的这些内容。略作笔记,要是哪位大神有高见,千万记得写邮件给到我们!



















导读:

《向量数据库》笔记:数据库发展简史

如何理解“向量化”?

概略图的几个概念具有包含关系,在计算机中,以文件路径的形式触达资源。划分这些概念层次,主要是为了达到数据隔离效果。

这是录音部分,供我们读者骑车或者开车时候听。

(1)向量数据库介绍







(2)CAP理论



(3)Clustering 是获取标量的方法



索引的提出,永远是为了达到快速搜索到目标的目的。本章介绍了:

01 基础能力

1.主键索引

2.向量索引

nFLAT INDEX,HNSw INDEX, IVF 索引

3.过滤器索引

4.索引重建

这部分的概念,简言之,就是如果数据增加(样本增加的时候),要调整部分参数,使得你的 DB 的指标一直保持在自己要求的水平。值得注意的是,索引重建是一项高风险的操作。

关键指标

访问延迟(latency):从系统收到查询请求,到返回响应所经历的时间。

实例吞吐量(throughpit):给定测试条件下,单个服务实例在资源达到其性能的极限时候,能够持续处理最大工作负载量。

召回率(recall):用于衡量查询结果的完整性。

02 高阶能力

1.动态 Schema

笔者用自己的话解释:写入即生成 ADT,触发式生成 ADT,属于 NoSQL。

具备 schema 能力的向量数据库,为开发者带来巨大的便利。实际场景,根据业务变化增加、减少字段。

2.别名机制

所有数据都需要由同一个向量模型生成,新的、旧的向量模型生成的数据,混合在一起使用,对召回率产生负面影响。

比较好的方案,就是基于别名机制来实现。为集合确定一个别名,通常是个比较短的字符串。一个集合可以有一个、或多个别名。

这里注意,你真的在操作的时候,你去设置一个别名的时候,输入计算机的,是一个路径。例如,用

/alias/set
< br>来设置别名。这是一个路经,同时是一个命令。我们在学习数据库系统的时候,知道这个约定俗成的用法。我们的读者在理解这些知识点的时候,就这么理解。

3.向量化

这个我之前搜集了一个建模时候向量化的做法,点击阅读《如何理解“向量化”? 》。

通常需要开发者通过向量化模型,将原始的非结构化数据转换为向量数据,DBMS 有专门的【命令】(这个命令,我们可以理解为一种字段,计算之后的结果,也在这个【字段】中。ShoelessCai 评注),提前生成向量数据,生成向量数据的方式是使用向量模型。这里的向量模型,是现在很流行的机器学习,这种模型是需要开发者去选的,它的作用,就 是把原始数据,转换成向量数据。向量数据库系统存在的意义,即降低了上述这类操作的门槛。

4.混合查询

混合查询是结合标量字段和向量字段的。举个例子,怎么去向量化图片,把【拍摄时间】、【拍摄地点】作为标量存储起来,查询的时候,slice 的效率就会高很多。

小结

1.向量 DB 五个逻辑层次的概念:实例、库、集合、文档和字段;

2.选择合适的索引类型:FLAT INDEX,HNSw INDEX, IVF INDEX

3.DBMS 关键指标:访问延迟、实例吞吐量。

4.动态 Schema,自己的总结,写入即生成。

5.别名机制,给到集合多个名称,使得新版本,可以直接使用老版本的内容。

6.向量化,作用是降低了数据库系统的门槛。

7.向量数据、标量数据配合 使用的。

这是录音部分,供我们读者骑车或者开车时候听。

(1)向量数据库介绍







(2)CAP理论



(3)Clustering 是获取标量的方法





原文链接



长按/扫码,有您的支持,我们会更加努力!









TOP 5 精选

       



回到顶部   回上一级
写文章

最新资讯




直播笔记


热点话题


精品论文


有你的鼓励
ShoelessCai 将更努力





文档免费。保护知识产权,保护创新。