原标题:向量数据库简介和应用
最近,全世界对于监听投放广告有了新的认识,因为美国一家公司的营销计划详细披露了怎样利用手机窃听用户,再结合人工智能投放广告,然后这个事情被媒体曝光了。
美国一家名为Cox Media Group(CMG)的营销机构在其营销计划书中主动承认使用“主动聆听”(Active-Listening)软件,该软件通过智能设备的麦克风收集用户的语音数据,并将其用于定向投放Facebook和谷歌广告。该计划书透露,CMG的数据来源超过470个,涵盖了谷歌、LinkedIn、Facebook、亚马逊等平台。根据CMG计划书和官方网站所展示的信息,我们对CMG手机监听和精准广告推送的过程进行了如下总结:
1.确定产品及服务相关的表现最佳的关键词;
2.从目标地理位置开始主动聆听,即通过智能设备(和麦克风)实时监控用户的对话和在线行为,实时捕捉用户意图;
3.利用人工智能从470个数据源中收集和分析信息,以识别潜在的目标受众;
4.结合语音数据和行为数据,初步识别市场中的消费者;
5.根据产品和服务特性,在特定范围内创建详细的受众列表;
6.将受众列表用于广告投放平台,实现精准广告推送。
实际上,从技术角度来看,手机应用程序对用户进行监听并非难事,这里仅举笔者所知的两种情况。第一种情况是目前常见的通过麦克风实现,即手机软件利用麦克风收集用户的语音数据,正如本次美媒报道的CMG“主动监听”新闻;第二种情况则更为隐蔽,通过侧信道技术实现,如利用手机中的陀螺仪、加速计等其他传感器获取数据,进而通过深度学习等方法恢复语音数据,因为它不需要直接访问麦克风,且更难以被用户察觉。
目前的广告精准推送,甚至是无形数据搜集,来自于哪里?
近日,全球领先的IT市场研究和咨询公司IDC发布《中国生成式AI应用开发平台市场:企业统一AI开发平台的雏形》报告。IDC所定义的大模型平台包括两部分,一个是模型开发平台,即提供模型训练与调优工具,赋能开发者自主使用基础模型进行开发,另一个是应用开发平台,支持开发人员聚焦应用开发,提供低代码无代码开发工具。
IDC报告指出,大模型平台给应用程序开发提供了一个新的路径,企业在选择大模型平台的时候,应该重点关注厂商在模型层和数据层的能力。在模型层能力方面,如何让模型更好的适配企业的应用场景至关重要。而在数据层能力方面,如何做好RAG(检索增强生成),保证生成内容的准确性,消除幻觉最为关键。
拿医疗行业举例,杭州全诊医学基于千帆平台和文心大模型打造了AI医疗助理应用,能够在导诊、预诊、诊间、入院、手术、随访等全阶段服务医生患者。以辅助医生撰写病历为例,全诊医学通过使用20万份精标病历数据对大模型进行了精调,使AI医疗助理的医学用语更准确、更规范,大幅提升病历内容质量。病历生成的准确度提升了45%,医生的接诊量提高了20%,造福更多病患。
国际权威市场研究机构IDC最新出炉的《RAG与向量数据库市场前景展望》报告,深度剖析了检索增强生成(RAG)技术与向量数据库市场的最新动态及未来趋势。报告指出,随着生成式AI技术的广泛应用,向量数据库已成为支撑企业知识管理、内容创作及智能搜索需求的关键基石。
应用领域包括但不限于教育领域、智能汽车领域、法律行业、家装与建材行业、传媒领域五大亟待突破的领域。
向量数据库是一种将数据存储为高维向量的数据库,高维向量是特征或属性的数学表示。每个向量都有一定数量的维度,根据数据的复杂性和粒度,可以从数十到数千不等。
向量通常是通过对原始数据(如文本、图像、音频、视频等)应用某种转换或嵌入函数来生成的。嵌入函数可以基于各种方法,如机器学习模型、词嵌入和特征提取算法。向量数据库的主要优点是,它允许基于数据的向量距离或相似性进行快速和准确的相似性搜索和检索。
这意味着不用使用基于精确匹配或预定义标准查询数据库的传统方法,而是可以使用向量数据库根据语义或上下文含义查找最相似或最相关的数据。
Elasticsearch 是为传统的倒排索引构建的,因此从根本上说很难针对密集向量搜索进行优化。影响是显而易见的:即使只有 100 万个向量,Elasticsearch 也需要 3770 毫秒 (ms) 才能返回搜索结果,而 Milvus 则需要 6 毫秒,相差 600 倍。这种性能差距在规模上会扩大,Elasticsearch 的 Java/JVM 实现难以与基于 C++/Go 的矢量数据库的可扩展性相匹配。此外,Elasticsearch 还缺乏关键的向量搜索功能,例如基于磁盘的索引(DiskAnn、MMap)、优化的元数据筛选和范围搜索。
参考文献
[1]
手机应用偷听用户投放广告,有哪些法律问题?,新浪网
[2]
Elasticsearch 很棒,但向量数据库才是未来,MSN
[3]
开源向量数据库比较:Chroma, Milvus, Faiss,Weaviate,腾讯云
[4]
矩阵起源领航向量数据库新赛道,IDC报告揭示RAG技术前沿趋势,MSN
[5]
IDC:百度智能云获大模型平台及向量数据库技术评估双第一,快科技