首页   >   新闻   >   文章

8月14日2PM,阿里云 AI 驱动数据管理直播
- 2024 -
08/14
16:02
零号员工
发表时间:2024.08.14     作者:Jingyi     来源:ShoelessCai     阅读:174

主讲语速较快,很多文字来自于阿里云开发者社区。正值饭点,太糟了!应该空腹听课了!

发布会议程

AI驱动:数据管理的进化与创新
彭亚雄(崆闻) 阿里云智能资深产品专家

数据湖面向AI场景的进化
罗明(景崇) 阿里云智能高级产品专家

AI 时代的数据处理和数据检索
薄磊(为常) 阿里云智能产品专家

Serverless AI 检索引擎解读 -Tablestore 向量检索功能升级
周颖(稀稀) 阿里云智能产品专家

AI 时代的数据湖实践
程川军(川军) 阿里云智能技术方案专家

数据湖的功能

了元数据管理,数据库的ACID语义,持续写入数据的过程中获取point-in-time的视图,防止读取数据过程中出现错误。同时,还提供了更高性能的数据导入能力等。

AI 智能检索增强:百万级别向量规模,不能满足的,因此用到 AI 智能检索。

AI应用还包括,文本匹配、深度语义匹配。核心算法,算法、算力、数据。

目前 Trillion 数据级别,Llama 3.1 参数级别 4050 亿个。

数据湖概念于 2010 年提出,其目的是解决传统数据仓库和数据集市所面临的两个问题:其一,希望通过统一的元数据存储解决数据集市之间的数据孤岛问题;其二,希望存储原始数据,而非存储数据集市建设过程中经过裁剪后的数据,以避免数据原始信息的丢失。当时,开源的 Hadoop 是数据湖的主要代表。

第一阶段:数据入湖。
通过各种各样的入湖方式将数据导入数据湖。入湖方式可以根据自己的业务需求和场景进行选择,比如全量入湖、CDC更新入湖、实时追加写入以及整个 Hadoop 集群搬迁上云等。

第二阶段:数据湖存储与管理。
帮助用户更好地管理发现和高效使用数据湖里的数据。此阶段主要包括以下几个方面:

① 数据目录与检索:一方面能够提供元数据的服务,另一方面能够提供数据的快速检索能力。
② 权限控制与审计:因为数据湖本身是相对开放和松散的体系,需要有比较强的权限管控的能力来保证企业数据的安全性。
③ 数据质量控制:避免数据湖发展成数据沼泽的关键手段。
④ 湖表管理与优化:管理优化数据湖格式。
⑤ 存储管理与优化:对象存储提供了数据冷热分层的特性,但这些特性落地时还需要辅以自动化的手段以进行存储管理优化。

第三阶段:数据处理与分析。
可以根据实际场景选择多种数据处理和分析方式,比如做离线分析、实时计算、交互式分析、AI训练等。评注:今天的内容,着重讲的数据检索、AI 智能检索。

第四阶段:数据服务与应用。
数据湖较为开放,因此可以直接用 BI 系统、可视化系统连接数据湖上的引擎,进行实时分析或可视化的数据展示等。另一方面,数据湖里的数据也可以再进一步同步或 Sink 到更专业的数据系统中,比如到 ES 里进行进一步数据检索,比如到ClickHouse/Doris/StarRocks等做更丰富的多元分析。

最上层是数据开发治理层:提供了面向湖和仓完善的数据开发体系以及数据治理平台。

第二层是管控层:可以理解为服务化的管控与优化,一方面提供统一的元数据、统一权限管控,另一方面提供智能化数据湖管理、快速数据检索等能力。

第三层是多元的计算与分析层:可以通过很多开源或阿里云自研的分析引擎对湖内数据进行加工和处理。

Severless AI 检索

11月3日,在2022年云栖大会上阿里云提出,将坚定推进核心产品全面Serverless化,使得 “用云就像用电一样简单”,从而帮助广大企业用户更好地实现敏捷创新。Serverless即无服务器,强调的是一种架构思想和服务模型,让开发者无需关心基础设施,而是专注到应用程序业务逻辑上。

Elasticsearch作为一款开源分布式检索和分析引擎,可用来搜索海量结构化和非结构化数据,在信息检索与分析、日志分析与运维监控等场景被广泛应用,以满足企业对管理爆炸性数据需求的不断增长。自2017年阿里云与Elastic公司牵手合作推出阿里云Elasticsearch,在过去的5年内,阿里云Elasticsearch始终秉承着 “源于开源,又不止于开源” 的产品理念,围绕Elasticsearch不断进行云原生技术能力升级,帮助广大用户提供开箱即用、更快更好的Elasticsearch云服务体验。

表格存储 Tablestor

表格存储(Tablestore)是阿里云自研的 NoSQL 多模型数据库,提供海量结构化数据存储以及快速的查询和分析服务。表格存储的分布式存储和强大的索引引擎能够提供 PB 级存储、千万 TPS 以及毫秒级延迟的服务能力。

更多信息

向量检索(KnnVectorQuery)使用数值向量进行近似最近邻查询,可以在大规模数据集中找到最相似的数据项。向量检索功能适用于推荐系统、图像与视频检索、自然语言处理与语义搜索等场景。

向量检索适用于推荐系统、图像与视频检索、自然语言处理与语义搜索等场景。

1.推荐系统
在电商、社交媒体、视频流媒体等平台中,用户行为、偏好、内容特征等内容可以编码为向量进行存储,然后通过向量检索快速找到与用户兴趣相匹配的产品、文章或视频,实现个性化推荐,提升用户满意度和留存率。

2.图像与视频检索
在图像识别领域中,将图片转换为向量进行存储,然后通过向量检索快速找到视觉上相似的图片。例如,在电商平台中,用户上传一张图片后,系统能迅速找出具有类似样式、颜色或图案的商品图片。

3.自然语言处理与语义搜索
在NLP领域,将文本转换为向量表示(例如Word2Vec、BERT嵌入等),然后通过向量检索理解查询语句的语义,并找出语义上最相关的文档、新闻、问答等内容,提升搜索结果的相关性和用户体验。

语音识别与声纹匹配 在语音识别系统中,音频数据经过处理后可以转换为声学特征向量进行存储,然后通过向量检索可以进行声音片段的匹配。例如,在安防系统中进行声纹识别认证,在音频数据库中检索特定的音频片段。

4.知识图谱与智能问答
知识图谱节点和关系可以表示为向量,通过向量检索能够加速实体链接、关系推理以及智能问答系统的响应速度,使系统能够更准确地理解和回答复杂的问题。

5.文件去重与内容相似度检测
在版权保护、学术不端检测、新闻聚合去重等领域中,利用文档内容的向量化表示,通过向量检索检测文档之间的相似性。

数据湖应用情况



视频部分截图(真的在线看直播的!)







视频回放地址:点击观看


原文链接

长按/扫码,有您的支持,我们会更加努力!







TOP 5 精选
回到顶部   回上一级
写文章

最新资讯




直播笔记


热点话题


精品论文


有你的鼓励
ShoelessCai 将更努力





文档免费。保护知识产权,保护创新。