首页   >   新闻   >   文章

看出“听力”,AR 蕴藏哪些关键技术?
- 2022 -
04/15
11:10
一号员工
发表时间:2022.04.15     作者:Jingyi Li     来源:ShoelessCai     阅读:210

字节跳动旗下火山翻译推出一款AR眼镜,也是一个公益项目。亮点在哪?该AR眼镜可以实时语音转文字,让用户实时“听”到内容,产品结合了火山翻译的火山同传系统,支持面对面翻译、会议系统翻译和语音实时翻译。

方案所解决的场景是,听障人士日常交流时,需要高度注意对方口型,最多只分辨出50%的内容,这使得他们长期处于焦虑状态。而且,由于近年疫情肆虐,公共场合只能佩戴口罩,又提高了听障人士的沟通门槛。

火山翻译AR眼镜的用户反映,目前产品可以达到良好的效果。数据显示,“该项目通过与残联合作的一次线上综合调研,以及两期针对听障人士的深度调研,累计收集到了2000份调研结果,覆盖各行各业听障人士的意见。产品目前的使用体验得到了听障人群和其他社会人群的高度认可”。

这款实时翻译的AR眼镜也入选了中国计算机学会的《2021 CCF YOCSEF技术公益案例集》(快科技,2022)。

火山翻译目前尚属低调,产品端支持PC和WAP端服务,支持多达55种语言。目前产品除了公益项目之外,还有「机器翻译API」、「视频字幕翻译」、「智能同传」等产品,并开放了网页翻译入口(知乎-火山引擎,2021)。

字节决定开源了该团队在世界机器翻译大赛WMT20的获奖模型和算法。

Jingyi 初步查了点资料。翻译整个过程分为预训练和剪枝,剪枝采取的是推理引擎 LightSeq。有网友测评,火山在数字单位转换方面,略胜一筹。整个过程,称为“多语言翻译新范式”,multilingual Random Aligned Substitution Pre-training(mRASP)。



另一个火山引以为傲的技术点是,处理双语言语聊缺失情形,镜像翻译生成模型MGNMT(Mirror-Generative Neural Machine Translation)闪亮登场。



原文1(文化):

最好的古建修复和保护就是让古建恢复原貌,透着传统气息,品起来原汁原味。描金这项工作没有创作可言,就是一笔一画的重复。”一小时后,一处挂落的描金工作完成,只见杜梦婷从脚手架上下来,仔细查看了这一处挂落上的描金,确定没有问题后,甩了甩有些发僵的手臂,收拾好颜料画笔,准备转战下一处。

友商A

The best ancient building restoration and protection is to restore the ancient building to its original appearance, revealing the traditional atmosphere, and taste the original taste. The work of tracing gold is not creative, it is the repetition of one drawing. One hour later, one After finishing the painting work, I saw Du Mengting come down from the scaffolding and carefully checked the paintings on the scaffolding. After confirming that there was no problem, she shook her stiff arm, packed up the paint brush, and prepared to move to the next battle. one place.

火山翻译

The best way to restore and protect ancient buildings is to restore them to their original appearance, with a traditional flavor and authentic taste. The work of painting gold has no creation at all. It is a repetition of one painting after another. An hour later, a hanging gold painting was completed. Du Mengting came down from the scaffold and carefully checked the painting gold on this hanging place. After confirming that there was no problem, he dumped his stiff arm, packed up the paint brush and prepared to move to the next place.

火山自评,整体翻译效果不错,断句可以继续优化(知乎-火山翻译,2021)。Jingyi 观点,火山的人工翻译很厉害。

文本生成是自然语言处理的一个重要研究方向,具有广泛的应用场景。比如文本摘要、机器翻译、文案生成等等。不同于一般的分类、标注等任务,文本生成不仅要考虑每个词的重要性,提高单词的预测准确性,也要兼顾词语之间的搭配,保持整个文本的流畅度。因此一般的做法是逐词生成,每产生一个词都会考虑和已有词的关系。

业界通常用自回归模型进行文本生成,比如目前主流算法 Transformer。该模型首先对原始文本进行编码,比如机器翻译中的待翻译文本或者是文本摘要中的原文。然后再从左到右逐词解码产生翻译好的文本或是摘要。基于该算法的开源软件有 tensor2tensor、fairseq 等(机器之心,2022)。

ParaGe,这是一个基于 Pytorch 的深度学习框架,包含GLAT模型复现和WMT21的代码,GLAT是获奖模型。



ParaGen 支持了多达 13 种可自定义模块,包括数据读入、数据预处理、数据采样、数据加载、网络模块、训练模型、推断模型、优化目标、搜索算法、优化器、数值规划器、训练算法和评价目标,相比于同类的文本生成框架,大大提高了二次开发的灵活性。而对于不同的模块,ParaGen 采用微内核的设计,每个模块只提供一些通用基本的实现,彼此之间互相独立,比如数值优化器中 InverseSquareRootRateScheduler、网络模块的 positional embedding、数据读入的 JsonDataset 等。也正是得益于这细致的 13 类模块拆解,ParaGen 可以更方便地进行自定义。例如需要实现 glancing training 的方式,在 ParaGen 里面仅仅只需要重载一个 forward_loss 函数,就可以模块化的实现自定义的训练。

ParaGen 代码结构拆解的更加细致,用户只要花 2-3 小时阅读代码就能了解整个项目的框架,从而定制自己的任务。不仅如此,ParaGen 也提供了相应的教程,帮助初学者认识学习了解整个 ParaGen 代码的基本知识和使用方式。

ParaGen 采用 apache2 开源协议(机器之心,2022)。



原文链接

长按/扫码,有您的支持,我们会更加努力!










0


最新评论
TOP 5 精选
回到顶部   回上一级
写文章

最新资讯




直播笔记


热点话题


精品论文


有你的鼓励
ShoelessCai 将更努力





文档免费。保护知识产权,保护创新。