北京2023年3月7日上午,很荣幸采访到人工智能和元宇宙领域国际专家刘石。在会上大家同googleai研究员刘石(Jack Liu)就人工智能大模型和元宇宙技术发展进行了交流。
人工智能开启大模型驱动新时代。人工智能是一个很广泛的技术,人工智能大模型成为技术宠儿,人工智能(Artificial Intelligence,简称AI),从应用范围上可分为专用人工智能(ANI)和通用人工智能(AGI)。之前人工智能的进展主要集中在专用人工智能领域,大模型催生了人工智能技术和应用的新范式。大模型具有更强的智能化水平,通过将大模型算法嵌入在构建的人工智能平台服务生态体系中,将更好地实现全链AI技术整合与高效AI生产力,促进人工智能生态建设。人工智能的落地未来也将推动各行各业政产学研用的技术创新与孵化。人工智能技术对各行各业都将有深远影响,助推经济发展和产业智能化升级。
大模型对新一代人工智能技术起到推动作用。大模型从支持图片、图像、文本、语音单一模态下的单一任务,逐渐发展为支持多种模态下的多种任务。大模型原来有三个特点,大数据,大算力,大通用。要做到大模型的广泛应用,离不开知识,知识体现智力的特点。知识库要大,数据要大,但这些还远远不够,在数据的基础上是知识。处理的核心是知识,数据大也可能智力差。生成的方式,知识的学习,不是蛮力,不是一味求大,不是模型越大就越好。数据和知识双引擎驱动。人工智能从感知到认知的升级发展。人工智能大模型可以说是一种人工智能超级大脑。例如,大模型能力引入研发自动驾驶技术,由于技术场景的特殊性,对技术要求非常高。多模态大模型可以应用在智能汽车自动驾驶等技术方面。这将助力整个汽车行业技术发展。多模态大模型是自动驾驶技术的一个发展方向。
大模型能给人工智能产业带来很大影响。现在作为一个通用的技术平台,通用的基础架构,会影响智能引导的相关行业。这里面包括新闻媒体行业,服务行业,教育行业,影视行业,娱乐行业,制造行业,汽车行业,交通行业,医疗行业,销售行业,金融行业,保险行业等。特别现在的这些技术还以自然语言技术为基础,未来发展应用到视频视觉方面将影响越来越广泛。人工智能他掌握的棋谱,他掌握的语料库,文字库,数据库等大得多。比人类所掌握的文字和知识多得多的智能进行文字行业工作。另外对以琴棋书画等为代表的行业,可以去学习,去模仿,去生成。将会影响各行各业,进入到千家万户。影响所有吃住行各个行业,现在生产和发展经济的影响才刚刚开始。要热情的拥抱它,包容看待它,新技术可能会出现一些问题,这些问题在发展中更好解决。任何一个技术的开始都会有正面和负面。人工智能技术能让机器更智慧,更灵活,更安全。让大家去构建智能的计算机,智能的处理器,智能的机器人,智能的手机,智能的汽车,智能的交通,智能的城市,智能的元宇宙等。
元宇宙领域技术发展迅速。元宇宙(Metaverse)是一个概念的集合,是技术和商业模式的结合体。用数字技术构建,由现实世界映射以及超越现实世界,可与现实世界交互的虚拟世界。在人工智能、大数据、云计算、互联网、物联网、边缘计算、数字孪生、区块链、机器人、智能汽车、智能手机、音视频、流媒体、虚拟现实、增强现实、VR/AR/XR、3D引擎,渲染引擎,人机交互、脑机交互、AIGC、算力平台,超级计算机,量子计算,5G/6G通信技术等众多先进技术聚合发展,元宇宙将形成新的生态。现在人工智能大模型技术同样可以助推元宇宙发展。我们做了一些和元宇宙相关的核心技术,例如沉浸式3D地图,这种利用AI大模型技术将海量二维照片合成为3D图像的技术,属于一种虚拟和现实的元宇宙空间塑造。还有虚拟人核心技术,2D/3D形象生成,语音克隆,人工智能还能赋予虚拟人灵魂等。2021年称为元宇宙元年,这一年只有技术最顶尖且最具科技发展战略眼光的人做了元宇宙,最知名的要数扎克伯格,最早的要数我们。未来几年元宇宙科技市场规模将逐步达到1万亿美元水平,当元宇宙技术被广泛应用后,未来元宇宙市场规模将达到27万亿美元以上。
风靡全球的ChatGPT,同样采用了Googleai大模型Transformer,这让ChatGPT站在了巨人的肩膀上,您作为核心技术的缔造者之一,如何看待大模型技术的应用与发展呢?2017年我们提出了Transformer 架构,奠定了大模型领域主流的算法架构基础。Transformer被应用到了自然语言处理,语音识别,计算机视觉,强化学习,深度学习等领域。最近推出了PaLM-E,通用AI模型,也是一种基于Transformer架构的自回归(Autoregressive)模型,参数量高达5620亿,是GPT-3参数量1750亿的3倍多。PaLM-E是PaLM-540B语言模型与ViT-22B视觉Transformer模型的结合体。通过在预训练的语言类大模型中嵌入图像、状态、感知等多类型数据,PaLM-E模型不仅具备通用化语言能力,还能执行视觉问答、感知推理、机器操作等复杂的任务。大模型在大规模无标注数据上进行训练学习产出特征和规则。基于大模型进行应用开发时,将大模型进行微调,在特定任务上的小规模有标注数据进行二次训练,也可以不进行微调,就可以完成多个应用场景。Transformer 使深度学习模型参数达到了上亿的规模。大模型BERT也是基于 Transformer 的双向深层预训练模型,其参数超过 3 亿规模。最近流行的ChatGPT,DALL·E,Imagen,PaLM-E等都属于基Transformer架构的上层应用。Transformer的主体框架是encoder和decoder的结构。Transformer整个网络结构完全由Attention机制组成,采用6层Encoder和Decoder结构。每一层都由多个注意力机制模块和前馈神经网络模块组成。encoder用于将输入序列编码成一个高维特征向量表示,decoder则用于将该向量表示解码成目标序列。还使用了残差连接和层归一化等技术来加速模型收敛和提高模型性能。Transformer架构如图所示:
对比传统循环神经网络模型,Transformer模型具有更好的并行性能和更短的训练时间,在自然语言处理领域中得到了广泛应用。在自然语言处理中,序列数据的输入包括一系列文本、语音信号、图像或视频等。传统的循环神经网络(RNN)模型已经在这些任务中取得了很好的效果,但是该模型存在着两个主要问题:一是难以并行计算,二是难以捕捉长距离依赖关系。Transformer模型能够对序列中的每个元素进行全局建模,并在各个元素之间建立联系。与循环神经网络模型相比,Transformer模型具有更好的并行性能和更短的训练时间。
Transformer模型的核心是自注意力机制(Self-Attention Mechanism),为每个输入序列中的每个位置分配一个权重,然后将这些加权的位置向量作为输出。自注意力机制的计算过程包括三步,1.计算注意力权重:计算每个位置与其他位置之间的注意力权重,即每个位置对其他位置的重要性。2.计算加权和:将每个位置向量与注意力权重相乘,然后将它们相加,得到加权和向量。3.线性变换:对加权和向量进行线性变换,得到最终的输出向量。通过不断堆叠多个自注意力层和前馈神经网络层,这样就构建出了Transformer大模型。
2023年成为人工智能技术发展关键的一年。1月份人工智能工具ChatGPT的创建者OpenAI宣布获得包括微软在内的100亿美元的投资,公司的估值达到300亿美元。2月7日微软股票市值因此大涨超800亿美元约合5450亿元人民币,为五个月以来的新高。Googleai之外,目前美国OpenAI、微软、脸书、英伟达等公司纷纷布局人工智能大模型和元宇宙科技产业。中国的百度,阿里,华为等企业也加入技术研发赛道。大模型(人工智能预训练大模型)已经成为人工智能领域的新高地,正在推动人工智能技术和元宇宙技术发展和应用,引发人工智能技术发展浪潮。(作者:李小华)
责任编辑:kj005
文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com