根据科技部的《中国人工智能大模型地图研究报告》,中国已发布79个 10亿参数规模以上的大模型。
后在7月份开展的2023年世界人工智能大会上,据记者不完全统计,有10多款大模型新品发布或宣布即将发布。至此,国内百模大战已经正式打响。
国内“百模大战”VS硅谷模型三层定位
随着“百模大战”的开始,行业的可选性越来越多,很多产品也开始趋于同质化。除了拼参数、比背景、看榜单,还有没有其他方法让我们更好地判断大模型的价值呢?
透过表象,追寻本质,才是检查技术的 “第一性原理”。 硅谷对技术和产品定位的把握从一定程度上来讲领先于国内。我们唯有研究其技术本质 , 才能从根本上解决技术卡脖子问题 。
(硅谷对模型格局的三层定位)
从硅谷对模型格局的三层定位可以看出:第一层是LLM ,也就是“造轮子”训练LLM,这也是国内“百模大战”的发力点,虽然准备周期长,但都是在地球上做的,不存在环境差异;第二层是 AI Infra — 基础设施层 ,LLM并不是独立的存在,他有自己赖以生存的生态。目前OpenAI ChatGPT 模型迭代训练用的技术栈依然依赖第三方开源的技术框架 Ray / Wandb两个机器学习框架;第三层是AI Service and Agent ,基于大模型构建了新一代基础设施后,所有应用都会进化成agent,自主智能时代就会开启。
模型是数据和算法的结合, 是数据的另一种表达方法 。未来 ,模型即数据 、 数据即模型。 今天信息已经无处不在了,接下来15-20年,模型就是知识,将无处不在。
预训练模型finetune能不能走出大模型行业未来?
今年第一季度,OpenLLaMa在在1T token上训练出来的130亿参数,而从平均表现来看,OpenLLaMA-7B和LLaMA-7B得分都是0.55 ,OpenLLaMA-13B和LLaMA-13B也都一样,为0.57 ,主打一个势均力敌。如此可见,O penLLaMa 7B和13B的分工展现出开源社区在核心项目突破上正在变得更团结 。 而且从全链路来看 , 开源社区已经发展到了全覆盖的阶段 , 每个环节都有头部的开源项目可用 。
大模型行业将整个注意力转向了Pre- Train环节 ,但试问 , 用预训练模型finetune能不能走出 大模型的未来 ?“LLaMA 7 B /13 B + 指令 = GPT 3 . 5 Level”是否过度炒作 ?目前国内市场上的大模型大多通过微调finetune的方式实现,也就是依靠现一众的开源小模型。预训练模型主导的“百模大战”,天花板非常低,因为微调的方法只是决定了让语言模型更适合于人类意图,但是它不能够决定模型的正确逻辑,因此同质化严重。
大模型落地 ,会有两个重要趋势:
1、 LLM大模型与实时动态的数据库信息的结合计算趋势。 向量库作为海马体解决的是静态数据的记忆和生成,以会话(Session)和事件(Event) 形式更为动态的信息流,在企业级计算环境里是被数据库计算处理。大模型和复杂数据治理环境中的数据库的交互将会是趋势。
2、 生成式代理 (G enerative Agent ) 会成为大语言模型服务的主要趋势之一。
LLM并不会以当下聊天的形式作为端到端服务独立存在,它更多会作为一个意图、判断和逻辑的生成单元,与各种Plug In执行功能相配合,形成新一代的信息自主驱动的处理结构。
此外 , 计算智能和机器学习依然会在较长周期内在AI基础设施中扮演重要角色 。 大语言模型基于的Transform序列化特征表达并不能完整覆盖复杂的树状逻辑和深层图网络复杂网络的隐含逻辑。人类一些先验的经验和知识依然需要被这些精确控制的逻辑单元做封装,更多可能会以plugin的形式出现,服务于大语言模型调用。比如目前在工业界工程实践常用的方式,要素的抽取用大语言模型,要素之间的逻辑判断、推理服务、计算依然要用到传统的专家系统知识图谱或者机器学习的预测或规划框架。
面向大模型的训练和开发部署 ,一定是更强的Base Model和比SFT指令数据更进一步反馈的数据是突破瓶颈的方向。开源社区模型不具备真正智能,更好的小模型来自大模型的Scale Down。
“百模大战”花落谁家 ?得看产业侧谁能提供完整的生态服务 !
“百模大战”都是在造轮子,而LLM只是AI生态的一部分,产业侧的企业需要理性看待市场并合理分工,要知道唯有学会如何造车才能发挥好轮子的价值。
“百模大战”都是在造轮子,但最后谁家的“轮子”能够成为基础设施?事实上,我们都知道,无论“轮子”多好,但只有“轮子”是肯定不行的。产业侧的企业需要理性看待市场并合理分工 , LLM需要组建自己的生态环境 , 这样才能最快的呈现Agent服务 。 能提供Agent服务一定会有一个前提 , 就是产业有完善的 AI Infra 。 因此 , 与其期待“百模大战”花落谁家 , 不如看看产业侧谁家能够提供完整的生态体系服务 。
在AI大模型赛道上,截至目前,不仅百度、阿里巴巴、腾讯、华为等国内互联网科技大厂置身其中,商汤科技、浪潮等独角兽企业或传统上市企业也纷纷加入。 真是忽如一夜AIGC来,千模万模竞相开。在国内大谈大模型的时候,硅谷资本 已经开始 热追向量数据库、 强化学习平台 、机器学习平台 ,这都是LLM生态的必不可少的技术 。
虽然这些技术因为LLM 在 AI 世界中变得炙手可热,但这些技术本身并不是新兴事物。国内起家的自研技术厂商天云数据,一直坚持数据供给与数据消费双轮驱动 。在数据供给侧,自研数据库产品Hubble 逻辑计划融合Vector ,用向量能力支撑大模型服务;2023 北京市数字经济标杆城市指定技术;荣膺Gartner代表性中国数据库厂商TOP5 。在数据消费侧,MaximAI-PaaS机器学习强化平台稳居全球资讯机构Forrester魔力象限图“认知层”第一象限公司,IDC技术 图谱 “递增型”、“变革型” 产品提供商。此外,天云数据私域大模型Elpis成为入围中国信通院 白名单 ,入选2023可信AI案例;作为新产品荣获新2023全球数字经济大会“产业创新成果” 。
在中国的市场,一个新事物落地要想完成最小级闭环很难通过生态的之间的合作来完成,因此需要一个全栈技术的持续投入。这些都需要科创公司就绪全栈AI的能力,尤其是LLM之上的AI Infra ,没有所谓秘方和捷径。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
责任编辑:kj005
文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com