一切发展都太快了,二月初本想写一篇关于中间层的文章,随着我季度性的拖延与 AI 周单位的发展,这篇文章几近辗转,从一种预判成为了新共识。那么,就权当综述留作记录,但仍然欢迎感兴趣的朋友多交流(文末会放我的微信

GenAI 的三次范式迁移

笔者注:

GenAI 历经 AIGC - - AI 的三大发展阶段,既可以看到生成式 AI 领域的日新月异发展,也是大家急切预判下一阶段将会是什么。但逐渐形成共识的是,脑子有了,我们需要有更具有性价比的可信任脑子,也需要有更复杂的智能系统(记忆、多模态、执行与慢思考的规划能力)。

在这个层面, 也呈现出两种商业形态的可能,围绕 统一 C 端入口的 生态,或者成为最强大的一种个人 Agent。但无论是哪一种,都是除了 MaaS 的计量计费外,对 AI 世界模式的新玩法增量,持续期待。

当然,我始终相信模型会形成开放的生态系统,将一切技术垄断敲碎或抹平。这个世界永远不缺乏的是左派精神,而技术开源圈更是如此。

那么,在这部分我会基于一个有趣的框架(来自 AI 范儿 CPO[1])作进一步拓展与解释:

1. AIGC:

大模型的炼丹(pre-train)与挖矿()

去年下半年打得火热的各类生成式内容,从不同模态出发的商业考虑成为一个重要的视角,到各类 的小报横飞,大家玩的不亦乐乎。虽然我觉得从模态出发的设想更应是技术脉络的发展,而不能构成一个商业项目的叙事性…

范式是什么意思_三大范式_范式和张劭

到今年呈现出来 -Ops 新开发方式,诸如 类的用例抽象与模块化组合能力、 、 API 函数调用能力、 管理与分享平台等 的工作,会在下文展开详细讲,这里不做过多赘述。

2. :

大模型蒸馏与指令微调

这部分主要参考

3~4 月份开源社区下微调 LLaMA 的框架异常繁荣,我们为之兴奋。我们看到的是——底层技术正在被开源力量往越来越透明的方向驱动,通过技术、信息与认知的共享,高性能、低成本、高效调参的开源模型将会成为市场重要的可选项,并持续赋能国内市场。在未来,会有大批基于开源底座模型的自研小模型三大范式,提供垂类服务,并享受模型升级的福利。

但事实上,这一系列羊驼模型的本质是 GPT 形似模型,即“LLaMA + 指令遵循微调 + GPT 3.5/GPT 4 自动化评估”的范式,且指令遵循数据往往也来自 或 GPT-4 生成。因而,抛开媒体的疯狂炒作,这类模型存在明显的缺陷,即只是看起来像那么回事,但实际上降低了模型的 ,甚至如果真的观察它们的事实准确度的话,会发现它们编造的比例比原始模型还要高。

由于 LLaMA 的可商用问题,LLMs 并未进一步大爆发,达到 CVSD 的规模,但仍然是最主要的开源基础模型,而 、 等模型的生态繁荣仍需要时间。

受到 Base Model(LLaMA)的限制,在复杂推理和代码任务上很弱,难以进入正向数据飞轮,因此越来越多团队开始探索「预训练环节」和「更接近真实的人类反馈数据」,出现 、、、MPT 等新的模型。但总体上,明确的基准与规模化生产的判断框架仍是缺失的。

3. AI :

大模型智能体

六月底 联创 在一场关于 AI 主题的黑客马拉松上强调 AI Agent 在 内部的高度关注——“如果一篇论文提出了某种不同的训练方法, 内部的 Slack 上会嗤之以鼻,认为都是他们玩剩下的。但是当新的 AI 论文出来的时候,他们会认真兴奋的讨论”。

作为二进宫 , 也在 简介上提到他这次的主要工作是建立一个类似于漫威电影钢铁侠的智能体助手 J.A.R.V.I.S。此外,这场演讲他还提到应该对神经科学的重视,以及毕竟历经自动驾驶——一类共性问题难以避免,即“很容易建立演示,但实际上却很难做出产品来”,在这个意义上,科技竞赛是否又站在了同一起跑线呢?

同一时间, 应用研究主管 也写了一篇详尽的 Agent 文章,对每个模块的功能进行说明,并指出她对 Agent 未来应用前景的看好。

原文《LLM 》

三大范式_范式是什么意思_范式和张劭

Agent = LLM(大型语言模型)+ 记忆 + 规划技能 + 工具使用

简单来说,即以 LLMs 为核心控制器,再组合「规划 + 记忆 + 工具使用」的复杂智能系统三大范式,本质上是工程集大成者的应用探索,出现了 小镇(生成代理模拟)的应用案例与 、GPT- 和 等热门开源项目的概念验证。

1)规划:包括任务分解能力(CoT、思维树拓展更多可能性)与自我反思能力(ReAct 提示模版的反思框架、Chain of 即 CoH 输出注释与反馈);

2)记忆:即获取、存储、保留与随后检索信息的过程,包括短期记忆(上下文学习 )与长期记忆(一般是通过外部向量存储与检索作为长期存储与无限召回信息能力);

3)使用工具:通过调用外部 API 获取模型权重中缺少的额外信息,包括当前信息、代码执行能力、访问专有信息源等,通过微调使用外部工具的 , API 函数调用、 插件、 框架(任务规划器)。

软件开发 2.0

-Ops| 全新的开发范式

笔者注:

生成式 AI 作为一种变革性技术所具有的潜力越来越成为某种行业共识。

这意味着 GPT 自回归预训练语言模型技术路线(生成式而非分析式 AI)+ (上下文学习)使用模式的“阶段性胜利”;

三大范式_范式和张劭_范式是什么意思

也代表着 NLP 领域的范式迁移,AI 领域的新摩尔定律正在形成,即,大语言模型(LLMs)所展现的涌现能力突破“缩放定律”带来的效果锁定,大模型成为生成式 AI 时代的基础设施( Model)。通过调整下游任务来适应预训练模型,即有可能出现“一个模型包打天下”,并由此显现出全新的 AI 技术栈。

张俊林 | 通往 AGI 之路:大型语言模型(LLM)技术精要

1.工具层的必要性

尽管大语言模型(LLMs)呈现出强大的推理与生成能力,但并不能直接应用于具体场景,实现过程仍涉及多个辅助步骤,这也意味着存在解决大模型与使用者的中间层机会。

更甚至,工具层是释放基础大模型潜力的必要基建,核心在于模型生态系统的形成(即强大的 LLMs 不会成为单一垄断性资源),即除直接调用语言模型外,还存在数据感知(data-aware,即语言模型与数据源的连接)和代理性(,即允许语言模型与其环境交互)的普遍需求。

2. 的简单分类

在过去的市场调研与项目交流中,我们发现 能够大致分为三类,即

1)整合模型能力的编排使用环节,诸如以 为代表的前端开发框架;

2)弥合模型能力的模型增强与适配服务,如 (企业级 AI 基础模型,灵活可定制、数据隐私安全优先、支持多云)、 Face(模型框架,Model Hub 与一站式模型服务)、(模型部署&优化服务)与 (向量数据库)等;

3)围绕算力资源的限制、调度与使用效率的问题解决。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注