产品人必须要知道的AI最新基础概念！

一篇文章解读几大基础概念

一.Agent概念

在大语言模型LLM领域中 Agent是一个人工智能系统的设计理念

Agent是一个人工智能体的概念和应用模式。把多个智能功能系统，按照一定的流程组合起来，解决特定的问题。

它旨在模拟人类或其他智能体的行为和决策过程。Agent被设计为能够在特定环境中运作，能够感知环境状态，处理信息，制定策略，执行行动，并根据反馈调整其行为。

Agent 的本质是教大模型一些思考方法论，就好像人们已经有了知识，但可能缺乏思考的方法。因此，Agent 通过一个框架传授方法论，这个框架具有一些具体模块，支持整个结构的运行。

agent分为loop agent和work flow agent，编码ai大部分都是loop agent，大模型自主规划和决策，调用各种mcp。看使用场景吧

流程型智能体

coze,dify属于workflow智能体

可以规划和行为，但是不自主，人们提前设定好模型和流程

1.coze全是入门级吧，真正专业的智能体还是得做软件工程和数据治理！智能体能随时中断，你提新需求它跟根据上下文自动规划新的工作流程。扣子是流程固定了，要么根据流程直接产出结果。中断了是没结果输出的，更改需求它需要把制定的工作流程再完整的跑一遍，而且产出固定。

2.最近也在用dify，怎么说呢，做着做着，还是感觉自己在写代码写函数，搞封装，做抽象。只不过不是用编程语言，而是在用它的工作流模块，如果业务简单直接，会省时省事，但是一旦业务成指数级复杂，逻辑是那种交织的网状形态，你会发现在用一种全新的编程语言做开发[捂脸][捂脸]

coze虽然主打低代码，但其实搞自动需要精通编程，搞短视频需要精通文案，SD等，仅会个自动流，只能自娱自乐
Coze 工作流符合智能体的全部定义，本质上就是一种智能体，但它是工程化的智能体，而非通用型智能体。

agent微调、worflow、RAG、MCP……等等，都是agent的落地。就好比传输层（tcp/udp）之后的应用层(http、ws、ssh...)。目的都是为了各种业务场景诞生的。RAG、agent微调是为了回答更精准，更符合特殊的场景；MCP、A2A是为了帮助用户去完成一系列任务而衍生的

目前coze dify更实用。稳定度更高啊。生产环境更好吧。

通用的智能体

claude，openai,国内openmanus 可以通用，循环处理，自主规划和行为

通用的智能体也是工作流来完成，只是它根据需求自动调用，扣子是人来手动决定用什么，一个手动，一个自动调用而已！

感知规划执行反馈链条。全流程由ai自己判断。工作流就是按照原来预定设计的流程跑，他自己不判断，会判断的是之前预定的流程
真正的生产环境需要的是精确稳定的工作流程，准确的产出物，而当前Agent范式中workflow是最优解

当前状态：落地最多的反而是工作流，真正落地的agent反而很少，agent不确定性太多
而且workflow和agent没有那么明确的界定，workflow内可以有agent，agent内也可以有workflow,不管是工作流还是智能体没有谁更高级，关键是看场景的打磨。

二.AIGC

AIGC（Artificial Intelligence Generated Content）即人工智能生成内容，指通过人工智能技术自动生成文本、图像、音频、视频等内容，是继专业生产内容（PGC）、用户生产内容（UGC）之后的新型内容创作方式。 [1阿里巴巴]

核心特征

AIGC基于深度学习和大数据分析，能够高效生成重复性内容，例如新闻稿、代码片段等，显著提升生产效率。同时，其通过机器学习分析用户偏好，实现个性化推荐，如电商推荐商品、内容平台推荐视频等。 ‌12

主要应用场景

‌新闻与媒体‌：自动撰写标准报道，释放人力投入深度调查。
‌软件开发‌：生成代码片段加速开发流程。
‌电商与内容平台‌：根据用户行为推送个性化商品或内容。
‌医疗与金融‌：分析数据辅助决策制定。 ‌13

潜在风险：AIGC生成内容可能存在事实性争议，需提升信息鉴别能力以避免误导。 ‌

AIGC三款强大软件

根据当前AI内容生成工具的应用场景，以下三款软件在各自领域展现了突出性能：

Pixso AI

面向产品设计领域，提供白板、原型设计、交付管理等一体化协作功能。通过AI技术可生成5种风格图片素材，支持商业级设计需求，并具备智能设计规范生成能力，简化非专业设计师的创作流程。 ‌1

笔启AI论文

专为学术写作设计，支持多语种论文生成（含中、英、日等6种语言），集成DeepSeek-V3.1学术引擎与AI4.0技术。提供50万字容量支持、40篇知网参考文献及免费三级大纲生成，兼容数据表/图/公式/代码可视化处理，查重率稳定≤10%。 ‌23

CodeGenius

针对编程场景，可自动生成多种语言代码框架。支持应用程序、网站等开发需求，覆盖主流编程语言及函数接口生成，显著提升编程效率。

三.MCP

MCP主要有以下两种含义：

1.模型上下文协议（Model Context Protocol）
由人工智能企业Anthropic于2024年11月提出，旨在解决大模型与外部数据源、工具的交互碎片化问题，提供统一的连接标准。通过客户端-服务端架构，实现大模型与数据库、文件系统等资源的无缝对接，被称为AI领域的“USB接口”。 ‌
2多网内容提供者（Multinet Content Provider）
指在电话、电脑、电视三网融合基础上扩展至物联网等多元网络环境中的内容整合商，负责协调不同网络环境下的内容与服务提供。 ‌

需根据具体场景区分两种定义。

A2A是区域对区域（area to area）的英文缩写，中文亦称“中心对中心”，指两个区域性社区（如小区、校园等）之间建立的联系与关系 [2]。该概念区别于B2B（企业对企业）、B2C（商家对客户）、C2C（个人对个人）等电子商务模式。
A2A通常与A2B（区域对企业）、A2C（区域对个人）共同构成区域导向的商务分类体系。其应用场景聚焦于需实地体验的线下实体服务场所，例如酒吧、KTV、餐馆等业态，强调消费者必须到线下场所才能完成服务消费的特性 [2]。
该术语的提出拓展了传统电子商务模式的分类维度，通过与O2O（线上对线下）模式的对比，突出了区域性单元在商务活动中的地理属性 [1-2]。

四.Prompt概念

Prompt是一种通过设计特定的提示词或句子，引导模型生成更符合用户意图的输出的方法。例如，我们可以为模型添加一些关于期望回答的提示信息，以帮助模型更好地理解问答的结构和规则。

Prompt的组成包四个元素：

Instruction（指令，必需）：告诉模型该怎么做，如何使用外部信息（如果提供），如何处理查询并构建 Out。

Context（上下文信息，可选）：充当模型的附加知识来源。这些可以手动插入到提示中，通过矢量数据库（Vector Database）检索（检索增强）获得，或通过其他方式（API、计算等）引入。

Input Data（需要处理的数据，可选）：通常（但不总是）是由人类用户（即提示者）In 到系统中的查询。

Output Indicator（要输出的类型或格式，可选）：标记要生成的文本的开头。

五.RAG概念

RAG（Retrieval Augmented Generation）检索增强生成，即大模型LLM在回答问题或生成文本时，会先从大量的文档中检索出相关信息，然后基于这些检索出的信息进行回答或生成文本，从而可以提高回答的质量，而不是任由LLM来发挥。RAG技术使得开发者没有必要为每个特定的任务重新训练整个大模型，只需要外挂上相关知识库就可以，即可为模型提供额外的信息输入，提高回答的准确性。RAG技术工作流程可以理解为：智能回答+参考了百度推荐的答案内容

RAG能解决LLM的哪些问题

即使在LLM有较强的解决问题的能力，仍然需要RAG技术的配合，因为能够帮助解决LLM存在的以下几个问题。

（1）模型幻觉问题：LLM文本生成的底层原理是基于概率进行生成的，在没有已知事实作为支撑的情况下，不可避免的会出现一本正经的胡说八道的情况。而这种幻觉问题的区分是比较困难的，因为它要求使用者自身具备相应领域的知识。

（2）知识的局限性：模型自身的知识完全源于它的训练数据，而现有的主流大模型（ChatGPT、文心一言、通义千问…）的训练集基本都是构建于网络公开的数据，对于一些实时性的、非公开的或离线的数据是无法获取到的，这部分知识也就无从具备。

（3）数据安全问题：开源的大模型是没有企业内部数据和用户数据的，如果企业想在保证数据安全的前提下使用LLM，一种比较好的解决办法就是把数据放在本地，企业数据的业务计算全部放在本地完成。而在线的LLM只是完成一个归纳总结的作用。

六.NLP

自然语言处理( Natural Language Processing, NLP)是人工智能领域的重要研究方向, 融合了语言学、计算机科学、机器学习、数学、认知心理学等多个学科领域的知识，是一门集计算机科学、人工智能和语言学于一体的交叉学科，它包含自然语言理解和自然语言生成两个主要方面, 研究内容包括字、词、短语、句子、段落和篇章等多种层次，是机器语言和人类语言之间沟通的桥梁。它旨在使机器理解、解释并生成人类语言，实现人机之间有效沟通，使计算机能够执行语言翻译、情感分析、文本摘要等任务。

自然语言认知和理解是让计算机把输入的语言变成有意义的符号和关系，然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言。

自然语言处理的任务包括研制表示语言能力和语言应用的模型, 建立计算框架来实现并完善语言模型，根据语言模型设计各种实用系统及探讨这些系统的评测技术。

七.LLM基本概念

从字面意思来讲，LLM 是 Large Language Model 这三个单词的首字母缩写，意为大语言模型。大型语言模型（LLM）是一种基于深度学习技术的自然语言处理工具，能理解和生成文本。通过大量语料库训练，LLM 在翻译、写作、对话等任务中展现出卓越的能力。常见的应用包括自动问答、生成文本、文本摘要等。由于其多模态特性，LLM 还可用于图像和音频处理，为多领域带来创新可能。

LLM的发展历史

在 LLM 的发展过程中有哪些重要的里程碑事件的话，

2017年 Vaswani 等人提出Transformer架构绝对是能算得上之一。

GPT（Generative Pretrained Transformer）和 BERT（Bidirectional Encoder Representations from Transformers）这两个词中的 T 就是 Transformer 架构。

Transformer 架构是一种基于自注意力机制的神经网络结构，它完全颠覆了之前以循环神经网络（RNN）为主导的序列建模范式。（更早的CNN卷积神经网络）Transformer 架构的出现，实现了并行计算和高效的上下文捕获，极大地提高了自然语言处理的性能。可以说，先有Transformer，后有 GPT 以及 BERT。

本文地址：https://www.moonpm.com/1527.html
关注我们：请关注一下我们的微信：扫描二维码产品设计研究与产品经理交流中心

（鼠标移入红色字）
版权声明：本文为原创文章，版权归 admin 所有，欢迎分享本文，转载请保留出处！