AI能力词典:11大核心模块全景图谱
AI能力词典系统梳理了主流AI能力版图,涵盖11大核心模块,聚焦”能力-模型-场景”的落地映射,帮助快速定位需求、选型方案。
📋 前言
随着人工智能技术的飞速发展,AI能力版图日益丰富。从基础模态感知到复杂决策执行,从文本图像处理到科学计算加速,AI的应用边界不断拓展。本文系统梳理了主流AI能力体系,涵盖11大核心模块,帮助开发者快速定位需求、选择合适的模型与方案。
一、基础模态能力(核心感知与生成)
1. 文本任务(NLP/LLM)
核心能力:
- 基础语言建模:词/句/文档向量表示
- 文本分类与匹配:情感分析、相似度计算
- 信息抽取:命名实体识别、关系抽取
- 文本生成与编辑:写作辅助、摘要、翻译
代表模型:
GPT系列、BERT、Qwen、GLM、Claude、Llama
应用场景:
- 内容创作(写作、文案生成)
- 客服智能问答
- 舆情分析
- 文档智能处理
2. 图像模态
核心能力:
- 底层视觉:去噪、增强、超分辨率
- 图像分类/识别:物体识别、场景理解
- 目标检测:定位与识别图像中的多个对象
- 图像分割:像素级分类
- 关键点检测:姿态估计、人脸关键点
- OCR:文字识别与提取
- 图像生成与编辑:风格迁移、图像修复
代表模型:
DALL·E、Midjourney、YOLO系列、SAM、Stable Diffusion
应用场景:
- 安防监控
- 图像修整与美化
- 文档数字化
- 设计辅助
3. 3D/空间模态
核心能力:
- 3D感知与重建
- 场景理解与定位
- 3D生成与编辑
代表模型/技术:
NeRF(神经辐射场)、PointNet、Gaussian Splatting
应用场景:
- AR/VR应用
- 数字孪生
- 3D打印
- 机器人导航
4. 音频模态
核心能力:
- 波形处理:降噪、分离
- 语音识别(ASR):语音转文字
- 说话人技术:声纹识别、说话人分离
- 音频理解:情感识别、内容分析
- 语音/音乐生成:TTS、音乐创作
代表模型:
Whisper、Tacotron、VALL-E、MusicGen
应用场景:
- 会议转写
- 智能音箱
- 音乐创作
- 音频内容审核
5. 视频模态
核心能力:
- 传统视频处理:增强、超分、稳定
- 视频理解:动作识别、目标追踪
- 视频+语言多模态任务:视频问答、视频描述
- 视频生成与编辑
- 数字人/虚拟人
代表产品:
Sora、Runway Gen-2、Pika Labs
应用场景:
- 短视频创作
- 虚拟直播
- 安防监控
- 内容营销
二、时序与决策能力
6. 时间序列与时序决策
核心能力:
- 经典统计建模:ARIMA、VAR、指数平滑
- 深度学习时序建模:LSTM、时序Transformer、TCN
- 异常与变点检测
- 时空序列建模
代表模型:
LSTM、Temporal Fusion Transformer、N-BEATS
应用场景:
- 销量预测
- 设备监控与预警
- 交通调度
- 能源预测
三、智能执行与知识增强
7. Agent与工具调用
核心能力:
- 工具调用:检索、代码执行、媒体生成
- 工作流编排
- 多Agent协作
核心价值:
- 自动规划任务
- 调用外部系统(API、数据库、文件系统)
- 执行复杂业务流程
应用场景:
- 自动化运营
- 复杂业务流程机器人(RPA+AI)
- 智能客服系统
- 开发辅助(代码生成+执行+调试)
8. 检索增强与知识层
核心能力:
- RAG(检索增强生成):向量检索+语义匹配
- 结构化数据问答:SQL生成与执行
- 知识图谱问答
核心价值:
- 解决模型知识时效性问题
- 提升回答准确性
- 降低幻觉风险
应用场景:
- 企业知识库问答
- BI分析自动化
- 文档智能检索
- 专业领域问答(医疗、法律、金融)
四、安全与评估体系
9. 安全、对齐与评估
核心能力:
- 能力评估:通用/专业基准测试(MMLU、GSM8K、HumanEval)
- 价值对齐:SFT(监督微调)、RLHF(人类反馈强化学习)
- 内容安全与合规:敏感内容检测、偏见消除
代表基准:
- 通用能力:MMLU、C-Eval
- 编码:HumanEval、MBPP
- 数学:GSM8K、MATH
- 推理:ARC、BIG-Bench
应用价值:
- 保障模型可靠、可控
- 支撑高风险行业应用(医疗、金融、法律)
- 确保输出符合伦理与法规要求
五、前沿与工程支撑
10. AI for Science(AI4Science)
核心能力:
- 分子与药物设计:分子生成、属性预测
- 蛋白质结构建模:结构预测、功能分析
- 物理仿真加速:流体动力学、电磁场模拟
- 材料发现:新材料设计、性能预测
- 数学推理:定理证明、公式推导
- 科学工作流自动化
代表模型:
AlphaFold(蛋白质结构预测)、PINN(物理信息神经网络)、GNoME(材料发现)
应用场景:
- 药物研发
- 新材料设计
- 气候模拟
- 基础科学研究
11. 平台与工程能力
核心能力:
- 模型训练与微调:预训练、PEFT(LoRA、QLoRA)、Prompt Tuning
- 部署与推理优化:量化、蒸馏、模型压缩
- MLOps运维:模型版本管理、持续训练/部署
- 监控与成本管理:性能监控、成本优化
核心价值:
- 提供从模型研发到落地的全流程工程支撑
- 降低AI应用门槛
- 提升模型推理效率
- 控制落地成本
应用场景:
- 企业级AI平台建设
- AI中台与能力复用
- 模型即服务(MaaS)
- 边缘计算部署
📊 能力-模型-场景映射表
| 模块 | 核心能力 | 代表模型/技术 | 典型场景 |
|---|---|---|---|
| 文本任务 | NLP/LLM | GPT、BERT、Qwen | 写作、客服、舆情分析 |
| 图像模态 | 视觉处理 | DALL·E、YOLO、SAM | 安防、修图、文档数字化 |
| 3D/空间 | 3D感知 | NeRF、PointNet | AR/VR、数字孪生 |
| 音频模态 | 语音处理 | Whisper、Tacotron | 会议转写、智能音箱 |
| 视频模态 | 视频处理 | Sora、Runway | 短视频创作、虚拟直播 |
| 时序决策 | 时序建模 | LSTM、Transformer | 销量预测、设备监控 |
| Agent | 工具调用 | LangChain、AutoGPT | 自动化运营、流程机器人 |
| 检索增强 | RAG | Vector DB、LangChain | 知识库问答、BI分析 |
| 安全评估 | 对齐与安全 | RLHF、Red Teaming | 医疗、金融等高风险场景 |
| AI4Science | 科学计算 | AlphaFold、PINN | 药物研发、材料发现 |
| 工程能力 | MLOps | LoRA、量化、蒸馏 | 企业AI平台、边缘部署 |
🎯 快速选型指南
按需求选择:
- 内容创作 → 文本任务(GPT/Claude)+ 图像模态(DALL·E/Midjourney)
- 智能客服 → 文本任务(LLM)+ 检索增强(RAG)
- 监控预警 → 时序决策(LSTM/Transformer)+ 图像模态(目标检测)
- 知识管理 → 检索增强(RAG)+ 知识图谱
- 自动化流程 → Agent(工具调用)+ 工作流编排
- 科研创新 → AI4Science(AlphaFold、PINN)
💡 总结
AI能力版图持续扩张,从基础模态到复杂决策,从单点能力到系统化工程,AI正在重塑各行各业。掌握”能力-模型-场景”的映射关系,是快速落地AI应用的关键。
核心要点:
- 11大模块覆盖AI全栈能力
- 每个模块都有成熟模型与落地场景
- 选型需结合业务需求、成本、精度综合考虑
- 工程能力(MLOps)是规模化落地的保障
持续更新:AI技术迭代快速,本文将持续更新最新能力与模型进展。
标签: #AI #大模型 #能力图谱 #AI应用