AI能力词典：11大核心模块全景图谱

AI能力词典系统梳理了主流AI能力版图，涵盖11大核心模块，聚焦”能力-模型-场景”的落地映射，帮助快速定位需求、选型方案。

📋 前言

随着人工智能技术的飞速发展，AI能力版图日益丰富。从基础模态感知到复杂决策执行，从文本图像处理到科学计算加速，AI的应用边界不断拓展。本文系统梳理了主流AI能力体系，涵盖11大核心模块，帮助开发者快速定位需求、选择合适的模型与方案。

一、基础模态能力（核心感知与生成）

1. 文本任务（NLP/LLM）

核心能力：

基础语言建模：词/句/文档向量表示
文本分类与匹配：情感分析、相似度计算
信息抽取：命名实体识别、关系抽取
文本生成与编辑：写作辅助、摘要、翻译

代表模型：
GPT系列、BERT、Qwen、GLM、Claude、Llama

应用场景：

内容创作（写作、文案生成）
客服智能问答
舆情分析
文档智能处理

2. 图像模态

核心能力：

底层视觉：去噪、增强、超分辨率
图像分类/识别：物体识别、场景理解
目标检测：定位与识别图像中的多个对象
图像分割：像素级分类
关键点检测：姿态估计、人脸关键点
OCR：文字识别与提取
图像生成与编辑：风格迁移、图像修复

代表模型：
DALL·E、Midjourney、YOLO系列、SAM、Stable Diffusion

应用场景：

安防监控
图像修整与美化
文档数字化
设计辅助

3. 3D/空间模态

核心能力：

3D感知与重建
场景理解与定位
3D生成与编辑

代表模型/技术：
NeRF（神经辐射场）、PointNet、Gaussian Splatting

应用场景：

AR/VR应用
数字孪生
3D打印
机器人导航

4. 音频模态

核心能力：

波形处理：降噪、分离
语音识别（ASR）：语音转文字
说话人技术：声纹识别、说话人分离
音频理解：情感识别、内容分析
语音/音乐生成：TTS、音乐创作

代表模型：
Whisper、Tacotron、VALL-E、MusicGen

应用场景：

会议转写
智能音箱
音乐创作
音频内容审核

5. 视频模态

核心能力：

传统视频处理：增强、超分、稳定
视频理解：动作识别、目标追踪
视频+语言多模态任务：视频问答、视频描述
视频生成与编辑
数字人/虚拟人

代表产品：
Sora、Runway Gen-2、Pika Labs

应用场景：

短视频创作
虚拟直播
安防监控
内容营销

二、时序与决策能力

6. 时间序列与时序决策

核心能力：

经典统计建模：ARIMA、VAR、指数平滑
深度学习时序建模：LSTM、时序Transformer、TCN
异常与变点检测
时空序列建模

代表模型：
LSTM、Temporal Fusion Transformer、N-BEATS

应用场景：

销量预测
设备监控与预警
交通调度
能源预测

三、智能执行与知识增强

7. Agent与工具调用

核心能力：

工具调用：检索、代码执行、媒体生成
工作流编排
多Agent协作

核心价值：

自动规划任务
调用外部系统（API、数据库、文件系统）
执行复杂业务流程

应用场景：

自动化运营
复杂业务流程机器人（RPA+AI）
智能客服系统
开发辅助（代码生成+执行+调试）

8. 检索增强与知识层

核心能力：

RAG（检索增强生成）：向量检索+语义匹配
结构化数据问答：SQL生成与执行
知识图谱问答

核心价值：

解决模型知识时效性问题
提升回答准确性
降低幻觉风险

应用场景：

企业知识库问答
BI分析自动化
文档智能检索
专业领域问答（医疗、法律、金融）

四、安全与评估体系

9. 安全、对齐与评估

核心能力：

能力评估：通用/专业基准测试（MMLU、GSM8K、HumanEval）
价值对齐：SFT（监督微调）、RLHF（人类反馈强化学习）
内容安全与合规：敏感内容检测、偏见消除

代表基准：

通用能力：MMLU、C-Eval
编码：HumanEval、MBPP
数学：GSM8K、MATH
推理：ARC、BIG-Bench

应用价值：

保障模型可靠、可控
支撑高风险行业应用（医疗、金融、法律）
确保输出符合伦理与法规要求

五、前沿与工程支撑

10. AI for Science（AI4Science）

核心能力：

分子与药物设计：分子生成、属性预测
蛋白质结构建模：结构预测、功能分析
物理仿真加速：流体动力学、电磁场模拟
材料发现：新材料设计、性能预测
数学推理：定理证明、公式推导
科学工作流自动化

代表模型：
AlphaFold（蛋白质结构预测）、PINN（物理信息神经网络）、GNoME（材料发现）

应用场景：

药物研发
新材料设计
气候模拟
基础科学研究

11. 平台与工程能力

核心能力：

模型训练与微调：预训练、PEFT（LoRA、QLoRA）、Prompt Tuning
部署与推理优化：量化、蒸馏、模型压缩
MLOps运维：模型版本管理、持续训练/部署
监控与成本管理：性能监控、成本优化

核心价值：

提供从模型研发到落地的全流程工程支撑
降低AI应用门槛
提升模型推理效率
控制落地成本

应用场景：

企业级AI平台建设
AI中台与能力复用
模型即服务（MaaS）
边缘计算部署

📊 能力-模型-场景映射表

模块	核心能力	代表模型/技术	典型场景
文本任务	NLP/LLM	GPT、BERT、Qwen	写作、客服、舆情分析
图像模态	视觉处理	DALL·E、YOLO、SAM	安防、修图、文档数字化
3D/空间	3D感知	NeRF、PointNet	AR/VR、数字孪生
音频模态	语音处理	Whisper、Tacotron	会议转写、智能音箱
视频模态	视频处理	Sora、Runway	短视频创作、虚拟直播
时序决策	时序建模	LSTM、Transformer	销量预测、设备监控
Agent	工具调用	LangChain、AutoGPT	自动化运营、流程机器人
检索增强	RAG	Vector DB、LangChain	知识库问答、BI分析
安全评估	对齐与安全	RLHF、Red Teaming	医疗、金融等高风险场景
AI4Science	科学计算	AlphaFold、PINN	药物研发、材料发现
工程能力	MLOps	LoRA、量化、蒸馏	企业AI平台、边缘部署

🎯 快速选型指南

按需求选择：

内容创作 → 文本任务（GPT/Claude）+ 图像模态（DALL·E/Midjourney）
智能客服 → 文本任务（LLM）+ 检索增强（RAG）
监控预警 → 时序决策（LSTM/Transformer）+ 图像模态（目标检测）
知识管理 → 检索增强（RAG）+ 知识图谱
自动化流程 → Agent（工具调用）+ 工作流编排
科研创新 → AI4Science（AlphaFold、PINN）

💡 总结

AI能力版图持续扩张，从基础模态到复杂决策，从单点能力到系统化工程，AI正在重塑各行各业。掌握”能力-模型-场景”的映射关系，是快速落地AI应用的关键。

核心要点：

11大模块覆盖AI全栈能力
每个模块都有成熟模型与落地场景
选型需结合业务需求、成本、精度综合考虑
工程能力（MLOps）是规模化落地的保障

持续更新：AI技术迭代快速，本文将持续更新最新能力与模型进展。

标签： #AI #大模型 #能力图谱 #AI应用