📘 AI能力词典 - 11大核心模块全景解析

📖 引言

该AI能力词典系统梳理了主流AI能力版图，涵盖11大核心模块，聚焦”能力-模型-场景”的落地映射，帮助快速定位需求、选型方案。

🎯 一、基础模态能力（核心感知与生成）

1. 文本任务（NLP/LLM）

核心能力：

基础语言建模（词/句/文档向量表示）
文本分类与匹配
信息抽取
文本生成与编辑

代表模型：

GPT系列（GPT-3.5, GPT-4）
BERT
Qwen（通义千问）
Claude
LLaMA

应用场景：

✍️ 内容写作与创作
🤖 智能客服与对话系统
📊 舆情分析与情感分析
📝 文档摘要与翻译

2. 图像模态

核心能力：

底层视觉（去噪、增强）
图像分类/识别
目标检测
图像分割
关键点检测
OCR（光学字符识别）
图像生成与编辑

代表模型：

DALL·E（图像生成）
YOLO系列（目标检测）
SAM（Segment Anything Model，图像分割）
CLIP（图文匹配）
Midjourney, Stable Diffusion

应用场景：

🎨 图像创作与编辑
🔍 安防监控与人脸识别
📄 文档数字化与OCR
🏥 医疗影像分析
🚗 自动驾驶视觉感知

3. 3D/空间模态

核心能力：

3D感知与重建
场景理解与定位
3D生成与编辑

代表模型：

NeRF（神经辐射场）
PointNet
3D Gaussian Splatting

应用场景：

🥽 AR/VR（增强现实/虚拟现实）
🏙️ 数字孪生与城市建模
🖨️ 3D打印与逆向工程
🎮 游戏场景生成
🤖 机器人导航

4. 音频模态

核心能力：

波形处理（降噪、分离）
语音识别（ASR）
说话人技术（识别、分离）
音频理解
语音/音乐生成

代表模型：

Whisper（OpenAI的ASR模型）
Tacotron（语音合成）
VALL-E（语音克隆）
AudioLM（音频生成）

应用场景：

🎤 会议转写与录音转文字
🔊 智能音箱与语音助手
🎵 音乐创作与音频编辑
📞 电话客服质检
🎬 视频配音与字幕生成

5. 视频模态

核心能力：

传统视频处理（增强、超分）
视频理解（动作识别、目标追踪）
视频+语言多模态任务
视频生成与编辑
数字人/虚拟人

代表产品：

Sora（OpenAI视频生成）
Runway Gen-2
Pika Labs
HeyGen（数字人视频）

应用场景：

📱 短视频创作与编辑
🎭 虚拟直播与数字人
🚨 安防监控与异常检测
📺 视频内容理解与检索
🎬 影视特效制作

⏱️ 二、时序与决策能力

6. 时间序列与时序决策

核心能力：

经典统计建模（ARIMA、VAR）
深度学习时序建模（LSTM、时序Transformer）
异常与变点检测
时空序列建模

代表模型：

LSTM/GRU
Temporal Fusion Transformer
Informer
TimesNet

应用场景：

📈 销量预测与需求预测
⚙️ 设备监控与预测性维护
🚗 交通调度与流量预测
💹 金融时间序列预测
🌦️ 气象预测

🤖 三、智能执行与知识增强

7. Agent与工具调用

核心能力：

工具调用（检索、代码执行、媒体生成）
工作流编排
多Agent协作

代表产品：

AutoGPT
LangChain
ChatGPT Plugins
Claude Artifacts
Copilot

应用场景：

🤖 自动化运营与任务规划
🔄 复杂业务流程机器人
💻 代码生成与开发辅助
🔍 多源数据整合与分析

8. 检索增强与知识层

核心能力：

RAG（检索增强生成）
结构化数据与知识图谱问答

代表框架：

LangChain
LlamaIndex
Pinecone
Milvus
Neo4j（知识图谱）

应用场景：

📚 企业知识库问答
📊 BI分析与数据洞察
🏥 医疗诊断辅助
⚖️ 法律文档检索与分析
💼 客户支持与售后服务

🔒 四、安全与评估体系

9. 安全、对齐与评估

核心能力：

能力评估（通用/专业基准测试）
价值对齐（SFT、RLHF）
内容安全与合规

评估标准：

GLUE/SuperGLUE（语言理解）
MMLU（多任务语言理解）
HumanEval（代码生成）
Safety Benchmarks（安全评估）

应用场景：

🏥 高风险行业（医疗、金融）
🔒 内容审核与安全合规
📊 模型性能评估与监控
🎯 模型训练与优化

🔬 五、前沿与工程支撑

10. AI for Science（AI4Science）

核心能力：

分子与药物设计
蛋白质结构建模
物理仿真加速
材料发现
数学推理
科学工作流自动化

代表模型：

AlphaFold（蛋白质结构预测）
PINN（物理信息神经网络）
DiffDock（分子对接）
GNoME（材料发现）

应用场景：

💊 药物研发与发现
🔬 科学研究与实验设计
🏭 高端制造与材料科学
🌤️ 气候建模与天气预测
🧮 数学定理证明

11. 平台与工程能力

核心能力：

模型训练与微调（预训练、PEFT）
部署与推理优化
MLOps运维
监控与成本管理

代表平台：

Hugging Face
MLflow
Weights & Biases
SageMaker（AWS）
Vertex AI（Google Cloud）

应用场景：

🚀 模型研发与迭代
📦 生产环境部署
📊 模型监控与日志分析
💰 成本优化与资源管理
🔄 持续集成与部署（CI/CD）

📊 六、能力-模型-场景映射速查表

能力模块	核心能力	代表模型/工具	典型场景
文本任务	语言建模、分类、生成、抽取	GPT, BERT, Qwen	写作、客服、舆情分析
图像模态	分类、检测、分割、生成、OCR	DALL·E, YOLO, SAM	安防、修图、文档数字化
3D/空间	感知、重建、生成	NeRF, PointNet	AR/VR、数字孪生、3D打印
音频模态	识别、合成、理解	Whisper, Tacotron	会议转写、智能音箱、音乐创作
视频模态	理解、生成、数字人	Sora, Runway	短视频创作、虚拟直播、监控
时序决策	预测、异常检测	LSTM, Transformer	销量预测、设备监控、交通调度
Agent工具	工具调用、工作流编排	LangChain, AutoGPT	自动化运营、业务流程机器人
检索增强	RAG、知识图谱问答	LlamaIndex, Pinecone	企业知识库、BI分析
安全评估	能力评估、价值对齐	GLUE, MMLU, RLHF	医疗、金融、内容审核
AI4Science	药物设计、物理仿真	AlphaFold, PINN	药物研发、科学研究、材料科学
平台工程	训练、部署、运维	Hugging Face, MLflow	模型研发、生产部署、成本管理

🎯 七、选型建议

根据需求选择能力模块

如果需要文本处理：

📝 内容生成 → LLM（GPT-4, Claude）
🔍 信息检索 → RAG系统
📊 分类分析 → BERT系列

如果需要视觉处理：

🖼️ 图像生成 → DALL·E, Midjourney
🔍 目标检测 → YOLO系列
✂️ 图像分割 → SAM

如果需要智能决策：

🤖 任务自动化 → Agent + 工具调用
📈 数据预测 → 时序模型
🧠 知识问答 → RAG + 知识图谱

如果需要前沿应用：

💊 药物研发 → AI4Science工具
🏬 数字孪生 → 3D重建模型
🎭 虚拟数字人 → 视频+语音多模态

💡 八、总结

AI能力词典的三大核心价值：

📚 系统化梳理： 11大模块覆盖主流AI能力，建立完整知识体系
🎯 场景化映射： “能力-模型-场景”三维视角，快速定位需求
🚀 落地化指导： 每个能力模块提供代表模型和应用场景，指导技术选型

核心思路：

从基础模态到高级决策
从感知生成到智能执行
从算法模型到工程平台

使用建议：

👉 根据业务需求定位能力模块
👉 选择合适的模型和工具
👉 评估技术可行性和成本
👉 制定落地实施路线图

标签： #AI能力 #AI工具 #技术选型 #AI知识

AI能力不是孤立存在的，而是相互关联、相互增强的。在实际应用中，往往需要多个能力模块协同工作，才能解决复杂的业务问题。理解AI能力版图，是进行技术选型和方案设计的第一步。