📘 AI能力词典 - 11大核心模块全景解析
📖 引言
该AI能力词典系统梳理了主流AI能力版图,涵盖11大核心模块,聚焦”能力-模型-场景”的落地映射,帮助快速定位需求、选型方案。
🎯 一、基础模态能力(核心感知与生成)
1. 文本任务(NLP/LLM)
核心能力:
- 基础语言建模(词/句/文档向量表示)
- 文本分类与匹配
- 信息抽取
- 文本生成与编辑
代表模型:
- GPT系列(GPT-3.5, GPT-4)
- BERT
- Qwen(通义千问)
- Claude
- LLaMA
应用场景:
- ✍️ 内容写作与创作
- 🤖 智能客服与对话系统
- 📊 舆情分析与情感分析
- 📝 文档摘要与翻译
2. 图像模态
核心能力:
- 底层视觉(去噪、增强)
- 图像分类/识别
- 目标检测
- 图像分割
- 关键点检测
- OCR(光学字符识别)
- 图像生成与编辑
代表模型:
- DALL·E(图像生成)
- YOLO系列(目标检测)
- SAM(Segment Anything Model,图像分割)
- CLIP(图文匹配)
- Midjourney, Stable Diffusion
应用场景:
- 🎨 图像创作与编辑
- 🔍 安防监控与人脸识别
- 📄 文档数字化与OCR
- 🏥 医疗影像分析
- 🚗 自动驾驶视觉感知
3. 3D/空间模态
核心能力:
- 3D感知与重建
- 场景理解与定位
- 3D生成与编辑
代表模型:
- NeRF(神经辐射场)
- PointNet
- 3D Gaussian Splatting
应用场景:
- 🥽 AR/VR(增强现实/虚拟现实)
- 🏙️ 数字孪生与城市建模
- 🖨️ 3D打印与逆向工程
- 🎮 游戏场景生成
- 🤖 机器人导航
4. 音频模态
核心能力:
- 波形处理(降噪、分离)
- 语音识别(ASR)
- 说话人技术(识别、分离)
- 音频理解
- 语音/音乐生成
代表模型:
- Whisper(OpenAI的ASR模型)
- Tacotron(语音合成)
- VALL-E(语音克隆)
- AudioLM(音频生成)
应用场景:
- 🎤 会议转写与录音转文字
- 🔊 智能音箱与语音助手
- 🎵 音乐创作与音频编辑
- 📞 电话客服质检
- 🎬 视频配音与字幕生成
5. 视频模态
核心能力:
- 传统视频处理(增强、超分)
- 视频理解(动作识别、目标追踪)
- 视频+语言多模态任务
- 视频生成与编辑
- 数字人/虚拟人
代表产品:
- Sora(OpenAI视频生成)
- Runway Gen-2
- Pika Labs
- HeyGen(数字人视频)
应用场景:
- 📱 短视频创作与编辑
- 🎭 虚拟直播与数字人
- 🚨 安防监控与异常检测
- 📺 视频内容理解与检索
- 🎬 影视特效制作
⏱️ 二、时序与决策能力
6. 时间序列与时序决策
核心能力:
- 经典统计建模(ARIMA、VAR)
- 深度学习时序建模(LSTM、时序Transformer)
- 异常与变点检测
- 时空序列建模
代表模型:
- LSTM/GRU
- Temporal Fusion Transformer
- Informer
- TimesNet
应用场景:
- 📈 销量预测与需求预测
- ⚙️ 设备监控与预测性维护
- 🚗 交通调度与流量预测
- 💹 金融时间序列预测
- 🌦️ 气象预测
🤖 三、智能执行与知识增强
7. Agent与工具调用
核心能力:
- 工具调用(检索、代码执行、媒体生成)
- 工作流编排
- 多Agent协作
代表产品:
- AutoGPT
- LangChain
- ChatGPT Plugins
- Claude Artifacts
- Copilot
应用场景:
- 🤖 自动化运营与任务规划
- 🔄 复杂业务流程机器人
- 💻 代码生成与开发辅助
- 🔍 多源数据整合与分析
8. 检索增强与知识层
核心能力:
- RAG(检索增强生成)
- 结构化数据与知识图谱问答
代表框架:
- LangChain
- LlamaIndex
- Pinecone
- Milvus
- Neo4j(知识图谱)
应用场景:
- 📚 企业知识库问答
- 📊 BI分析与数据洞察
- 🏥 医疗诊断辅助
- ⚖️ 法律文档检索与分析
- 💼 客户支持与售后服务
🔒 四、安全与评估体系
9. 安全、对齐与评估
核心能力:
- 能力评估(通用/专业基准测试)
- 价值对齐(SFT、RLHF)
- 内容安全与合规
评估标准:
- GLUE/SuperGLUE(语言理解)
- MMLU(多任务语言理解)
- HumanEval(代码生成)
- Safety Benchmarks(安全评估)
应用场景:
- 🏥 高风险行业(医疗、金融)
- 🔒 内容审核与安全合规
- 📊 模型性能评估与监控
- 🎯 模型训练与优化
🔬 五、前沿与工程支撑
10. AI for Science(AI4Science)
核心能力:
- 分子与药物设计
- 蛋白质结构建模
- 物理仿真加速
- 材料发现
- 数学推理
- 科学工作流自动化
代表模型:
- AlphaFold(蛋白质结构预测)
- PINN(物理信息神经网络)
- DiffDock(分子对接)
- GNoME(材料发现)
应用场景:
- 💊 药物研发与发现
- 🔬 科学研究与实验设计
- 🏭 高端制造与材料科学
- 🌤️ 气候建模与天气预测
- 🧮 数学定理证明
11. 平台与工程能力
核心能力:
- 模型训练与微调(预训练、PEFT)
- 部署与推理优化
- MLOps运维
- 监控与成本管理
代表平台:
- Hugging Face
- MLflow
- Weights & Biases
- SageMaker(AWS)
- Vertex AI(Google Cloud)
应用场景:
- 🚀 模型研发与迭代
- 📦 生产环境部署
- 📊 模型监控与日志分析
- 💰 成本优化与资源管理
- 🔄 持续集成与部署(CI/CD)
📊 六、能力-模型-场景映射速查表
| 能力模块 | 核心能力 | 代表模型/工具 | 典型场景 |
|---|---|---|---|
| 文本任务 | 语言建模、分类、生成、抽取 | GPT, BERT, Qwen | 写作、客服、舆情分析 |
| 图像模态 | 分类、检测、分割、生成、OCR | DALL·E, YOLO, SAM | 安防、修图、文档数字化 |
| 3D/空间 | 感知、重建、生成 | NeRF, PointNet | AR/VR、数字孪生、3D打印 |
| 音频模态 | 识别、合成、理解 | Whisper, Tacotron | 会议转写、智能音箱、音乐创作 |
| 视频模态 | 理解、生成、数字人 | Sora, Runway | 短视频创作、虚拟直播、监控 |
| 时序决策 | 预测、异常检测 | LSTM, Transformer | 销量预测、设备监控、交通调度 |
| Agent工具 | 工具调用、工作流编排 | LangChain, AutoGPT | 自动化运营、业务流程机器人 |
| 检索增强 | RAG、知识图谱问答 | LlamaIndex, Pinecone | 企业知识库、BI分析 |
| 安全评估 | 能力评估、价值对齐 | GLUE, MMLU, RLHF | 医疗、金融、内容审核 |
| AI4Science | 药物设计、物理仿真 | AlphaFold, PINN | 药物研发、科学研究、材料科学 |
| 平台工程 | 训练、部署、运维 | Hugging Face, MLflow | 模型研发、生产部署、成本管理 |
🎯 七、选型建议
根据需求选择能力模块
如果需要文本处理:
- 📝 内容生成 → LLM(GPT-4, Claude)
- 🔍 信息检索 → RAG系统
- 📊 分类分析 → BERT系列
如果需要视觉处理:
- 🖼️ 图像生成 → DALL·E, Midjourney
- 🔍 目标检测 → YOLO系列
- ✂️ 图像分割 → SAM
如果需要智能决策:
- 🤖 任务自动化 → Agent + 工具调用
- 📈 数据预测 → 时序模型
- 🧠 知识问答 → RAG + 知识图谱
如果需要前沿应用:
- 💊 药物研发 → AI4Science工具
- 🏬 数字孪生 → 3D重建模型
- 🎭 虚拟数字人 → 视频+语音多模态
💡 八、总结
AI能力词典的三大核心价值:
- 📚 系统化梳理: 11大模块覆盖主流AI能力,建立完整知识体系
- 🎯 场景化映射: “能力-模型-场景”三维视角,快速定位需求
- 🚀 落地化指导: 每个能力模块提供代表模型和应用场景,指导技术选型
核心思路:
- 从基础模态到高级决策
- 从感知生成到智能执行
- 从算法模型到工程平台
使用建议:
- 👉 根据业务需求定位能力模块
- 👉 选择合适的模型和工具
- 👉 评估技术可行性和成本
- 👉 制定落地实施路线图
标签: #AI能力 #AI工具 #技术选型 #AI知识
AI能力不是孤立存在的,而是相互关联、相互增强的。在实际应用中,往往需要多个能力模块协同工作,才能解决复杂的业务问题。理解AI能力版图,是进行技术选型和方案设计的第一步。