文本大模型评测需要回答两个问题:评什么、怎么评。围绕通用能力、领域能力和业务场景能力,系统拆解评测维度、指标、评测集、人机协同阅卷和货运邀约场景中的落地流程。
企业 AI 失败往往不是模型太弱,而是上下文碎片化、无治理、不能安全回写。围绕统一上下文层(UCL)讲清上下文工程、上下文图谱、智能体治理、受控激活和运行时学习的完整架构。
6 个 GitHub 开源项目覆盖 LLM 应用开发中的信息抽取、AI 工作流、Agent 工具链、案例学习、浏览器自动化和本地知识库搜索场景,适合用来搭建从原型到自动化工具的完整开发链路。
FireRed-OpenStoryline 是一个开源视频剪辑 Agent,能够理解素材、规划故事线、调用剪辑工具,并通过自然语言接受用户修改。它的关键设计包括 Agent Client、Storyline Middleware、MCP Server、资源库和可复用的 Editing Skill。
企业接入多个大语言模型后,会遇到接口碎片化、成本失控、数据安全和稳定性问题。围绕模型市场、统一 API、模型调度、Token 成本治理、限流告警和 Key 生命周期,系统讲解企业级大模型网关的设计方法。
OpenSkills 把技能定义、匹配、资源加载和脚本执行拆成透明流程,适合把 AI Agent 能力集成到自己的 Python 项目。内容覆盖三层渐进式加载、SKILL.md 写法、脚本沙箱、Reference 加载模式和周报生成年度复盘的完整示例。
Agent Skills 可以把领域知识、操作流程、脚本和资源封装成可复用的能力单元,让 AI Agent 在需要时动态加载。围绕自然语言查数和指标归因分析两个数据场景,讲清 Agent Skills 与 MCP、A2A 的边界、技能目录结构、SKILL.md 写法以及落地时的安全注意事项。