归档 - 全栈研发笔记

2025-09-24

人工智能 #PaddleOCR #OCR #PP-OCRv5 #PP-StructureV3 #PP-ChatOCRv4 #文档解析 #MCP

PaddleOCR 3.x 不只是文字识别工具，还覆盖多语种 OCR、复杂文档解析、关键信息抽取和服务化部署。围绕 PP-OCRv5、PP-StructureV3、PP-ChatOCRv4，可以构建从图片、PDF 到 Markdown、结构化字段的完整文档处理链路。

阿里通义大模型全家桶技术拆解：模型、平台与应用怎么协同

2025-09-24

人工智能 #通义千问 #Qwen #DashScope #大模型 #RAG #多模态 #智能体

通义体系不只是聊天模型，而是由基础模型、多模态模型、模型服务平台和业务应用组成的一套能力栈。系统拆解 Qwen、DashScope、RAG 和智能体在企业应用中的分工，并给出 API 调用与落地注意事项。

Deep Research 智能体的四阶段架构与强化学习训练方法

2025-09-23

人工智能 #Deep Research #AI Agent #大语言模型 #RAG #强化学习 #Web Agent #报告生成

Deep Research 是一种面向开放研究任务的智能体系统，核心能力是自主规划、生成检索问题、探索网页并产出带证据的报告。围绕系统架构、数据构造、奖励设计和强化学习训练流程，梳理从原型实现到可靠性优化的关键技术。

WebAssembly 3.0 关键特性与落地场景：从 asm.js 到 WASI

2025-09-23

前端 #WebAssembly #Wasm #WASI #asm.js #Emscripten #SIMD #Wasmtime

WebAssembly 3.0 扩展了内存、类型系统、垃圾回收、异常处理和确定性执行等能力。这里从 asm.js、NaCl 和 Emscripten 讲起，解释 Wasm 为什么能在浏览器和服务端运行，以及在 Web 高性能计算、插件系统、Serverless 和 WASI 场景中的使用边界。

用 LangGraph 搭建 Claude Code 风格的代码智能体：ReAct、SubAgent、Todo 与上下文压缩

2025-09-23

人工智能 #LangGraph #Claude Code #ReAct Agent #SubAgent #Human-in-the-loop #Context Engineering #Tool Calling

围绕 Claude Code 风格的代码智能体，讲清如何用 LangGraph 从基础 ReAct Agent 扩展出人工确认、检查点恢复、SubAgent、Todo 任务跟踪、上下文压缩和实时中断恢复能力。

Google Deep Researcher 的 Test-Time Diffusion：用草稿驱动检索与报告级改写

2025-09-22

人工智能 #AI Agent #Deep Research #Test-Time Diffusion #LLM #RAG #GAIA

Deep Research 类智能体不能只靠“规划、检索、生成”拼报告。Google Deep Researcher 引入 Test-Time Diffusion，把报告草稿当作可迭代去噪的状态，用草稿反向指导检索，再通过报告级改写融合证据，从而改善长报告的一致性、结构和推理质量。

用私域知识库让 AI 一次写出更贴合项目的代码

2025-09-22

人工智能 #AI 编程 #私域知识库 #Prompt工程 #代码生成 #文档自动化 #Claude Code #研发效率

AI 编程经常卡在项目上下文不足：代码能写出来，却不符合业务规则、异常规范和团队习惯。私域知识工程通过代码分析、知识库沉淀和文档自动维护，把项目经验结构化地喂给 AI，让代码生成更接近一次可用。

FireRedTTS-2：面向多说话人对话的 TTS 架构解析

2025-09-19

人工智能 #FireRedTTS-2 #TTS #语音合成 #Speech Tokenizer #Transformer #对话生成 #音色克隆

FireRedTTS-2 面向播客、语音助手等多说话人场景，解决逐句生成、说话人稳定、韵律连贯和流式起播问题。内容拆解 12.5Hz 离散语音编码器、文本语音混排建模、双 Transformer 架构和评测指标。

用 Nano Banana 把生活照生成专业简历头像的提示词写法

2025-09-19

人工智能 #Nano Banana #提示词工程 #图像生成 #简历照 #AI 修图 #LinkedIn

生活照通常不适合直接用于简历、LinkedIn 或个人官网头像。围绕 Nano Banana 的图像编辑能力，讲解如何通过提示词控制人脸一致性、构图、服装、背景、光线和负面元素，把普通照片改成自然、正式的商务头像。

用豆包 Seedream 4.0 生成知识卡片：6 种风格模板和提示词写法

2025-09-18

人工智能 #Seedream 4.0 #豆包 #AI 生图 #提示词 #知识卡片 #信息图

知识卡片生成的关键不只是让 AI 画得好看，而是把知识结构、视觉层级、配色、字体和比例写进提示词。这里用 6 种常见风格拆解 Seedream 4.0 生成知识卡片的提示词写法，并给出可直接改写的模板。

菜单

归档

2025 年 09 月

Loop Engineering：让 Agent 自己完成开发、验证与迭代

Claude Code 可靠性升级：TUI、流式输出、MCP 与会话自愈机制解析

Agent Harness Engineering 七层架构：把大模型变成可靠 Agent 的工程方法

达尔文 Skill 2.0：面向个人开发者的 Agent Skill 自进化优化器

8 个能控制电脑的开源 AI Agent 项目对比

从 Prompt 到 Agent Loop：让 AI Agent 稳定工作的循环设计方法

Step 3.7 Flash 面向 Agent 的高吞吐开源多模态模型上手指南

Claude Fable 5首日实测，杀疯了…

从 Prompt、Context 到 Harness：OpenClaw Agent 架构设计拆解

Agentic Engineering：让 AI Agent 可靠参与软件研发的六条实践