和豆包聊天——确定研究范围
没有明确研究计划,随意聊。「上海纺织业是怎么发展起来的?」「近代化从什么时候开始的?」「经历过哪些大的阶段?」
发现信息量远比想象大,且非常分散——从 1861 年到现在,每一个阶段都有大量人物、事件、空间变化。于是决定:165 年全覆盖,不提前预设哪个阶段重要。
② 搞清楚后面数据应该提取哪些字段——时间、事件、人物、地点、机构、影响、数据来源。
没有明确研究计划,随意聊。「上海纺织业是怎么发展起来的?」「近代化从什么时候开始的?」「经历过哪些大的阶段?」
发现信息量远比想象大,且非常分散——从 1861 年到现在,每一个阶段都有大量人物、事件、空间变化。于是决定:165 年全覆盖,不提前预设哪个阶段重要。
一开始直接让 AI 按年按月搜,发现问题:国产搜索引擎排在前面的结果,官方通稿和年鉴叙述占比很高,不适合做叙事切口。也试过飞书多维表格接入 DeepSeek 联网搜索,效果差不多。最终改用 Google 搜索的 API。
165 年 × 12 个月,不可能手动查,需要代码。Cursor 是集成了各种 AI 模型的代码编辑器,用自然语言告诉它想做什么,它帮写代码。但「清楚描述需求」本身有门槛——需要知道调哪个 API、数据结构、逻辑、错误处理。
所以引入 Gemini。Gemini 做的不是直接写代码,而是写一份详细的技术需求文档给 Cursor。即「让 AI 给 AI 写提示词」——把 AI 当成思考搭子,帮把模糊想法变成条理清晰、可执行的技术方案。
Gemini 帮想清楚技术方案后,交给 Cursor 写代码。自动调用 Google API,解析、结构化、存成 CSV。
Cursor 里不同任务切换不同 AI 模型——复杂逻辑用 Claude Opus,标准化任务用自带模型。
踩过的坑:一次跑 5 年颗粒度变粗,改成一次只跑 1 年。AI 上下文窗口有限,塞太多信息精度下降。
最终拿到 CSV 表格:3,547 条数据,7 个字段。
小技巧:用 CSV 格式不要用 XLSX,纯文本更稳定,兼容性更好。
跟 Claude 说:「请根据这份资料分析里面有哪些线索。什么角度可以做成系列内容?什么话题可以引发强烈好奇?」
给了一批散点式故事,没有时间线,没有人物之间的关联。
给出完全不同维度——跨几十年的家族线索(荣家三代近 100 年)、工厂穿越所有政治周期的档案、人物交叉网络。
跳出来了——讲染料颜色如何消失、电报改变棉花交易价格体系、报纸成为最早商业信息平台、全球经济动荡的影响。
挖出 400 多条跟空间相关的记录,梳理出 8 个空间主题。
最开始想做 PPT,但 PPT 表现力有限——静态的,不能让人自由探索数据关联。
决定做 HTML 网页。可以看时间轴、看地图空间分布、点进每条线索看具体故事。
用 Claude 做初步设计方案(页面结构、交互方式),用 Cursor 写代码实现。不需要会写代码,需要能清楚表达想要什么效果。