ai教学产品调研
Part 0 我对教学的理解
教学的本质,是用对象理解的概念解释对象不理解的概念,从而扩大对象的理解范围,达到“教”的目的。这里的媒介很丰富,文字,图片,动画,结构图表。根据我此前使用ai学习的经历来看,ai+学习有以下几个方面的特点。
- 有能力回答学习者几乎所有的问题,在所有成熟的可教学的领域都有应用可能,在没有争议的静态内容(如数学推导)方面可以做到准确无误(部分大模型有待提升)
- 回答问题的质量很大程度上依赖于学习者的ai素养,能否给出准确的提示词决定了效果,学习的主动性也起到重要作用。(可能的解决方案:就像人类教师面对面教学时可能取得更好的效果,训练ai采集学习者的表情或语调等信息,依据更多元的信息做出对学习者目前状态的判断;在不能准确判断学习者目前状态时主动提问,采集更多信息帮助定位当前状态)
- 回复生成时间短,全时待命,学习者可以在任何自己需要的时候获得指导,省去了学习者主动搜索信息的时间,极大提高效率,可以适配任务驱动的学习
- 在更软一点的领域,比如人际关系,心理健康,爱情观等方面,ai仍然无法替代人类教师或者同学的作用,但后续如果有拟人的智能体出现,情况可能改变
- 有因材施教的潜力。在我个人的使用经历中,我会在初期摸索出我认为适合自己的学习方式,多数时候是一种“先看自然语言解释,再落实具体细节”的方式,建立起已知和未知的映射,我常在对话的开头把这些告知ai,让其记住我的学习策略。
Part 1 顶流大模型体验
- 个人认为提示词是很重要的一部分,在任务一:给十岁小孩科普的情景下,我相信如果有合适的提示词,任何一个目前的旗舰模型都能胜任这项工作。我们使用了最朴素的提示词,即文档中提到的两条要求的直接复制,模型们在第二条上表现不一,在各自认为合适的地方穿插了三个例子,但是由于我们也不清楚三个例子具体要求了什么,所以我觉得无法给出评判。
- 关于更像什么类型的思考者,这可以在提示词中进行定义,模型都有转换的能力
- 关于擅长与不擅长:Gemini擅长多模态任务,支持超长文本框(200万甚至上千万token)理解,但在超长文本下可能丧失注意力。gpt能力全面,有调研模式,代理模式等集成化的功能,并且没有明显短板。qwen优势是小参数量可达到合格的水平,适合本地部署。Claude在遵循具体指令,定向修改代码方面有不可替代优势。上述优势大多面向开发,在教育方面的优缺点我不能确定。
Part 2 顶流ai产品体验
具体产品
Manus
- 此前我从未尝试过使用Manus,我输入了请自行完成一个项目,向我展示Manus的能力,Manus在十分钟内完成了项目构建和完成,做出了一个展示目前ai发展趋势的网站,虽然略显简陋,但是框架完整,前端观感舒适,我被非常大的惊艳到了,后面在我需要进行完整项目开发时我计划体验它的付费版本(有七天免费使用)。我认为其强大之处在于把人从具体代码中完全解放出来,虽然据Gemini所说在面对超大项目时可能产生上下文遗忘导致代码冲突,但是也有一定解决手段,并且可以利用cursor配合claude等工具微观调整代码。
OpenClaw
- 注意到OpenClaw的persistent memory机制是完全开源的,并且把它以markdown文件存储在硬盘中。其他的功能更像把电脑的部分控制权交予ai,但是记忆机制在学习中有很大的应用潜力。教育者应该在互动中记住学习者的学习偏好,理解习惯等特征,这套机制可以立即应用在产品中。
Cursor
- 注意到Cursor在帮助开发者理解项目方面的优势,可以在30s的时间内依托整个项目源码生成可视化的项目结构或者运行数据,这事实上是一种帮助开发者 学习 这个项目的能力,有在学习产品上应用的可能。
Genspark
- 由于免费额度有限,还没有体会到Gemini指出的优势就不可用了,氪金太。Gemini强调了其在检索信息之后合并为wiki式的网页的特色,我认为这是一种可以考虑的知识呈现模式,并且,在实际产品中,可以多进行形式的展示,让使用者自行选择喜欢哪一种形式,形成记忆增强体验感。
AI依赖性
- 我认为上述产品都有极强的ai依赖性,其中据我了解manus的机制是由主脑发布要求,分配给不同的agent来处理,剩下三个均有明显的ai依赖
Part 3 教育行业垂直产品体验
Flint
- 登录时会询问你的身份和偏好,这很好,但是我选择以大学生身份进入后,仍推荐给我老师端的功能。UI简洁好看。注意到cite功能,为对话生成一个只读的快照,能让教师知道学生如何使用了ai,这点是特色。响应速度极快,0延迟,既是优点也是缺点。我使用了我的数学作业题目询问,它完全胡说八道。我认为人类教师在面对学生问题时也需要思考得出结论,即时回复不是必须,只要延迟不太长就行。在继续探索的过程中,我看到了可以描述学校教学环境的窗口,但是并不容易被发现。我认为给产品加上良好的新手引导十分重要,不应该过于复杂,但可以让用户大体明白可以如何使用,并且可以做成教程形式持久化存在,用户随时可以探索。在继续探索的过程中我在角落里找到了教师新手引导,推测以教师身份进入会直接弹出
- 由于一个一个测试非常疲惫,所以先不看更多了,转而询问Gemini目前的教育ai是否都没有能力解决大学数学中比较困难的一类问题。
总体特征
- 教育ai在能力上呈现出偏科特征,在涉及自然语言理解和运用的方面更为突出,但难以确保其数理逻辑准确无误。因此,目前的产品大都集中在K12阶段(取所有木板最短的一根),并且在我的具体使用中感觉这部分技术壁垒并不明显,难以在所有作品中选出最突出的一个,那些优点感觉都有复现的可能,并且考虑到生育率降低的现状,k12阶段用户可能正在减少。
一些思考
- 但在最近两年的大模型发展中,LLM+Verifier的体系正在逐步攻克这一领域。具体的,由LLM生成可能的解法,由形式化语言验证器(如lean)来确保答案的正确,使得ai具备完成更前沿数理探究的可能,如果这一部分的能力成熟,那么把教育+ai推广到大学教育会成为可能。
- 可能可以以大厂的模型成果作为内核,打造更适合中国学生的功能,比如学生上传教材和往年考试题,通过往年考题拟合今年考题,(通过往年题拟合新题的方案在学生中已经广为流传),或是把生成的解法用更具互动式的UI呈现出来,抑或是用自然语言解释每一步的目。目前仍存在很大一部分学生数学问题畏惧使用LLM,剩下的大都只能依靠文字输出,交互体验一般。
- 可能面临的问题:大学生群体不一定拥有充足的资金支持大量调用前沿模型,可能需要为题目进行难度分级,调用不同的模型,或者用搜题系统来辅助,如果题目库中有原题则直接调用导出,节省资源。
- 可能的卖点:上述的模式有帮助任何一个学生在短期内突击考试取得好分数的能力,也能帮助研究生或者博士或者研究者定向学习某一个研究中需要用到的知识点。同时,如果感觉特色过于单一,可以类似genspark做一个当前所处领域最新消息汇总的工具,用户既有被动接受消息的权力,也有主动查找某个感兴趣字段的权力,这个工具可以把信息集成汇总总结成用户喜欢的展示形式。
- 除此之外,我注意到一些ide正在把复杂的配置(编辑json或者yaml文件)工作用一系列简单的按钮和填空代替,也许这一行为可以推广。
- 在上述的工具中加入签到,求运势,今日天气,社区论坛等等带有日常和社交属性的功能会让用户更容易产生依赖,从而在一段时间的使用后习惯使用。
- 可以先调查大学生使用意愿以及大模型使用现状
- 产品的愿景 :一个所有大学生都会使用的学习生活助手,专注于校园生活。