智能感知能力思考

type
status
date
slug
summary
tags
category
icon
password
整体思路
之前讨论的版本
其他思考
叫感知是不是不太好,目前已有感知,自己的感知和通用的感知还是有区别的
(0)和已有智能感知概念的区分:
已有的智能感知软件、系统,更加偏向于对数据的采集和分析,即通过物联网、传感器等技术,实时监测和感知环境和设备的状态,提取出有价值的信息和规律,为决策提供智能支持。
Survey-有关智能感知的调研
(1)对感知能力的解释和分析如下(更偏向于感知交互):
软件的智能感知能力,是软件辅助人感知,还是软件本身能够感知人、业务
过去,人处理业务,在业务过程中通过操作软件达成目的。现在软件能够感知人和业务,人向软件下达指令,软件协助处理业务。
过去的软件业务过程如comment图所示,人处于中心(人拆解业务、感知业务进度,同步操作软件)
智能软件辅助的业务处理:大模型辅助的智能软件代替人感知业务(拆解业务步骤、感知业务状态进度、感知具体软件指令的执行情况),同时和人交互
本来想画一个对比示意图的,但是感觉也花不清楚,自己心里明白即可
(2)智能软件面向的场景:船型设计软件、CAD软件、知识工程服务软件的共同点
CAD软件设计:2D草图设计(包含具体步骤,如确定形状、尺寸,以及软件功能的先后使用顺序,依次操作完成草图设计)、3D建模、装配和配合、工程图纸生成、仿真和分析
可以绘制一个树状图,步骤细分之后每个子步骤对应一个功能指令、按钮(每个具体的子步骤不是对应单个指令,往往是数个软件指令的组合)
共同点:流程型业务软件(如果后续需要,可以进一步细化)
无论是船型设计软件还是CAD软件,它们都是面向流程型业务的工具,支持将复杂的设计任务拆解为多个离散的步骤,每个步骤由软件中的特定功能模块和指令来辅助完成。通过这种方式,设计过程变得更加系统化、规范化,提高了设计效率和质量。
(目前太泛了)要做一个业务,分多个步骤,以前人手动用软件完成这些具体步骤,现在软件能够智能感知、认知、决策以辅助完成
船型设计业务步骤:
(3)智能感知能力的拆解和技术分析:
进展list
先分析两个角度各自能做的事情,再找个思路串起来
思考这些点里面对应的技术
上下文感知
用户建模和个性化推送
业务异常感知和提醒
如前所述,软件智能感知的定位为代替人感知业务,同时和人交互
整体推进展开
和人交互过程的感知
其中用户意图理解是基础,上下文、情感和行为预测是难点,需要思考技术来解决
  • 理解用户意图:通过自然语言理解(NLU)技术,从用户的语音或文字输入中识别和理解其需求和意图。
  • 上下文理解:保持对话上下文的理解,能够基于之前的对话内容提供连贯和相关的回应。
  • 情感分析:通过分析用户的语音语调、面部表情或文字内容,感知用户的情绪状态,如愤怒、满意、焦虑等。
  • 主体识别:识别是哪个用户的指令?
  • 行为预测:根据用户的历史行为和当前对话,预测用户可能的下一步操作或需求,提供更个性化的服务。
和业务交互过程的感知(业务阶段的识别(多段对话、上下文、记忆))
流程拆解,不是感知本身的内容,但是在整个流程里面有,要么人做,要么大模型做
此外,还需要把用户的指令对齐到软件指令,这个不是感知本身的内容(后续步骤,这里淡化)
  • 流程拆解:自动将复杂的业务流程分解为多个子步骤,识别各个步骤的具体操作和依赖关系。
  • 进度跟踪:实时监控业务流程的进展情况,感知各个步骤的完成状态,及时发现并报告异常。
  • 指令执行监控:跟踪具体软件指令的执行情况,确保每个指令都按预期执行,及时反馈执行结果和潜在问题。
整体流程梳理
不要研究单点的一个问题,怎么用一个整体的流程表述
背景设置如下:
整体介绍:面向一个CAD零件建模任务,开发一个大模型辅助的感知交互插件(原型系统),人可以文字、语音交互或者直接上手操作,原型系统的感知交互能力辅助完成大部分简单的操作,减少人的动手次数,提升效率(按照HCI社区的范式,找被试者,分析原型系统的体验,以及对技术和系统进一步改进的可能)
以前的任务流程
人直接上手操作,建模一个零件草图。新手设计师和经验丰富的使用者操作步骤和花费时间差别很大
现在的任务流程(即自己想要的整体流程):
人直接上手操作软件(仅按照自己经验,或在软件的智能提示下完成操作,软件告诉你这一步怎么操作,下一步怎么操作,注意事项是什么),对于一些简单但是重复性高的指令,可以通过文字语音交互,转换为软件指令完成(其中涉及规划决策能力)
同时,软件会指示你下一步怎么做,如果你偏离了正确做法,会指正你
软件会根据你的操作习惯、情绪、知识水平适当调整提示方式、内容
感知能力的体现
  • 对人的感知交互: (1)通过人的语言、文字理解意图(意图理解,基础要求); (2)理解用户当前的进度,以继续指示(对话上下文感知,难点1); (3)区分不同用户并了解用户的对话习惯、经验水平,以提供更加个性化的指导(用户个体识别、学习,难点2)(708也有类似的需求); (4)情绪识别,但是目前定位不太明确
  • 对业务的感知: 这两块目前导航软件好像做的还可以,可以了解下怎么实现的 (1)特别对于新手使用者,软件帮助感知当前业务(建模流程)的进展和异常(类似导航软件,如果发现用户的操作偏离主流的操作路径,需要提醒),并向用户反馈 (2)如果通过语言、文字交互的方式执行指令,需要跟踪具体软件指令的执行情况,确保每个指令都按预期执行
感知能力中的核心技术:
意图理解(NLP):普通的意图分类和识别模型即可(BERT变体)
上下文感知模型:可以序列模型如LSTM、Transformer(可以参考大模型工作流的上下文感知如何解决)
用户个体识别与学习使用用户历史数据和行为分析,建立用户模型,并提供个性化的建议,或者实现更加智能化的交互。(参考推荐系统的解决方案) 学习用户行为以实现更加智能化的交互(
有点像ITS中司机人因的冷启动过程,系统要学习用户的行为,提供个性化的指导(不太需要区分和识别用户,应该有登录机制,类似电商平台)
业务流程建模与监控:用于感知业务进展和异常。(参考导航软件)
业务进度的感知,也算一种上下文(
业务进展异常的识别和提醒
本问题中是否具有什么独特的特性,可以对方法和技术进行定制和创新 (1)用户的学习和个性化指导:与电商或者UGC平台的个性化推荐不同,工业软件的使用者具有特定(可能领域和深浅还不一致)的领域知识背景,要在此基础上考虑个性化 (2)业务进展及其异常的感知:导航系统中的路线较少且确定,软件操作中更加难以评判操作是否偏离
 
总结
先找到有价值的研究问题,智能感知交互
和人的感知交互:意图理解、对话的上下文感知(保留记忆,RAG,偏大模型)、对用户行为的学习
和业务的感知交互:感知业务的进度(屏幕UI+语言交互,偏视觉)、是否偏离正确操作路径(偏前端和人因)
目前看下来,对感知能力,能梳理出4个角度出来,明天整体思考下主干思路(人因角度为辅助,即实现之后可以从这个角度去观测,发文章)
1-2个核心技术、创新点即可,其他的为人因角度,先梳理小论文的主干,从一个小点且人(总体论文章节的主干,以及第一篇小论文的主干)
今天先把人感知的部分基本完成,晚上还需要画两个小时做ppt
业务感知,今天应该来不及梳理,每天再说()
Prev
记一个奇怪的梦
Next
函数传递参数的几种情况和解决方法
Loading...
Catalog