您的位置: 专家智库 > >

曲云

作品数:9 被引量:7H指数:1
供职机构:清华大学更多>>
相关领域:文化科学医药卫生自动化与计算机技术更多>>

文献类型

  • 8篇专利
  • 1篇期刊文章

领域

  • 2篇文化科学
  • 1篇自动化与计算...
  • 1篇医药卫生

主题

  • 4篇语言模型
  • 3篇智能体
  • 3篇先验
  • 2篇处理器
  • 1篇代理
  • 1篇电子设备
  • 1篇动力学模型
  • 1篇对抗性
  • 1篇信用
  • 1篇训练数据
  • 1篇药疗
  • 1篇药疗法
  • 1篇医药疗法
  • 1篇语言
  • 1篇语言形式
  • 1篇噪声
  • 1篇治疗褥疮
  • 1篇褥疮
  • 1篇神经网
  • 1篇神经网络

机构

  • 9篇清华大学

作者

  • 9篇曲云
  • 8篇季向阳
  • 7篇王琦
  • 3篇刘畅
  • 1篇杨文明

传媒

  • 1篇中华护理杂志

年份

  • 5篇2025
  • 3篇2024
  • 1篇1997
9 条 记 录,以下是 1-9
排序方式:
基于大语言模型与强化学习的状态表征方法及装置
本申请涉及大语言模型与强化学习技术领域,特别涉及一种基于大语言模型与强化学习的状态表征方法及装置,其中,方法包括:利用自然语言的描述器将强化学习的源状态表征转换为一定大语言模型的状态表征,其中,一定大语言模型的状态表征包...
季向阳王博源曲云蒋雨航邵键准刘畅杨文明
基于大语言模型的多智能体强化学习探索方法及装置
本申请涉及大语言模型技术领域,特别涉及一种基于大语言模型的多智能体强化学习探索方法及装置,其中,方法包括:基于预设的至少一个提示模板,利用大语言模型生成关键状态判别函数;基于关键状态判别函数在采样的轨迹中寻找具有显示语义...
季向阳曲云王博源蒋雨航邵键准刘畅王琦
模型预测任务采样的元强化学习和域随机化训练方法
本申请涉及一种模型预测任务采样的元强化学习和域随机化训练方法,其中,方法包括:构建在线构建的深度生成模型的风险随机函数,且确定其风险函数分布,并推断风险函数分布的近似后验;估算深度生成模型的函数后验分布,以构建目标采集函...
季向阳王琦毛逸休曲云
离线强化学习中的双重轻微泛化方法、装置、设备及介质
本申请涉及离线强化学习技术领域,特别涉及一种离线强化学习中的双重轻微泛化方法、装置、设备及介质,其中,方法包括:基于轻微泛化策略,获取离线数据集邻近区域的目标动作;利用目标动作确定轻微泛化的最大值,并将轻微泛化的最大值与...
季向阳毛逸休王琦曲云蒋雨航
大语言模型增强的高效强化学习信用分配方法及装置
本申请涉及强化学习技术领域,特别涉及一种大语言模型增强的高效强化学习信用分配方法及装置,其中,方法包括:利用目标大语言模型的先验知识获取目标环境信息中的潜在奖励;基于潜在奖励增强的回报分解方式,将潜在奖励转换为代理奖励;...
季向阳曲云蒋雨航王博源毛逸休王琦刘畅
智能体的引导方法、装置、电子设备及存储介质
本申请涉及一种智能体的引导方法、装置、电子设备及存储介质,其中,方法包括:对目标数据集中的每个原始状态加入高斯噪声,以得到扰动后的状态;利用至少一个约束条件约束初始训练策略,以得到实际训练策略,其中,实际训练策略在扰动后...
季向阳毛逸休王琦曲云
基于对抗性显式任务分布生成的鲁棒适应方法及装置
本申请涉及计算机技术领域,特别涉及一种基于对抗性显式任务分布生成的鲁棒适应方法及装置,其中,方法包括:利用预设生成模型参数化元学习器和分布对手,得到参数化的元学习器和参数化的分布对手;分别对参数化的元学习器和参数化的分布...
季向阳王琦曲云 毛逸休
双料喉风散治疗褥疮被引量:7
1997年
曲云
关键词:喉风散双料喉风散褥疮中医药疗法
神经网络预测代理的大语言模型预训练和主动微调方法
本申请涉及语言处理技术领域,特别涉及一种神经网络预测代理的大语言模型预训练和主动微调方法,其中,方法包括:获取大语言模型的训练数据集,提取训练数据集中每个训练样本的低维数据表征,将低维数据表征输入代理神经网络,得到每个训...
季向阳王琦曲云毛逸休
共1页<1>
聚类工具0