国内外大模型“人情味”PK,调教最暖大模型

来源: 投稿
作者: 拔个萝卜
2024-05-16 16:56:08

人工智能领域迎来了期待已久的“智慧涌现”,受到了全社会的关注和热议,但有相当一部分社会群体,除了关注大模型能否提供实用信息, 也期待大模型的回答能温暖心灵、提供关怀,通俗来讲,他们期待大模型亦能有“人情味”的涌现。

近日,中国社科院社会学所、腾讯研究院、腾讯 SSV 银发科技实验室、腾讯 SSV 数字生态实验室和中国残联公益组织-腾讯无障碍创新实验室联合发布了调教最暖大模型——通过prompt调试并比较国内外大模型“人情味”的小实验。

以下是该文件的核心内容概要:

  1. 研究背景与问题

    • 社会群体不仅期待大模型提供实用信息,还希望AI的回答能够温暖人心、提供关怀。
    • 通过焦点小组讨论,收集了老年人、残疾人和心情低落者对大模型的提问和感受。
  2. 人情味的定义与测量

    • 人情味通常指人与人之间的温暖感情和兴味。
    • 提出了一个“人情味”的测量表,从拟人、共情和表达三个层面进行评估。
  3. 实验设计与对象

    • 选择了2款国外大模型(GPT-4和Vicuna)和3款国内大模型进行比较。
    • 实验时间为2023年10月,考虑到大模型更新迭代快,结论仅代表当时的水平。
  4. 实验发现

    • 在原始状态下,国内大模型在老年话题相关问答上更具人情味,而国外大模型在心情低落相关问答上表现更佳。
    • 经过prompt调试后,GPT-4的人情味得分提升显著,排名快速上升。
  5. prompt的撰写与效果

    • 提出了两种类型的prompt:原则型和答案对型,并通过实验发现它们都能显著提升大模型的人情味。
    • 分析了不同大模型对两种prompt的响应情况,发现各有适合的prompt类型。
  6. 实验技巧与最佳组合

    • 分享了如何有效使用prompt来提升大模型的人情味。
    • 展示了在不同话题下,哪些大模型与prompt的组合效果最佳。
  7. 实战分析

    • 探讨了大模型在学习“人情味”方面的难点,发现拟人和共情能力有所提升,但表达友善度的提升较为有限。
  8. 人类与AI的比较

    • 通过让20位大学生撰写答案并进行人情味测量,发现人类在拟人、共情和表达层面都遥遥领先于AI模型。
  9. 结论与倡议

    • 强调了“公众科技力”的重要性,鼓励普通人参与到科技创新中,包括弱势群体。
    • 通过实验流程的详细描述,展示了普通人如何通过简单的方法提升大模型的人情味。

目前,该报告已上传至开源中国 APP,详情可至「开源中国 APP - 报告模块」下载查看。

APP 下载地址:https://www.oschina.net/app

 

 

展开阅读全文
点击加入讨论🔥(2) 发布并加入讨论🔥
2 评论
0 收藏
分享
返回顶部
顶部