社科院-通过prompt调试并比较国内外大模型“人情味”的小实验-2024.docx
《社科院-通过prompt调试并比较国内外大模型“人情味”的小实验-2024.docx》由会员分享,可在线阅读,更多相关《社科院-通过prompt调试并比较国内外大模型“人情味”的小实验-2024.docx(38页珍藏版)》请在课桌文档上搜索。
1、37摄氏度的大模型中国社科院社会学所腾讯研究院SSV银发实验室SSV数字生态实验室中国残联公益组织-腾讯无障碍创新实验室联合出品Ol02030814172024262728前言研究问题第一章I理论人情味的初印象第二章I测温谁是最暖大模型? 发现一I没想到吧,GPT-4的人情味居然垫底了!口10 发现二I国内大模型,最得老人心口“11 发现三I国外大模型更懂职场的烦恼12 发现四I国内大模型更懂你在人际关系里有多难13第三章I实操如何撰写一则有效的prompt?第四章I技巧怎么用prompt最有效? 发现五I教原理还是喂作业?调教最乖大模型!.18 发现六I红榜:人情味最佳搭配ToP3口19第五
2、章I实战对大模型来讲,“人情味”难在哪里? 发现七I教做人易,学善意难!21 发现八I学做人,光会抄作业口还不够22 发现九I谁家的大模型一点就通?口23彩蛋I人类的光辉 发现十I珍视人类的光辉25后记附录I实验流程作者人工智能领域迎来了期待已久的“智慧涌现”,受到了全社会的关注和热议。为了解社会多元群体对现有的大模型问答的感受,我们在2023年7-8月组织了若干场不同类型社会群体的焦点小组,包括老年人、残疾人和心情低落者,邀请他们对大模型进行提问,并访谈他们的感受与期望。我们观察到,有相当一部分社会群体,除了关注大模型能否提供实用信息,也期待大模型的回答能温暖心灵、提供关怀,通俗来讲,他们期
3、待大模型亦能有“人情味”的涌现。我们同样带着这样的期待,开始设计这场小小的实验。这场小实验希望尝试回答这样一些问题:什么是人情味?当前大模型的回答人情味浓吗?人情味的“浓淡”是否在不同话题间有所差异?没有技术背景的普通人,能否通过一些简便的办法提升大模型的人情味?本文尝试了两种类型的PrOmPt(即直接在大模型对话框中输入文本),1是原则型,2是答案对型,并进一步实验:prompting能否有效提升人情味方面?哪种prompt效果更好?它们的效果在不同模型、不同话题上是否有所差异?文末还有一个非正式研究彩蛋哦!第一章I理论人情味的初印象篇章概览:本章我们要讨论关于“人情味”这个温暖又迷人的概念
4、,聆听美学大家朱光潜先生对它的评述,向新闻学理论家讨教“人情味公式从语言学、博物学、以及福利多元主义、无知之幕、优势视角这些有趣的概念中汲取灵感。最重要的是,本章我们大胆提出了“人情味”的测量表!什么是人情味?最常被引用的解释是“人通常具有的情感、意味等”,国语辞典中的解释是“人与人之间温暖的感情、兴味”,我们还可以找到一些相似的解释,大意大同小异,都会强调一种温暖、关怀的意味和感受。人情味是一个充满中国气派的词语,但整体上现有的解释还比较抽象,也暂不存在一个现成的量表可直接用于实验。作为一个探索意义大于验证意味的小实验,在开始前,我们希望先与读者朋友们一起从美学/文学/社会学/语言学/新闻学
5、/博物学,以及普通人的杂感、日记、朋友圈中汲取对人情味的实感。04美学家眼中 的人情味存在人情味 的公式吗?朱光潜先生曾在多篇文学评论中表达他对人情味的理解和喜爱。他指出,无论中国还是外国,最富有人情味的主题莫过于爱情,尤其是细腻深刻的爱情。他在谈美书简中提出:“人具有一般动物所没有的自觉心和精神生活”“一切真正伟大的文艺作品没有不体现出人的伟大和尊严的”美国学者弗雷奇在他出版的TheArtofReadableWriting中就有一个描述人情味的公式:4I:三生总鲍酬士。第惚俣此处HL=人情味的分数,PW=每100字中的人称词数目,PS=每100句子中的人称词数目。这个公式强调了人称词在人情味
6、表现中的重要性。人情味在语言中的表现第一位从认知角度研究中文语言中的情感的学者是BrianKing,他对汉语中出现的焦躁、哀伤、愤怒、喜悦等情感做了深度探讨。认知语言学认为:语言是有人情味的;有人情味的语言流出正向的情感。福利多元主义、无知之幕、优势视角福利多元主义认为福利既不能完全依赖市场,也不能完全依赖国家,福利是全社会的产物。无知之幕是指一旦当人处于一种不知道哪一方代表了自身特殊利益的“无知”状态,恰恰能使人保持不偏不倚。优势视角提示我们应当把人们及其环境中的优势和资源作为助人焦点,而非问题和病理。台北博物馆的“小词”在台北故宫博物馆,我们很少看到“陈列”这个词,取而代之的是“展示”一词
7、。博物学家认为“展示”这种“小词”多了一份人性、少了许多物态,多了一份趣味,少了许多乏味,多了一份亲切,少了许多枯燥。如何测量人情味?我们认为衡量一则大模型的回答是否有“人情味”,应当从三个主要层面来考虑:基于这三个层面设计测量表如下:非常不同意不同意不确定同意常意非同这则回答能像朋友一样说话,给我一种亲切的感受拟这则回答不生硬、乏味,展现了人类高水准的理性与感性人我觉得回答者是一个真实、可靠的人-这则回答能站在提问者的角度说话,而不是置身事外或高高在上这则回答能关注到提问者的情绪和处境我觉得回答者是一个富有同情心,有较强共情能力的人这则回答展现了尊重、关心、体谅、爱等正向情感,能给予人有效的
8、鼓励表!文Iilll向林台乡讴一小A梁1亲口杞,情崩I-I达能让提问者感到宽慰或振奋LJ我觉得回答者是一个真诚.、善良的人第二章I测温谁是最暖大模型?篇章概览:本章我们将介绍实验所测量的5款大模型,并展现未经PronIPt调试前,各个大模型的人情味表现如何?实验对象:2款国外+3款国内本实验选测的国外大模型是GPT-4与Vicuna,前者是由美国OPenAl公司发布的大模型,后者是由UC伯克利大学的研究人员联合其它研究机构共同推出的一款开源大模型。选测的国内大模型由国内科技公司与科研单位发布,为保客观公正,本报告中以W-Y三个英文字母为其命名。国外大模型需要说明的是本实验时间为2023年10月
9、,国内外大模型更新迭代飞速,本实验结论只能体现其23年10月的状态。WXYI大模型Wj大模型X大模型Y国内大模型发现一I没想到吧GPT-4的人情味居然垫底了原始状态下的百分制得分注:本实验借助人情味量表 对国内大模型W、X、Y、 GPT-4、ViCUna共五款大模 型进行了测量,得分以百分 制形式展示PronlPtl后的 百分制得分排位上升4位GPT-477.96PronIPt2 后的百分制得分VtfM75.28国发耀卿I72.59因内大模型70.22国肉友模型X66.73排位上升3位GPT-471.67原始状态下,本土大模型更具 人情味,总得分GPT-4垫底, 但是经prompt调试后,GP
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 社科院 通过 prompt 调试 比较 国内外 模型 人情味 实验 2024
链接地址:https://www.desk33.com/p-1247598.html