近来,人工智能(AI)的迅猛发展使其在情感生成和评估领域的应用逐渐成为研究热点。AI技术尤其是生成对抗网络(GANs)和变分自编码器(VAEs),在图像生成方面取得了显著进展。然而情感生成的复杂性和主观性一直是一个挑战。图像能够传达情感,但情感体验具有高度的个人主观性,尤其是在通过AI生成图像并试图传达特定情感时。
10 月 13 日arXiv 发表的论文《LEVEL OF AGREEMENT BETWEEN EMOTIONS GENERATED BY ARTIFICIAL INTELLIGENCE AND HUMAN EVALUATION: A METHODOLOGICAL PROPOSAL》提出核心问题在于评估人工智能生成的情绪与人类评估之间的一致性。具体而言,研究团队旨在探讨在生成性人工智能工具(如StyleGAN2-ADA)生成图像的过程中,这些图像所传达的情感与人类对这些图像的情感反应之间是否存在显著的一致性。这一问题的解决不仅可以验证AI生成图像的情感传达效果,还可以为未来的AI情感生成和评估提供方法论依据。
研究的目标包括训练生成性人工智能模型,通过Artemis数据集生成具有特定情感的风景图像,并通过在线问卷收集人类对这些图像的情感分类数据。随后通过统计分析评估人类评估者之间、评估者与AI生成情感之间的一致性。这些分析将有助于深入了解AI生成情感的可靠性,并探索情感评估中的主观性因素。
研究团队由来自智利和西班牙的学者组成,他们分别在各自领域内具有丰富的经验和知识。Miguel Carrasco和Raúl Dastres分别来自智利圣地亚哥的Adolfo Ibañez大学工学院与科学学院,César González-Martín和Sonia Navajas-Torrente则分别来自西班牙科尔多瓦大学的教育科学与心理学学院、法学经济与商业学院。这样一个多学科的团队能够从多个角度全面地研究和分析人工智能在情感生成和评估中的应用。
他们的核心观点:
文献综述
在情感生成的理论背景中,图像被认为是一种强有力的情感传达工具。视觉艺术一直以来都通过颜色、形状、纹理等元素来唤起观众的情感共鸣。随着AI技术的发展,研究人员探索了如何通过计算模型实现这种情感传达。StyleGAN2-ADA是其中一项重要的技术突破,它利用生成对抗网络生成高质量的艺术图像,并能够通过调整模型参数来传达特定的情感。该技术的灵活性和生成图像的真实性使其成为研究AI情感生成的重要工具。
然而,情感分类的复杂性和主观性仍然是研究中的重大挑战。情感体验因人而异,不同个体对同一视觉刺激可能有完全不同的情感反应。情感分类模型的设计需要考虑这一主观性因素。目前,情感分类的方法主要分为离散情感模型和多维情感模型。离散情感模型,如Ekman的基础情感理论,将情感分类为几种基本类型,如快乐、愤怒、悲伤等。多维情感模型,如Russell的情感圆环理论,则通过情感的愉悦度、激活度等维度来描述情感状态。这些模型各有优缺点,离散模型在实际应用中更具直观性,但难以涵盖复杂的情感体验;多维模型能够更细致地描述情感状态,但在实际应用中较难操作。
在情感生成和评估的研究中,主观性始终是需要克服的难题。不同个体的文化背景、生活经历、社会环境等因素都会影响其情感反应。因此,研究人员在设计情感分类和生成模型时需要充分考虑这些因素,并通过广泛的样本数据和多样化的评估方法来提高模型的泛化能力和准确性。通过不断优化和调整模型参数,结合多种情感分类方法,研究人员希望能够在情感生成和评估中取得更高的一致性和准确性。
这篇论文通过对StyleGAN2-ADA生成图像与人类评估的一致性研究,揭示了情感生成技术的潜力和面临的挑战。研究结果不仅验证了AI生成情感图像的有效性,还为未来的情感生成和评估研究提供了宝贵的参考。
研究方法
通过系统而详细的方法介绍,研究团队展示了他们在数据选择、预处理、图像生成及人类评估过程中的缜密设计和严谨分析。
图1:生成神经产生的情绪评估过程的总体方案。该方法包括三个阶段:数据准备、建模和评估。
首先,数据准备阶段是整个研究的基础。研究团队选择了Artemis数据集和WikiArt数据集作为基础数据源。Artemis数据集由WikiArt数据集中获取的80,031条记录组成,每条记录包含艺术作品的艺术风格、作品本身、注释者声明的情感、注释者的解释以及参与注释的注释者数量。研究团队将重点放在与风景类别相关的记录上,这是因为风景类图像在情感传达中具有更普遍的理解度和接受度。接着,数据预处理是关键一步。研究团队必须确保每一条记录的情感标签准确无误,并筛除掉那些没有主要情感的记录,以减少数据的噪音和干扰。最终研究团队筛选出了9,750条有效记录,为后续的图像生成和情感分类奠定了坚实的基础。
图2:生成网络生成的情绪评估方法。在每个阶段,都有多个子阶段专门用于图像开发和评估。
接下来是图像生成与情感变体的设计。研究团队选择了StyleGAN2-ADA作为主要工具。StyleGAN2-ADA是一种基于生成对抗网络(GANs)的图像生成工具,能够生成高质量且真实感极强的图像。为了生成符合研究需求的图像,研究团队首先对风景图像进行了预处理,将其大小调整为256x256像素,以确保与神经网络的训练过程相兼容。在生成过程中,研究团队生成了20幅基础风景图像,并为每幅图像创建了四种情感变体,分别为满足、娱乐、恐惧和悲伤。这一过程不仅需要高度的技术支持,还需对情感表达的深刻理解和细致调整,确保每幅图像都能准确传达特定情感。
图3:StyleGAN2 ADA工具生成的艺术作品示例基于具有四个情感类别的景观数据集。所有图像都是全新的,训练集中没有类似的图像。
在人类评估阶段,研究团队设计并实施了一个详细的在线问卷。问卷通过Google表单平台发布,旨在收集参与者对生成图像的情感分类数据。为了确保数据的广泛性和多样性,问卷在2023年10月30日至11月30日期间开放。参与者需为每幅随机顺序呈现的风景图像选择一个情感类别(满足、娱乐、恐惧、悲伤)。参与者的平均年龄为30岁,其中包括33名男性和28名女性,主要来自工程技术和社会科学领域,70%的参与者具有研究生或更高学历。这些人口统计数据的收集和分析,不仅为研究提供了丰富的数据来源,也确保了结果的代表性和可靠性。整个研究方法的设计和实施展示了研究团队在数据选择、预处理、图像生成以及人类评估方面的专业能力和科学严谨。
图4:研究参与者的社会人口学数据:箱线图年龄、性别男性、女性、国家、研究地区、获得的最高研究水平。关于研究中使用的分组的更多信息将在结果部分进行回顾。
研究团队将生成工具创建图像的标签作为参考,并将其与参与者的主要分类,即模式进行比较。因此,研究团队根据Eser和Aksu的一项研究中使用多个一致性指数的建议,使用Cohen的Kappa系数Cohen来评估两个评估者之间的一致性(AI模式)。与上一节中使用的Krippendorff的Alpha系数不同,Cohen的kappa系数只允许两个评估者之间进行分析,因此在这种情况下,他们将使用生成工具生成图像所使用的模式和情感标签。通过这种方式,可以确定每张图像-评估者和生成工具之间的一致性或一致性水平(见图5中的过程示例)。
图5:mode和StyleGAN2 ADA工具之间的评估过程和协议。每个人对每张图片进行投票。然后为每个图像计算模式,以获得每个图像的代表性情感,并将其与生成工具生成的情感标签进行比较。
另一方面,他们在这种新方法中提出了使用混淆矩阵,混淆矩阵通常用于评估分类模型的性能。该过程的目的是将参与者在图像问卷中进行的分类与生成工具分配的标签进行比较,将其分为四种情绪。为了构建混淆矩阵,他们将真实类定义为由生成工具生成的类,将预测类定义为参与者的分类模式。还计算混淆矩阵的精确度、召回率和F1分数度量,以确定所获得的预测水平,就像它是一个分类问题一样。通过Fisher检验,研究团队使用性别(男女)、知识领域(工程和技术-社会科学)和教育水平(本科-研究生)作为细分变量,比较了不同群体从混淆矩阵中获得的精确度和召回率指标。他们选择比较这些群体,因为他们占受访者的大多数,为分析提供了一个具有代表性的样本。此外利用Jaccard指数,可以确定不同数据集之间暴露结果之间的交叉程度。
结果与分析
在本研究中,结果与分析部分重点探讨了评估者之间的一致性以及参与者与AI生成情感之间的一致性,通过使用不同的统计方法进行了详细分析。
首先,评估者之间的一致性是通过Krippendorff’s Alpha系数进行分析的。Krippendorff’s Alpha系数是一种用于评估多个评估者之间一致性的统计指标。在情感分类的过程中,不同评估者对同一图像的情感评估可能会有差异。分析结果显示,当情感分类为四种类别(满足、娱乐、恐惧、悲伤)时,评估者之间的一致性较低。这表明,情感评估具有高度的主观性,不同个体对同一图像可能产生不同的情感反应。然而,当情感分类简化为两类(正面和负面)时,评估者之间的一致性显著提高。这一结果反映了情感评估中的复杂性和多样性,同时也表明,简化的情感分类可能更容易达成共识。
图6:与Jaccard的女性指数一致的百分比低于75%。
在参与者与AI生成情感的一致性分析中,研究团队使用了Cohen’s Kappa系数和Jaccard指数。Cohen’s Kappa系数用于评估两个评估者(在本研究中为参与者和AI生成的情感标签)之间的一致性。Jaccard指数则用于衡量两个集合之间的相似性,即参与者选择的情感标签与AI生成的情感标签之间的重合程度。分析结果显示,当情感分类为正面和负面时,参与者与AI之间的一致性较高,这与评估者之间的一致性结果一致。然而,当情感分类为四类时,一致性显著降低。这表明,虽然AI在生成图像时能够传达特定情感,但人类在评估这些情感时仍然存在较大的主观差异。
值得注意的是,在分析正负情感分类与四类情感分类的一致性差异时,研究发现,负面情感的分类一致性普遍高于正面情感。具体而言,参与者在评估负面情感(如恐惧和悲伤)时,与AI生成的情感标签一致性较高,而在评估正面情感(如满足和娱乐)时,一致性较低。这一发现可能反映出负面情感在视觉传达中的直观性更强,或者说负面情感更容易被不同个体一致识别。
通过这些分析,研究不仅揭示了AI生成情感与人类评估之间的一致性情况,还强调了情感评估中的主观性挑战。未来的研究可以进一步探讨如何提高正面情感的分类一致性,优化AI生成情感的准确性和表现力。此外,增加评估者样本的多样性,以及结合更多的图像和情感类型,也将有助于更全面地理解和解决这一复杂问题。
讨论
在这篇论文中,研究团队探索了人工智能生成的情感与人类评估之间的一致性,揭示了情感分类中的诸多挑战。特别是负面情感分类的一致性结果,展示了AI在传达特定情感方面的潜力和局限性。我们重点讨论这些发现,并分析情感分类中存在的主观性因素。
研究发现,负面情感(如恐惧和悲伤)的分类一致性普遍高于正面情感(如满足和娱乐)。这一现象可能有多方面的原因。首先,负面情感在视觉传达中的直观性较强,人类对负面情感的识别往往更迅速、更明确。负面情感通常伴随着强烈的生理反应,如惊恐、悲伤等,这些反应在视觉上容易捕捉和表达。因此参与者在面对负面情感图像时,能够更一致地识别和分类。
另一方面,正面情感的表达和识别则相对复杂。这可能是因为正面情感的表现形式更多样,不同个体对正面情感的体验和表达也存在差异。例如,满足和娱乐这两种情感之间的界限在某些情况下可能会模糊,人类在分类时容易受到自身情感体验的影响。此外,正面情感的视觉特征可能不如负面情感那样鲜明,从而增加了分类的难度和主观性。
情感分类中的主观性还受到多种因素的影响。文化背景、生活经历、社会环境等都会对个体的情感反应产生影响。在本研究中,尽管参与者来自不同国家、拥有不同的教育背景和知识领域,但样本规模和多样性仍然存在局限性。例如,大多数参与者来自工程技术和社会科学领域,且70%具有研究生或更高学历,这一特征可能影响了研究结果的代表性和广泛性。
研究的局限性主要体现在样本规模和评估者多样性方面。样本规模较小,且评估者主要集中在某些特定领域,限制了研究结果的泛化性。为了在未来研究中获得更具代表性的结果,研究团队建议扩大样本规模,纳入更多不同背景、年龄层和领域的参与者。此外当前研究仅限于风景图像,缺乏多样化的视觉元素,未来可以结合更多类型的图像,如人脸、情境图等,以更全面地评估AI生成情感的准确性和一致性。
未来的研究方向还包括进一步优化情感生成模型,提高正面情感的分类一致性。例如,研究可以探索结合多种情感分类方法,利用深度学习和大数据技术,不断调整和优化模型参数,以增强AI在情感传达中的表现力。此外,研究团队还建议深入分析影响情感分类决策的关键视觉元素,如颜色、形状、纹理等,探索这些元素在情感表达中的作用,为未来的情感计算提供更丰富的理论支持。
通过这些改进和扩展,研究可以进一步推动AI在情感生成和评估领域的发展,使其在实际应用中能够更加有效地传达和识别情感,满足不同情境下的需求。这将为AI技术在情感计算、心理学、教育、医疗等领域的应用带来新的机遇和挑战。(END)
参考资料:
本文转载自,作者: