网站地图

引导创作  推出精品  提高审美  引领风尚

主办方:中国文联文艺评论中心/中国文艺评论家协会

杂志邮箱 新媒体邮箱
首页>中国评协>《中国文艺评论》>艺海杂谈>正文

高峰:人工智能在艺术创作中的介入机制与实践路径——以中国风花鸟珠宝设计为例

2025-11-25 阅读: 来源:《中国文艺评论》 作者:高峰 收藏

【内容摘要】 随着人工智能技术的快速发展,其在艺术创作领域的应用为传统艺术表达带来了新的可能性。本文以人工智能在艺术创作中的实践为研究对象,旨在探讨其如何以算法逻辑与数据驱动介入艺术创作过程,并推动中国传统文化的创新表达。通过梳理人工智能技术在不同发展阶段的技术特征,以及分析早期计算机技术与艺术创作结合的典型案例,本文揭示了人工智能在艺术生成中的技术演进逻辑。通过构建人工智能艺术创作的理论框架,结合笔者在中国风花鸟珠宝设计中的探索,进一步论证了人工智能介入艺术实践的具体路径,并探讨其与中国传统艺术美学融合的可行性。本研究不仅为人工智能赋能艺术创作提供了实践参考,也为中国传统文化的当代表达提供了新的技术视角与方法论支撑。

【关 键 词】 人工智能 艺术创作 中国风花鸟珠宝 传统美学

一、人工智能时代下的艺术创作

近年来,人工智能正迅速成为各领域技术变革与创新的核心驱动力,在艺术创作中同样展现出巨大的潜力。人工智能作为一种基于大规模数据和深度神经网络的自动化技术,其核心在于通过算法模拟和再现人类的认知与行为,具备从数据中提取模式、语义和风格特征并生成内容的能力。在艺术创作实践中,人工智能的引入对传统创作模式产生了深远影响。过去,艺术创作主要依赖作者的个人经验和灵感,而人工智能则能够通过大数据和算法快速生成多样化创意。这种模式不仅提升了创作效率,还极大拓展了创作者的表达维度,为打破创作类型化和模式化提供了新的可能。在视觉艺术领域,人工智能不仅可以辅助生成独特的视觉风格,还能够结合中国传统文化元素(如水墨画、京剧脸谱等)创作出具有文化辨识度的艺术作品;在音乐创作中,人工智能可基于传统乐器音色与民间旋律生成音乐;在影视领域,智能剪辑和剧本生成技术则能够结合传统故事结构与现代叙事手法,创造出兼具文化深度与现代感的作品。本文通过分析近年来人工智能技术的发展及其在艺术创作领域的应用特征,探讨其在艺术生成机制变革与文化表达范式转型方面的潜力,特别是人工智能如何促进中国传统文化的创新表达,推动多元文化的融合与发展。

人工智能的发展历程可大致划分为三个主要阶段。第一,规则驱动阶段。这一阶段的人工智能主要依赖专家系统和规则推理,采用符号主义方法,通过预设的逻辑规则实现智能。代表性程序如ELIZA和SHRDLU展示了早期自然语言处理的可能性,但其能力十分有限。人工智能技术在此阶段多应用于医疗诊断、工业自动化等领域。然而,由于规则编写和维护的复杂性,人工智能的应用范围受到了较大限制。第二,统计学习阶段。随着算力的提升和大数据的普及,人工智能从规则驱动转向数据驱动,机器学习成为主流。2006年,Hinton推广深度学习概念,使人工神经网络在视觉、语音识别和自然语言处理等领域取得了突破。卷积神经网络在图像识别中表现卓越,而循环神经网络则在文本生成和语音识别中取得显著成效。同时,随机森林和支持向量机等经典机器学习算法广泛应用于文本分类、图像分类和预测分析。这一阶段的里程碑事件是AlphaGo的成功,它展示了深度学习与强化学习结合的强大潜力,使人工智能在复杂任务中超越了人类。第三,生成式人工智能阶段。这一阶段以生成对抗网络、扩散模型和Transformer模型为代表,人工智能不再局限于识别和分类任务,而是能够生成多种内容,如图像、文本和音频。扩散模型显著提升了图像生成的质量,而Transformer模型则在自然语言处理领域带来了革命性进展,成为文本生成和理解的核心技术。人工智能生成内容(Artificial Intelligence Generated Content,AIGC)成为这一阶段的核心特征,代表性应用包括文本生成、图像生成、音乐创作等。与此同时,人工智能不仅充当工具角色,还逐渐成为艺术创作的合作者,能够参与绘画、音乐创作、创意设计,甚至电影编剧,其生成内容的质量也逐渐接近专业水平。从“能听会看”到“能创作”,生成式人工智能打破了人类传统的创作边界。

计算机技术与艺术创作的交汇并非始于人工智能时代。早在20世纪中期计算机图形学初露端倪之时,科学家和艺术家便已尝试将计算机技术引入艺术创作。美国计算机科学家约翰•惠特尼(John Whitney)在20世纪60年代通过编程创作了早期的计算机动画,而实验艺术家维克多•瓦萨雷利(Victor Vasarely)则利用数学算法创作了独具风格的几何抽象艺术。到20世纪70年代,生成艺术作为一种独特的艺术流派逐渐兴起,艺术家们借助算法和程序生成视觉作品。80年代,随着计算机硬件和图形技术的进步,三维建模和渲染技术为数字艺术带来了新的表达形式。90年代,计算机图形学进一步发展,虚拟现实(Virtual Reality,VR)和增强现实(Augmented Reality,AR)技术也逐渐引入艺术创作领域。在音乐领域,计算机技术同样带来了革命性变化。作曲家伊安尼斯•泽纳基斯(Iannis Xenakis)通过数学模型创作了众多前卫音乐,展现了算法生成音频作品的潜力。视觉艺术方面,早期的数字绘画工具如MacPaint和Adobe Illustrator逐渐普及,为设计师提供了全新的创作手段。

进入21世纪,人工智能特别是深度学习的发展,使得艺术与技术的融合迈向新的阶段。在国际范围内,人工智能艺术的实践与理论研究逐渐成熟,涌现出一批具有代表性的实践者。早在20世纪70年代,英国艺术家Harold Cohen就已开始将人工智能引入艺术创作,他开发的程序AARON被认为是最早的人工智能艺术系统之一。AARON基于规则系统和知识库生成抽象或具象的图像,它不仅展现了人工智能在图像生成上的潜力,也引发了“创作者身份”与“创意归属”的哲学思考。Cohen强调,人工智能不只是工具,更是一种参与创作过程的“合作者”,他的实践为后来的人工智能艺术提供了理论奠基。随着人工智能艺术开始进入深度学习阶段,德国艺术家Mario Klingemann以生成对抗网络为核心工具,探索算法在视觉艺术、图像变形与风格转换中的潜力。他的作品常常带有强烈的视觉扰动与解构特征,如Memories of Passersby I(2018)通过生成对抗网络生成不断变化的肖像画,实现了“机器即画家”的概念。他主张“机器拥有审美潜力”,但也指出人工智能的美学建构仍需人类主导。他的作品常在艺术馆与科技展中展出,标志着人工智能艺术的公众影响力不断扩大。来自美国的计算机科学家Ahmed Elgammal则将人工智能艺术提升至更系统化的研究层面。他主导的人工智能艺术实验室(Art & AI Lab)推出了“AICAN”(AI Creative Adversarial Network)系统,该系统不仅生成具有艺术风格的图像,还可自主“创造风格”。Elgammal强调,AICAN是“既熟悉又陌生”(familiar yet novel)的创作主体,即人工智能既学习了艺术史中的风格特征,又通过对抗性训练创造出新的表现形式。在论文与展览中,Elgammal积极倡导“人工智能具备创造力”,主张人工智能不仅可再现艺术,更可推进艺术语言的演进。

数据、算法与算力的协同发展推动了人工智能从“分析”到“生成”的跨越性变革,而艺术与计算机技术的交汇历史进一步印证了技术赋能创意的必然性。人工智能并非突然进入艺术领域,而是数字时代“科技+艺术”探索逻辑的自然延续与升级。本文立足于人工智能艺术创作的核心理论结构,从数据驱动、生成模型与提示词工程等维度构建其认知基础与生成逻辑。在此理论框架下,笔者在中国风花鸟珠宝设计领域进行了实践,探索人工智能赋能艺术创作的具体路径。本文的目标不仅在于回应“人工智能能否成为艺术家”的技术命题与哲学追问,更意在探讨其在重构创作机制、拓展文化表达方式中的实际作用。

二、数据驱动的生成逻辑与人工智能艺术创作理论

人工智能艺术创作的本质体现为一种建立在数据驱动基础上的生成逻辑,其关键在于通过对大规模多模态数据的概率建模,重构传统艺术创作的范式与审美机制。这不仅是技术演化的结果,更标志着艺术认知路径从“具身经验”向“数据映射”的转变。在传统艺术中,创作依赖于创作者的直觉感知与表现性驱动,而在人工智能语境下,艺术风格与形式特征被转化为可操控的数学表征,例如生成对抗网络中的潜在空间,使创作活动得以在高维特征空间中进行拓扑建模。主流生成模型(如生成对抗网络、扩散模型)通过潜在空间插值、特征解构与跨模态语义对齐,构建起“信息提取—语义重组—概率生成”的艺术生产链条。

数据是生成模型理解艺术风格与文化意涵的认知基石。它不仅提供模型训练所需的素材,更承载着艺术风格、美学偏好与文化语境的结构化表达,是一种具有语义组织能力的美学知识图谱。以国画数据集为例,该数据集不仅包含大量国画图像样本,还通过细粒度的语义标签,如“山水”“写意”“青绿”等,建立图像与其文化语义之间的映射关系。此类语义—图像对齐机制的实质,是通过语言与图像的并行编码,构建一种可供计算建模的“美学语义场”。在这一语义场中,视觉特征被嵌入文化语境,使模型能够捕捉艺术风格中的隐性结构与文化逻辑。例如,“留白构图”在图像层面表现为空白区域,而在语义层面则关联着中国传统美学中的“以少胜多”“意在言外”等理念。当该语义标签被嵌入数据集中,生成模型便能够区分“空白”与“缺失”,理解“留白”在构图中的表现力与功能性,从而生成符合东方审美语法的图像。

尽管数据集提供了训练素材,艺术生成的根本机制仍依赖于模型结构的设计与优化。在人工智能艺术创作中,生成模型不仅是图像合成的技术引擎,更是将美学经验转化为视觉输出的认知中枢。其核心能力体现在:通过建模大量标注数据中蕴含的高维概率分布,实现从图像特征重构到审美语义生成的跨越。与传统图像处理侧重既有图像的修改不同,生成模型依托深度神经网络的层级特征抽象能力,在高维潜在空间中对风格、构图、色彩与语义等美学变量进行建模与重组,从而形成一种“结构可变”的视觉创作系统。以扩散模型为例,其生成机制模拟热力学中的扩散去噪过程,通过逐步采样,学习如何在噪声空间中重建有序结构。正是这一机制,使得人工智能不仅能精确还原细节与纹理,还具备了“从混沌中生出新形”的潜力。相较于重建式建模,扩散模型将生成空间定义为一个连续可调的语义轨迹网络,语义向量的嵌入使其能够重构构图逻辑、风格语言与色彩关系。生成对抗网络则通过生成器与判别器之间的博弈不断优化输出,使模型得以超越训练样本的边界,在潜在空间中探索新的艺术表达路径。

更为关键的是,这些模型所构建的高维潜在空间本质上是一种结构性的“语义原野”。在训练阶段,模型不仅学习图像的显性特征,更掌握了风格间的差异路径、构图语义的共现关系以及图像要素的分布倾向。这使得模型在生成阶段具备了“风格迁移”“跨语义融合”乃至“风格演化”的能力。例如,在中国传统国画的生成任务中,模型并非仅模仿“写意荷花”或“工笔花鸟”的表层特征,而是能在潜在空间中调取“留白”“意境”“墨色层次”等风格维度,进行重组与变形,生成既保持文化一致性、又具结构与语义差异性的艺术图像。这种由“拟像重构”走向“语义演化”的机制,标志着人工智能艺术生成已从物理图像的再现迈入文化符号的抽象生成阶段。艺术创作不再是数据记忆的简单复现,而是通过对潜在向量的调控,实现美学范式的重构与再生。因此,生成模型在根本上推动了一种新的创作机制:生成不等于复制,而是一种基于概率结构和语义嵌入的“形式探测”。人工智能由此具备真正的创造能力,即在模糊的潜在语义边界中,开辟出新的风格路径,重组文化意象与视觉语言。

在人工智能艺术创作的系统结构中,提示词作为模型生成的触发指令,其核心功能在于建立“语言—图像”之间的可控生成路径,使模型能够在语义空间中准确定位风格、主题与构图逻辑,实现从人类审美判断到机器视觉合成的结构性过渡。在生成模型中,提示词被编码为高维向量,其表达逻辑不再依赖传统语言的线性语法结构,而是通过多模态嵌入机制构建语义与图像的联合向量空间。在该空间中,每一个提示词不仅是文本信息的表达单元,亦是生成潜力场中的引导节点。因此,提示词工程的本质是一种控制性符号结构,通过语义激活引导模型潜在空间的生成路径。艺术创作者借助提示词的选取与组织,实现对图像内容、风格、情感基调乃至文化象征的控制,构成一种独特的“语言驱动的艺术生产机制”。该机制既不同于传统手工艺术创作,也异于程序化图像设计,而是一种建立在语义层面的构图行为,其关键在于“如何用语言调度图像”。

提示词的理论意义在于,它构成了一种新的生成美学的转译机制。在传统艺术中,审美经验通过身体知觉与技艺训练得以外化;而在人工智能生成系统中,提示词作为人机交互的中介,承担审美范畴的结构化转译任务。它将诸如“留白”“笔意”“写意”“构图松紧”“气韵生动”等非结构性经验,通过结构化文本的形式转化为模型可识别的语义指令。这一转译并非简单命名或标注,而是一种再编码过程,需要创作者理解模型的训练逻辑与语义嵌入方式,有效耦合文化意象与视觉特征。由此,提示词工程不仅是技术操作,更是一种符号美学实践,即在语义层面构建可生成的“文化结构”。此外,它还扮演着人机共创的策略接口角色,体现了创作者在创作中的“策划性介入”。此时,艺术家不再是直接的作品制造者,而转变为“参数调控者”与“语义策划人”,其创作行为表现为对模型潜在空间的策略性操控,体现在语言结构设计、语义歧义利用及风格提示的排列组合等方面。这种模式展现了一种新的“生成式作者性”,不同于传统的手工创作,也区别于基于规则的程序设计,体现了提示词作为操控工具在复杂模型结构中的多重调度作用。

人工智能艺术创作重构了“作者”概念,打破了传统创作中对中心化主体的依赖。在此语境中,创作主体性被分布在训练数据的美学记忆、模型结构的约束机制、以及参数调节与提示词设计等人机交互环节中,呈现出一种“去中心化”的协同生成格局。这种机制催生出一种新的“生成美学”——艺术创作不再是人类个体情感的单向投射,而是算法逻辑、语义控制与文化语料之间的协同生成过程。生成美学突破了“创作者意图—观众感知”的二元范式,转向关注生成机制本身的结构组织与表达张力。在这一框架下,艺术作品的意义源于数据分布、模型参数与语义提示之间的交互融合,进而形成一种全新的“计算生成的审美经验”。

三、人工智能在中国风花鸟珠宝设计中的应用

中国花鸟艺术作为中国传统文化的重要象征,以其独特的造型语言与深厚的文化意涵,在漫长的历史发展中展现出持久的艺术生命力。从工笔花鸟画的精致细腻,到文人绘画中的诗意表达,花鸟题材不仅体现了自然生命的繁盛与灵动,更承载了人与自然、精神与情感之间的审美关联。在中国传统艺术中,花鸟形象常被赋予象征意义,其审美价值体现在对自然意境的再现与内在精神的表达。与此同时,珠宝设计作为一种融合物质工艺与艺术表达的综合性创作形式,在展现造型美感的同时,亦具有文化传达与象征叙事的功能。因此,将中国花鸟艺术的精髓与珠宝设计相结合,既是对传统文化符号的再创造,也是对当代表达方式的拓展。这种融合不仅提升了珠宝作品的艺术层次与文化深度,更促成了传统意象在当代设计语言中的活化与转译。

然而,这一融合过程并非形式叠加,而需设计者在花鸟题材的审美特征、象征意涵与珠宝材质语言之间实现有机统一。传统设计方法在面对复杂文化意象的视觉转译和形式再创造时,常因创作者的知识结构、文化理解及符号掌握的局限,难以全面呈现花鸟所蕴含的精神内涵与象征体系。这种认知上的局限性可能导致设计创意趋于表面化、模式化,难以实现真正意义上的文化重构与美学创新。

为应对上述挑战,笔者联合开发团队,基于数据驱动的生成逻辑,构建了一个面向中国风花鸟珠宝创作的人工智能生成系统,旨在突破传统设计过程中因认知局限与文化转译障碍所导致的创意瓶颈。该系统以结构化的花鸟画图像数据、花鸟主题珠宝设计图样及语义标签为基础,结合扩散模型构建多模态潜在空间,从而模拟并演化中国传统花鸟元素的视觉特征与文化意涵。通过模型训练,系统不仅能够精准复现花鸟图像中的细节纹理与色彩层次,还能在生成过程中嵌入具有文化语义的提示信息,实现从传统绘画风格到珠宝造型语言的跨模态重构。

该系统的构建包括三个核心阶段:1.数据集与扩散模型的构建与训练;2.基于文本语义描述生成具有中国风花鸟意象的图像;3.以生成的花鸟图像为视觉引导,进一步生成具备珠宝设计语言的花鸟主题图像。整体技术流程如图1所示。

图1 面向中国风花鸟珠宝创作的人工智能生成系统构建流程

(一)数据集和模型构建

数据质量在人工智能模型的训练效率与生成效果中具有关键性影响。低质量图像(如模糊、噪声或其他干扰)会弱化模型对图像特征的提取能力,从而降低生成内容的准确性与表现力;而高分辨率图像则能够提供丰富的细节信息,显著提升模型的建模效果和生成质量。除图像清晰度外,数据的多样性与类别均衡性同样构成高质量数据集的重要维度。前者决定模型在面对未见样本时的泛化能力,后者则直接影响其对多类别任务的学习均衡性与整体性能。若训练集中某一类别样本严重不足,模型在生成相关内容时易出现失真或偏差。

基于此,需要构建一个具备高质量、多样性、类别均衡性及精确标注的数据集,以支撑后续模型的有效训练。该数据集的构建主要依托三个关键环节:数据收集、图像预处理与数据标注。数据来源涵盖专业艺术网站、数字博物馆、数字图书馆、设计师个人作品集及各类视觉宣传材料,确保图像在清晰度、多样性和类别分布方面达到既定标准。图像预处理环节包括分辨率统一、图像增强及去噪等操作。数据标注环节主要依据预设标签体系对图像进行系统化标注,涵盖主体类别、艺术风格、色彩特征、视角类型等信息,标注形式包括自然语言描述与结构化标签。

具体来说,在数据收集阶段,开发团队基于现有艺术资源,构建了两个风格迥异但主题一致的数据集,分别为中国传统花鸟画数据集与花鸟主题珠宝设计数据集(见图2)。在数据采集与整理过程中,主要围绕以下几个方面展开。首先,为提升模型的学习效率与风格稳定性,优先选取风格相对统一且具备高分辨率的图像样本,确保图像主体清晰、花鸟元素辨识度高,避免因图像风格或质量差异造成干扰。其次,在类别构成上注重多样性与均衡性,避免特定花鸟元素出现频率过高,从而防止模型学习偏向性问题。针对花鸟画数据集中常见的干扰因素,如题款、印章、污渍等,采用图像预处理技术进行有针对性的清理,以提升样本的纯净度与识别准确率。同时,利用图像增强方法(如亮度与对比度调整)进一步优化视觉呈现效果。考虑到部分图像来源于网络,存在分辨率不一致的问题,开发团队引入超分辨率重建算法对低清晰度图像进行增强处理,并统一将全部图像缩放至指定尺寸,以满足扩散模型对输入数据在尺度和格式上的一致性要求。

图2(a)中国传统花鸟画数据集示例

图2(b)花鸟主题珠宝设计数据集示例

图2 数据集图像示例

在数据标注阶段,开发团队采用自动标注与人工校验相结合的复合策略,以提升标注效率与准确性。首先,对数据集图像进行目标检测与分类,自动生成初步标注信息。随后引入人工审核与校正流程,由具备艺术背景与图像识别经验的标注人员对模型输出结果进行人工校验,纠正识别错误与语义偏差,特别是在文化语义标注、风格细节区分等方面进行细化处理,确保语义标签的准确性与一致性。

在模型构建阶段,开发团队采用扩散模型提取珠宝的风格特征,并将其融入传统花鸟画中,实现花鸟主体的风格转换,生成具有中国风元素的珠宝设计图像。具体而言,通过扩散模型的“文生图”与“图生图”技术,系统实现了从文本描述到中国风图像、再到精细化珠宝设计图像的自动转化流程。首先,输入包含花鸟元素的文本描述,如“中国花鸟画、鸟、花、鸟站在枝头、树叶、树枝”等,生成与语义匹配的中国风图像。随后,输入这些生成的图像,引导珠宝模型生成融合花鸟特征的珠宝设计图像,完成从传统绘画到现代设计的风格迁移(见图3)。为增强设计的创新性与多样性,系统进一步引入图像条件输入(即图生图),允许设计师将已有图像作为灵感源,通过风格迁移与元素融合生成全新方案,从而拓展设计的表达空间,使结果既承载传统美学,又体现当代设计语言。训练过程中,采用低秩自适应技术(Low-Rank Adaptation of Large Language Models,LoRA),使模型在有限数据量条件下亦能高效学习和捕捉关键视觉特征。

图3 中国风花鸟珠宝设计模型流程图

(二)中国风花鸟图像生成

中国风花鸟图像生成模块基于文生图技术,可根据输入文本描述自动生成相应的中国风图像(见图4)。该流程以扩散模型为核心,其中文本编码器负责将文本语义解析为可被模型处理的词向量。具体而言,系统采用CLIP的文本编码部分,通过对文本内容的深度解析,提取语义特征并映射至多维向量空间,从而实现语义对图像生成的精确引导。CLIP由文本与图像编码器构成,预训练于大规模图文对任务中,用于建立语言与视觉之间的关联。扩散模型仅调用其中的文本编码器,以高效捕捉输入语义,并将其转化为模型可识别的特征向量,用于驱动后续图像生成过程。

图4 基于文本描述生成中国风花鸟图像示例

在模型训练的第二阶段,噪声预测单元基于设定的生成参数,在潜变量空间中生成一张初始噪声图像。该图像虽不含可识别的视觉特征,但在后续去噪过程中,将在词向量引导下逐步演化为清晰的中国风花鸟图像。去噪通过多轮迭代完成,每次迭代均使结果更逼近目标图像。需要指出的是,扩散模型生成过程并非直接在高维图像空间中进行,而是先将图像信息编码至维度更低的潜空间内。相比直接在像素空间操作,该方式显著降低了计算资源消耗,并提升了生成效率。

在图像生成的最后阶段,扩散模型通过内嵌的变分自编码器,将潜变量空间中的图像表示解码回原始图像空间,完成从文本到图像的转换。该过程不仅确保了生成图像的高分辨率,还保留了文本描述中的细节与风格特征,精准呈现中国风花鸟的独特美学。依托扩散模型在文本解析、潜空间建模与变分自编码器图像重建方面的协同能力,中国风图像生成模块能够高效生成符合中国传统美学的花鸟图像。

(三)中国风花鸟珠宝图像生成

中国风花鸟珠宝图像生成旨在将生成的中国风花鸟图像与珠宝设计风格进行融合,生成既继承传统美感又具有现代设计感的花鸟珠宝图像。开发团队利用图生图技术,输入中国风花鸟图像,并结合ControlNet架构对构图和细节进行精细控制,成功实现了从传统中国风花鸟图像到同主题珠宝图像的风格迁移,如图5所示。图生图是在输入文本描述的基础上,增加图片输入作为控制条件,与文本描述一起指导最终图像的生成。输入图像通过基于变分自编码器的图像编码器提取其关键特征,模型将根据文本特征和图像特征,将输入图像转换成保留原始结构同时融入新特征的图像。

图5 基于中国风花鸟图像生成中国风花鸟珠宝图像示例

从上一节可以看出,通过对预训练模型CLIP和扩散模型的使用,图像生成技术已经能够相当精确地按照指定的风格和内容输出图像。然而,对于构图、位置等更为精细的控制,常规模型的表现仍然不佳。为解决这一问题,开发团队使用ControlNet架构,对生成图像进行更精细的控制。ControlNet在保留扩散模型图像生成能力的基础上,支持多种条件输入,以达到生成更可控图像的目的。在中国风花鸟珠宝图像生成任务中,ControlNet架构被用来保留输入的中国风花鸟图像的构图和线条等视觉元素,以生成更为精细的图像。针对常见的五种ControlNet的条件控制,开发团队进行了一系列实验来寻找最佳策略。表1展示了这五种条件输入在图像处理上的效果,其中输入图像是基于中国风花鸟模型生成的(见图6),并结合了相应的文本描述。

图6 基于中国风花鸟模型生成的图像

ControlNet通过引入边缘图、深度图等多种输入条件,实现了对文生图和图生图生成过程的更精细控制,使得生成图像能具有指定的构图和线条结构。从表1可以看出,Canny、Softedge、Scribble和MLSD主要用于线条检测,而Depth则用于深度图检测。Canny和Softedge提供了精细的线条检测,极大地还原了输入图像的细节特征,如花瓣的纹理、鸟类张开的喙以及背景元素等。然而,过度精细的线条在保留中国风花鸟风格的同时,也许不能充分展现现代珠宝设计的风格。特别是,中国风花鸟图像中墨色的浓淡变化可能会对边缘检测造成干扰,这是在选择条件输入时需要特别考虑的。Scribble虽然牺牲了一些细节,但在艺术风格的融合上表现最佳。MLSD只能检测到直线的线条,并不适用于花鸟珠宝设计的生成,而更符合建筑设计、室内设计等需求。Depth提供的深度信息对于融合两种不同风格具有积极作用,但可能会引入不必要的光影细节。综上所述,Scribble在结合中国风花鸟与珠宝花鸟风格方面,提供了最优的解决方案。

表1 ControlNet条件控制示例

最终,笔者与开发团队共同研制了中国风花鸟珠宝设计图生成系统,图7展示了该系统生成的部分作品。

图7 中国风花鸟珠宝设计图生成系统创作的部分作品(笔者项目截图)

结语

人工智能作为当代极具颠覆性的技术,正在深刻重构艺术创作的范式与生态体系。从最初的工具性辅助到如今具备生成能力的创意共创主体,其作用已由模仿与再现迈向自主生成与创新表达的新高度。本文以中国传统美学在珠宝设计中的融合实践为例,尝试探索人工智能在激发文化表达、拓展艺术创作边界方面的潜力。纵观数字艺术的发展进程,技术的演进始终是推动艺术媒介革新与表现手法提升的核心引擎。而在人工智能语境下,创作机制发生了根本性的转变,从“灵感驱动”转向“数据驱动”,从“个体表达”扩展为“人机协同”。这一过程中,算法不再只是创作的工具,更成为文化语义重组、美学范式创新的重要参与者。生成模型的概率建模能力、提示词工程的语义控制策略、跨模态编码的美学语境对齐机制,正在共同构建一种新的“生成美学”框架,推动艺术创作从经验性表达迈向结构性生产。人工智能并非削弱人类艺术主体性或原创力的威胁性存在,而是一种激发创造性想象、拓宽艺术表现边界的赋能平台。人工智能艺术的本质不仅关乎技术革新,更是一场关于艺术思想、文化逻辑与审美机制深度重构的文化实践。

*本文工作得到国家自然科学基金面上项目“基于人工智能的绘画艺术关键技术研究”(项目批准号:62176006)和科大讯飞股份有限公司校企合作项目“计算艺术应用研究”等项目支持,在此表示感谢。

*为方便电子阅读,已略去原文注释,如需完整版本,请查阅纸刊。


作者:高峰 单位:北京大学艺术学院

《中国文艺评论》2025年第10期(总第121期)

责任编辑:薛迎辉


☆本刊所发文章的稿酬和数字化著作权使用费已由中国文联文艺评论中心给付。新媒体转载《中国文艺评论》杂志文章电子版及“中国文艺评论”微信公众号所选载文章,需经允许。获得合法授权的,应在授权范围内使用,为作者署名并清晰注明来源《中国文艺评论》及期数。(点击取得书面授权

《中国文艺评论》论文投稿邮箱:zgwlplzx@126.com


延伸阅读:

高峰 | 人工智能在艺术创作中的介入机制与实践路径——以中国风花鸟珠宝设计为例(“中国文艺评论”微信公号)

2025年《中国文艺评论》杂志重点选题参考

2025年《中国文艺评论》杂志征订启事

《中国文艺评论》来稿须知

《中国文艺评论》2025年第10期目录




  • 中国文艺评论网

  • “中国文艺评论”微信公号

  • “中国文艺评论”视频号