基于生成对抗网络的复合功能体系计算性设计 —以职业技术学院校园平面生成为例
原载于2022年《建筑学报 学术论文专刊》第一期
基于生成对抗网络的复合功能体系计算性设计 —以职业技术学院校园平面生成为例
Computational Design of Multi-functional System Based on Generative Adversarial Networks
Taking the Layout Generation of Vocational and Technical College as an Example
作者:
陈梦凡1 CHEN Mengfan
郑 豪 2 ZHENG Hao
吴 建1(通讯作者) WU Jian
作者单位:
1.上海交通大学设计学院
2.宾夕法尼亚大学设计学院
通讯作者:上海交通大学设计学院
摘要
选取职业技术学院作为研究对象,建立职校平面的数据集,并基于生成对抗网络进行机器学习和模拟。通过机器学习对平面图的逐步生成和人工优化的工作方式,本研究分为3个阶段,其中包含区域划分、位置确定、形态生成3个步骤。机器学习模型可以快速生成包含主要空间元素互动组合的研究型方案,进而帮助建筑师探讨职校设计的规律性和神经网络的外延性。
关键词
校园设计;生成对抗网络;自动生成;平面形态
ABSTRACT
This paper selects vocational and technical colleges as the research object and established a data set of vocational and technical college plans, for conducting machine learning and simulation based on Generative Adversarial Networks. The working mode of this research is the gradual generation and manual optimization of architectural plans by machine learning, and this research process is divided into three stages including region division, location determination and form generation. The machine learning model can rapidly generate a series of research-based schemes which contain the interaction combination of major spatial elements, and help architects to explore the regularity of vocational and technical college design as well as the extension of neural network.
KEY WORDS
campus design; Generative Adversarial Nets; automatic generation; plan morphology
1 研究背景
1.1 神经网络简介
神经网络[1]是一种模仿生物神经网络结构和功能的数学模型或计算模型。它由大量的节点(nodes,或称人工神经元)和之间相互的联接(edges)构成。联接可以向相邻的节点传递一个实数信号;节点接收输入的信号并进行处理,再将输入信号之和的非线性函数计算结果输出给下一层的节点。联接通常有一个权重值(weight),权重增加或减少该联接处的信号强度;节点有一个阈值(bias),只有当聚集的输入信号强度超过该阈值时,节点才会被激活,并发出新的信号[2]。通常,节点聚集为层(layer),不同的层可以对其输入信号执行相应的转换。神经网络包括输入层、隐藏层及输出层,输入层接收输入信号,隐藏层对其进行运算并将结果传给输出层,用户就能够看到最终结果。神经网络通过对已知信息进行反复学习训练,通过逐步调整改变节点联接权重的方法,达到处理信息、模拟输入输出之间关系的目的[3]。
伴随着算法优化、计算机硬件性能提升、网络数据爆炸式增长,神经网络正逐步成为人工智能领域的研究热点。神经网络的自适应性、非线性、容错性、计算的并行性和存储的分布性使其在处理模糊数据、随机性数据、非线性数据方面具有明显优势,对规模大、结构复杂、信息不明确的系统尤为适用[4]。
1.2 基于图像的生成对抗网络
神经网络有多种模型。其中,卷积神经网络(Convolutional Neural Network, CNN)优化了对于图像的识别能力[5];生成对抗网络[6](Generative Adversarial Network,GAN)提供了生成数据的方式。两者的紧密结合,在图像及视频生成方面被广泛应用[7]。基于GAN,Isola P等人提出pix2pix,利用成对数据实现了图像翻译(Image-to-Image Translation )[8] 。pix2pixHD在pix2pix的基础上产生,其优越性在于可以生成更高分辨率的图片[9](图1)。工作原理为:图片先经过一个生成器 G2的卷积层进行2倍下采样,然后使用另一个生成器 G1生成低分辨率的图,将得到的结果和采样得到的图进行对应元素的相加,然后输出到G2的后续网络生成高分辨率的图片。经过上述处理,低分辨率的生成器会学习到全局的连续性,越粗糙的尺度感受也越大,越重视全局一致性。高分辨率的生成器会学习到局部的精细特征。因此生成的图片会兼具局部特征和全局特征的真实性,从而得到更高分辨率的结果。
图1 pix2pixHD 中生成器的工作原理
1.3 相关文献梳理
在过去的几年中,神经网络已经在建筑平面、建筑立面、城市规划、城市街景生成等方面进行了有益的探索,能够根据限定条件直接生成具备一定合理性的设计结果(表1)。
Tian R等(2020)建立了包含4400个训练样本的数据库,并使用pix2pixHD学习波士顿街区的建筑布局[10] ;Wu W等(2019)建立了包含120 000个训练样本的数据库,并使用CNN学习亚洲住宅的平面布局[11]。但以上研究模式对于训练样本数据量的要求过高,这对数据的收集形成巨大挑战,且在大量数据学习的基础上,相关研究成果虽呈现出一定的有效性,但准确度仍有待提升。
Huang W等(2018)在学习了100个样本后,使用pix2pixHD寻找出人工标记过的公寓平面图与真实图纸之间的关系[12];Shen J等(2020)基于400个训练样本,使用pix2pixHD学习中国不同城市的建筑总平面排布,生成不同地域条件下的城市规划设计方案[13]。以上研究虽然可以基于小样本进行训练模拟,但是应用对象较为简单。
Newton(2019)使用GAN对45张柯布西耶的建筑平面样本进行了学习 [14],但模拟结果较为模糊,无法分辨;Liu Y等(2020)收集了85张中心型大学校园平面样本,以颜色分辨为基础对其功能布局模式进行学习和模拟[15],但生成结果与学习对象在形态层面仍存在有较大差异。以上研究聚焦于具有一定复杂性的空间类型的小样本学习,但模拟结果清晰度和准确度欠佳。
Chaillou S(2019)使用pix2pix训练了“地块——建筑轮廓”、“建筑轮廓——房间分割”和“房间分割——家具布局” 三组神经网络模拟公寓设计,以纯机器学习的思路,分别训练并进行关联,形成功能布局与空间形式的衍生式生成模式[16],在此基础上,杨柳对青年公寓进行了类似的学习,分别模拟房间分割和家具排布[17]。Pan等(2021)基于GauGAN对天津和北京167个邻里社区的建筑和道路平面进行了学习,训练了“建设地块——建筑平面”和“建筑平面——道路网”两组神经网络,生成不同风格的建筑布局。可以看出:a)神经网络分步学习相较于一步生成的结果更为清晰;b)如果不加以人工干预,仅仅是多个神经网络进行级联生成,累积的误差仍然会使最终成果略显模糊。
表1 现有的神经网络研究成果
1.4 研究目标
综上,现有的工作方法一般可概括为:在功能区域划分基础上,对特定的功能区块附以特定的色块,在建立色块与功能划分基础上形成分辨学习模式,并结合特定案例进行训练和模拟。这种工作方法可以对同类型空间进行快速的、特定的生成,但不足之处也较为明显,主要表现为:无法满足基于较少样本基础上、对较为复杂的研究对象、产生较为准确的生成结果。
因此,为进一步提升研究方法适用性、拓展研究对象外延性、增强研究结果准确性,本文在已有研究成果基础上,借鉴Chaillou S和Pan分步学习方法,基于pix2pixHD设计了一套分步学习且能够逐步优化的工作流程,并选择较为复杂的研究对象进行验证、生成,以推进生成对抗网络与建筑设计的深度结合。
2 研究思路
2.1 研究对象和实验流程
结合前文论述,本文设定的研究对象应具备如下特征:a)其应是一个复杂的封闭系统;b)以较少数量的样本为基础,形成较为准确的生成结果。我国的职业技术学院校园平面恰好满足以上研究设定要求。笔者曾对现有较为成熟的职业技术学院校园典型设计案例进行了相对全面的整理。在研究过程中发现,我国目前对职业技术学院校园规划与设计成果相对较少1)。并且职业技术学院内部功能类型较为多样,由此导致其空间体系较为复杂。因此,选择职业技术学院校园作为研究对象,与本文所设定的研究目标高度吻合。
在此基础上,本研究聚焦于校园总平面图的生成研究。由此切入基于以下两方面原因:其一,总平面图携带的信息大而全,是校园规划设计过程中最为重要的组成部分之一;其二,相对于三维空间形态研究,由二维平面布局入手可以大大减少计算量,从而为生成较为精准的研究成果提供便利2)。本研究的重心在于通过优化工作方法提高结果的准确性。基于此,实验设计了分步学习、逐步优化的工作流程。实验设定了三次神经网络学习和两次手动优化,共五个环节,以学习职业技术学院校园平面的区域划分、位置确定和形态生成(图2)。完整的模拟流程为:1)计算机依据输入的场地信息输出模拟的功能分区;2)结合严格的原则对输出的功能分区进行手动绘制;3) 计算机依据输入的重绘功能分区输出模拟的建筑和场地位置图;4)再一次应用严格的原则对模拟出的建筑与场地位置图进行二次手动绘制;5) 计算机依据输入的二次手绘位置图输出模拟的建筑和场地形态图,从而得到完整、精准且清晰的校园总平面。
图2 实验流程
2.2 数据库的建立
在pix2pixHD中需要有一一映射的输入图像和输出图像进行监督学习,所以本文将各样本统一处理成4张尺幅相同(600*500像素)、格式一致(标记元素和图例颜色相同)的图片,编号为“A” 、“B” 、“C” 、“D”(图3),且将真实建设的图片记录为为“A” 、“B” 、“C” 、“D”;模拟生成的图片加注下标“0”;优化后的图片加注下标“1”。形成“A-B0”、“B1-C0”、“C1-D0”三对学习图像 。图片A包含基地的基本信息,包括用地范围、外部道路、校园出入口和山体水域范围;图片B/ B0/ B1用不同色块表达了功能分区的信息;图片C/ C0 /C1包含各建筑和场地的位置信息,用不同颜色的圆点标记对应功能的建筑和场地,圆点的位置为建筑和场地的质心,圆点的面积与建筑、场地的占地面积成正比;图片D/ D0是完整的总平面,表达出所有建筑、路网和场地的具体位置、大小和形状信息。
图3 数据集图片格式示例
其中,我们使用不同的颜色按照功能差异对区域或建筑进行标注,以保留建筑的功能信息。标记元素的数量应尽可能少而全,以便在顾及训练网络准确率的情况下尽可能多地反映样本信息。标记元素的选取和分类取决于实验的目标和对象的特性。本文重点关注职校特有的学生生活(宿舍、食堂、教育超市)、教工生活(宿舍、食堂、教育超市)、公共教学、实验室训、行政办公、体育运动(操场、体育馆、其他活动场地)五大类功能和用地范围、入口、地形、外部道路四类表征基地信息的元素,图书馆、会堂、校史馆等聚集型公共建筑归属为“其他建筑”一类。考虑到部分职校仅完成一期建设,因此增加了 “空地”元素,以标记包括绿化带、草坪、待建设区域在内的空地。由此,本文最终将其归纳为13大类元素。
标记颜色的区分度尽可能大,以减小运算误差。计算机通过读取图片R、G、B三个通道的数值以获取图片信息,所以在选择颜色时,将R、G、B三个通道二等分,采用0,127,255三个数值,以增加计算机读取像素点的识别性。最终在制作数据集时选取了13个元素及对应的标记颜色,具体情况如(表2)所示。
表2 标记元素和颜色的规则
研究共选取了95个职校案例作为训练样本,5个案例作为测试样本,选取案例的原则是:a)每个校园尽可能覆盖多种功能;b)选取了中心型、多组团、轴线型等多种组织模式的校园,从而为探索复杂空间类型的生成研究提供借鉴。
以上样本按比例均缩放成600*500像素的图片,每1*1的像素代表5m*5m的实际面积,以满足内容清晰、运算量小的要求。图片大小和缩放比例的选取由以下约束决定:a)pix2pixHD最高可对2048*1024像素的图片进行计算[9];b)数据集中样本长宽需与图幅匹配,其中南北向最长的005号样本长达2010m,东西向最长的020号样本长达2683m(图4);c)样本中面积最小的元素为28m*15m的篮球场,需要在图片上得到清晰的绘制;d)在以上前提下尽可能压缩图片大小以缩短运算时间。
图4 训练样本 005(左) 和 020(右) 的图片 D
2.3 训练过程
(图5)展示了训练过程中生成网络和判别网络的损失函数(LOSS)。在训练中,生成网络和判别网络相互博弈,互动调整,生成足以以假乱真的平面。可以看到随着训练迭代次数的增加,生成器和判别器的损失函数相互咬合,其中一方的损失函数大的时候,另一方的损失函数就小,由此表明该神经网络的训练是完善的。
图5 损失函数
2.4 优化过程
在步骤2、4时需对图片进行手动加工以提高图片准确度和清晰度。为避免因个人判断而增加的误差,优化时需遵循统一性规则:
a)真实性。如,外部道路、入口、山体水域这三个元素的形状、位置和颜色预设不会更改,若有偏离则需复原,如(表3-f)所示。
b)可辨性。部分像素点的色值会和13个标准RGB色值有轻微偏差,将其用相近的标准色值进行修正,如(表3-c)所示。
c)可读性。模拟过程会产生一些无意义的噪点,若某像素的色值与选定的13个标记色值相差过大,则视为无效,将该像素的颜色统一为其背景区域的颜色,如(表3-e)所示。
d)合理性。用规整的弧形和线段在色块分界中轴线上拟合模拟生成的道路,如(表3-a);用标准大小的圆点拟合C0图中的运动场地,如(表3-d);用纯净的色块填充区域中面积过小的像素群,如(表3-b)。
表3 优化过程
3 实验结果
本文选取了5个在场地特征方面各具特色的案例作为测试样本(图6),以观察训练的网络在不同情况下的适用性和准确性。其中,Ⅰ、Ⅲ、Ⅳ号比较特殊:Ⅰ号有大面积不相连水域、基地轮廓不规整并且在东南角路口设置了主入口;Ⅲ号面积比较小;Ⅳ号基地形轮廓略复杂。Ⅱ、Ⅴ号比较具备一般性,基地形状规整,地形也比较简单,环境干扰因素较小。
图6 5 个测试样本的图片 A
3.1 分步对比实验
本实验共包含三个模拟阶段。为验证分步模拟的必要性,在前期准备过程中,笔者做了两组对比实验,分别是:a)直接生成:直接从表达基地信息的图片A生成表达完整设计的图片D0;b)两步生成:从A图生成B0,再由B0生成D。结果如图7所示:实验a的测试结果呈现出大片无规则、不清晰的絮状噪点。虽然图片的肌理和色彩构成与预期结果相似,但学习结果流于形式,建筑的位置、功能、面积难以辨认,未能抽象出本质规律,难以进行解读。实验b中建筑功能明确,但形态和位置模糊。而本文分五个步骤、三次模拟所得的结果则相当清晰明确并具备一定合理性,因此本文设计的实验能够优化现有的工作方式,提升研究成果的精确度(图7)。
图7 对比实验中的样本Ⅳ的 D 图结果对比
3.2 第一阶段——区域划分
在第一阶段中,机器学习的结果与实际情况虽然并不完全相同,但本身呈现出逻辑自洽的一面,大体上符合职校设计的一般规律(图8),如:
a)各功能区之间的位置关系比较合理,且符合动静分区、便于使用的原则。如:学生生活区、体育运动区位于校园外圈,且往往相邻;教工生活区与学生生活区相邻;公共教学楼和聚集型公共建筑被布置在校园中心、滨水区域;实训实验区域、公共教学区域与行政办公区域三者相邻,形成教学组团。实训实验区则被分为若干块以保证不同专业的相对独立性。
b)各功能区域的占地面积比例合理。学生生活区、教学区、实训区是职业技术院校的主要功能,占地面积最大;行政办公区面积较小;教工生活区区域和其他区域的占地面积因为学校规模、类型的差异而各不相同。
图8 第一阶段测试样本的输入、输出和真实情况
3.3 第二阶段——位置确定
将B1输入第二个神经网络进行测试,得到如(图9)所示的结果。模拟结果有以下特征:
a)能够体现出不同类型建筑的数量和面积差异。如:图书馆、会堂、行政楼、公共教学楼等功能对应的圆点往往面积大、间距大、数量少,而学生住宿区对应的圆点则面积小、间距小、数量多。
b)能够体现出不同规模学校的建筑密度差异。如样本Ⅲ密度远大于样本Ⅱ。
c)对于面积过小的建筑或者场地学习效果一般,如篮球场、排球场。
图9 第二阶段训练样本的输入、输出
3.4 第三阶段——形态生成
将C1输入第三个神经网络进行模拟,得到(图10)的最终结果。可以看到:
a)能够学习建筑和运动场地的形状特征。比如体育场是南北向的椭圆;行政楼、公共教学楼和宿舍楼大多是水平的矩形;图书馆、会堂呈现出接近于正方形的形状;测试样本Ⅱ、Ⅳ、Ⅴ中,部分实训楼、教学楼、行政楼呈现出组团摆放的特征,能够形成院落空间。
b)对于功能相同、体量相近的建筑或者区域难以做出差异化的解读。如测试样本Ⅲ、Ⅳ、Ⅴ中布置了并排的运动场,而非“运动场+体育馆”。
图10 第三阶段训练样本的输入、输出
3.5 训练集的自验证
另外本文同时分三次对95个训练样本进行了再测试。
在第一次模拟中,测试结果与真实状况在功能区的形状、位置和颜色上几近相同,仅局部区域有差异。其差异部分一定程度上也体现出训练样本之间相互学习、相互影响之后的一些反思与优化。可以看到:
a)各样本的教学区、运动区、生活区等的模拟结果与真实场景高度一致,但在一部分案例中,模拟出的行政办公区选址往往会和真实情况有比较大的出入,但也相对合理。表明教学区、运动区、生活区的设计原则较为明确,而占地面积小、独立性强的行政办公区在布置时往往比较灵活(图11)。
图11 部分行政办公区位置有差异的样本
b)在一些功能区高度混杂、复合的案例中,功能分区被合并简化,体现出在大多数职校校园中师生的居住、工作、游憩行为被泾渭分明的分割来开,理性有余,人性化和有机化不足(图12)。
图12 部分功能分区有差异的样本
在第二次模拟和第三次模拟中,将训练样本进行再测试,所得结果与真实结果几乎没有区别(图13、14)。
图13 第二阶段部分训练样本的训练结果(左)与真实情况(右)对比
图14 第三阶段部分训练样本的训练结果(左)与真实情况(右)对比
3.6 初步结论
总的来说,生成对抗网络成功实现了对职业技术院校这一复合功能体系的平面方案图的生成,其结果具有较高的可辨识度和合理性。就存在的误差而言,综合三个阶段的拟合来看,功能分区的差异是造成模拟方案与真实方案不同的主要原因,也一定程度上解释了同一工程的设计方案多样性、复杂性、差异性的来源。而建筑选址和形态设计的不确定性较低,相对容易进行自动化的设计。
总结
生成对抗网络在图片模拟方面有广泛的应用,但在建筑领域现有的成果受限于工作方式的不足,往往选择较为简单的研究对象入手进行分析,且某些生成结果也较为模糊,准确度较低。本文基于pix2pixHD采取分步模拟、人工优化的工作方式,提升了模型的转化效率,增强了输出图片的复杂性和准确性,生成了完整、可读、合理的职业技术院校平面形态图。
本实验中,pix2pixHD通过对每个样本所携带的600*500组RGB数值进行读取和学习,基于对色值大小、色值数目、排布顺序的模拟,理解了职业技术院校中功能分区和建筑在形态、位置和相互联系三方面的设计规律,并在全新的基地条件下形成对应的设计成果,同时大大简化了收集、整理和分析案例的工作,从而提升设计效率,并优化设计结果。
与此同时,虽然本文呈现了在小样本前提下对复杂对象进行模拟设计,并生成清晰准确结果的可行性,但最终得到的成果仍旧存在一些不尽合理、且缺乏控制的细节。因此,在后续的研究之中,通过对数据库按照更为优化的标准进行定向筛选,或可得到更加符合要求的结果。
随着算法的优化、计算机运算能力的提升、数据资料库的完善,生成对抗网络有望基于更贴近项目的训练样本得到更优的模拟结果,并在实际工作过程中,能够与建筑师的设计成果进行相互印证、相互融合及相互优化,从而推动计算设计朝着更为深入的方向发展。
(正文完。原文详见建筑学报,2022(S1):103-108.)
注释:
1) 通过对华南理工大学、同济大学、华建集团等国内高水平设计机构的相关案例进行全面整理,共获得了100个较为成熟的研究案例。这与其他教育设施的设计成果数量产生了较大的差距。
2) 因为三维模型与二维图形的计算量差异巨大,例如Wu J等 (2016)学习座椅设计时,训练的三维模型样本为262144(64×64×64)体素,见参考文献 [19];而Shen J 等 (2018)研究城市平面时,训练的二维图形样本大小仅为65536(256×256)像素。
参考文献:
[1] MCCULLOCH W S, PITTS W. A Logical Calculus of the Ideas Immanent in Nervous Activity[J]. Bulletin of Mathematical Biology, 1990, 52(1-2): 99-115.
[2] HEBB Donald O. The Organization of Behavior[M]. NYC: Wiley, 1949.
[3] 塔里克·拉希德. Python神经网络编程[M]. 林赐, 译. 北京: 人民邮电出版社, 2018.
[4] 杨晓帆, 陈廷槐. 人工神经网络固有的优点和缺点[J]. 计算机科学, 1994(2):23-26.
[5] 周飞燕, 金林鹏, 董军. 卷积神经网络研究综述[J]. 计算机学报, 2017, 40(6): 1229-1251.
[6] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative Adversarial Networks[J]. Advances in Neural Information Processing Systems, 2014(3): 2672-2680.
[7] 王万良, 李卓蓉. 生成式对抗网络研究进展[J]. 通信学报, 2018, 39(2): 135-148.
[8] ISOLA P, ZHU J Y, ZHOU T, et al. Image-to-Image Translation with Conditional Adversarial Networks[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. Piascataway: IEEE, 2017: 5967-5976.
[9] WANG T C, LIU M Y, ZHU J Y, et al. High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs[J]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018: 8798-8807.
[10] TIAN R. Suggestive Site Planning with Conditional GAN and Urban GIS Data[C]. The International Conference on Computational Design and Robotic Fabrication. Singapore: Springer, 2020: 103-113.
[11] WU W, FU X M, TANG R, et al. Data-driven Interior Plan Generation for Residential Buildings[J]. ACM Transactions on Graphics, 2019, 38(6): 234:1-234:12.
[12] HUANG W, ZHENG H. Architectural Drawings Recognition and Generation through Machine Learning[C]// Proceedings of the 38th Annual Conference of the Association for Computer Aided Design in Architecture (ACADIA), October 18-20, Mexico City, Mexico. South Carolina, USA: Arcadia Publishing, 2018: 156-165.
[13] SHEN J, LIU C, REN Y, et al. Machine Learning Assisted Urban Filling[C]// Proceedings of the 25th International Conference on Computer-Aided Architectural Design Research in Asia (CAADRIA), August 5-6, Bangkok, Thailand. Hongkong: CAADRIA, 2020: 679-688.
[14] NEWTON D. Deep Generative Learning for the Generation and Analysis of Architectural Plans with Small Datasets[C]// Proceedings of the 37th eCAADe and 23rd SIGraDi Joint Conference, September 11-13, 2019, University of Porto, Portugal. São Paulo: Blucher, 2019: 21-28.
[15] LIU Y, LUO Y, DENG Q, et al. Exploration of Campus Layout Based on Generative Adversarial Network[C]//The International Conference on Computational Design and Robotic Fabrication. Singapore: Springer, 2020: 169-178.
[16] CHAILLOU Stanislas. AI & Architecture - An Experimental Perspective[D]. Boston:
Harvard Graduate School of Design, 2019
[17] 杨柳. 基于深度学习的青年公寓户型自动生成研究[D]. 广州: 华南理工大学, 2019.
[18] PAN Y, QIAN J, HU Y. A Preliminary Study on the Formation of the General Layouts on the Northern Neighborhood Community Based on GauGAN Diversity Output Generator[C]//The International Conference on Computational Design and Robotic Fabrication. Singapore: Springer, 2020: 179-188.
[19] WU J, ZHANG C, XUE T, et al. Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial Modeling[J]. Advances in Neural Information Processing Systems, 2016: 29.
图片来源
图1: 参考文献[9]
表1: 参考文献[10-16,18]
其余图表均为作者自绘