深度学习+全景影像：为城市公园开启精准“视觉体检”

原创 LA Frontiers 景观设计学前沿

注：本文为删减版，不可直接引用。原中英文全文刊发于《景观设计学》（Landscape Architecture Frontiers）2024年第12卷第6期“景观的多维感知”。获取全文免费下载链接请点击“阅读原文”；参考引用格式见文末。

导读

城市绿地的视觉质量评估是景观设计学领域的重要话题，但传统研究方法在实际操作中存在一定局限。人工智能技术与街景大数据的发展为城市绿地感知评估带来了契机。本文立足于景观的公众感知评价，以中国广州市珠江公园为例，采用便捷的全景相机图像采集与处理流程，利用Segformer-B5语义分割模型和ViT-base-p16图像分类模型分别对公园图像计算客观评价指标（绿视率、天空视域因子、路面占比、人工构筑物占比）与主观评价指标（吸引力、丰富度、自然程度、压抑程度），从而进行公园绿地视觉质量评估。基于各项评价指标空间分布图，进行综合分析并识别低分值区域。结果发现，植被与水体有助于提升公园的吸引力与游客的积极感知，而过多的天空与构筑物则可能会产生相反效果；消极的人工景观和压抑的建筑也会降低景观质量。

关键词

景观感知评价；视觉景观评估；全景相机；人工智能；城市绿地；语义分割；图像分类

基于全景影像采集与深度学习技术的

城市绿地感知评价研究

——以广州市珠江公园为例

Research on the Perception Evaluation of Urban Green Spaces Using Panoramic Images and Deep Learning:

A Case Study of Zhujiang Park in Guangzhou

赵旭凯^1,2

林广思^1,2,3

1 华南理工大学亚热带建筑与城市科学全国重点实验室

2 华南理工大学建筑学院风景园林系

3 华南理工大学广州市景观建筑重点实验室

本文引用格式 / PLEASE CITE THIS ARTICLE AS

Zhao, X., & Lin, G. (2024). Research on the perception evaluation of urban green spaces using panoramic images and deep learning: A case study of Zhujiang Park in Guangzhou. Landscape Architecture Frontiers, 12(6), 7‒24. https://doi.org/10.15302/J-LAF-0-020024

引言

视觉是公众感知景观环境的重要方式之一，传统的视觉景观评估方法，如美景度评价法和问卷调查法，尽管可有效收集人们对特定景观的偏好，但仍存在高度依赖于专家或受访者对图像的主观评判、人力物力成本巨大、操作复杂等诸多弊端。近年来，人工智能（AI）技术的发展为解决上述问题带来了契机。本研究以广东省广州市天河区的珠江公园为例，旨在建立一种基于城市公园图像采集与深度学习技术的绿地智能感知方法，以实现对公园视觉质量的快速、精准和全面评估，指明低质量区域并为空间的更新改造提供指引。

研究材料与方法

技术路线

首先，本研究采用了一种便捷的、使用全景相机的公园图像采集方法，并通过人工实地操作方式验证其可行性；接着，利用在ADE20K数据集上训练的Seformer-B5模型自动识别图像中的150类物体，计算绿视率、天空视域因子、路面占比、人工构筑物占比4个客观评价指标；此外，选取吸引力、丰富度、自然程度、压抑程度作为主观评价指标，并通过人工成对比较图像的方式——即每张图像在4个主观指标中被划分为高分值或低分值两类——建立公众感知数据集；基于所构建的公众感知数据集训练ViT-base-p16模型，以实现对主观指标的有效预测；然后，通过可视化呈现主、客观评价指标的空间分布图，识别低分值图像的空间分布区域；最后，通过相关性分析主、客观评价指标间的相关性，为公园改造提供建议。

技术路线 © 赵旭凯，林广思

数据收集与处理

图像采集时间为2023年7月6日9:00~13:00，一位图像采集人员使用Insta360 ONE RS全景相机步行沿珠江公园所有道路进行拍摄，同时使用智能手持GPS传感器（佳明eTrex 221x）记录拍摄点位的位置信息，共采集到275个点位的全景图像。随后使用Insta360 Studio于平铺模式下截取0°和180°两个视角的照片共550张，以展示点位四周的场景环境。

珠江公园图像采集点位 © 赵旭凯，林广思

基于深度学习技术的图像评价方法

使用图像语义分割模型提取客观评价指标

环境中的客观物理要素（包括自然和人工要素）对景观的视觉质量和人们的审美认知有很大的影响。本研究采用基于ADE20K数据集训练的SegFormer-B5模型进行客观物理要素的提取。其中，ADE20K数据集是2016年由MIT开放的场景理解的数据集，包括150个要素类别。本研究从150种要素中提取出13种公园场景中常见的视觉要素，并借鉴现有视觉感知研究计算绿视率和天空视域因子。前者反映了公园的生态和自然程度，后者则可衡量空间的开放程度。此外，珠江公园中道路与人工构筑物也较多，故本研究还引入了路面占比和人工构筑物占比两个指标。

使用图像分类模型预测主观感知分数

在传统的图像主观感知研究中，常用评级测度法、配对比较法、分类法等方法获取受访者的景观感知评价。以李克特五点式量表为例，受访者需从1~5的等级对图像进行评分。在获取评分后，深度学习中的图像分类模型可学习评分与图像特征之间的关系，从而模拟人类感知过程，将图像划分为1~5的等级，实现大规模、快速的主观感知评分。

（1）主观评价指标建立

借鉴传统视觉景观评估研究，选取吸引力、丰富度、自然程度和压抑程度作为主观评价指标。其中，吸引力指公园场景对人们的吸引程度，包括景观的美观性、独特性等特征。丰富度指公园环境组成元素（包括物种与各类设计元素）的多样性和复杂性。自然程度指游客对公园环境在人为干预和自然状态之间平衡程度的感知，测定并理解公园的自然程度感知有助于制定公园维护管理策略。压抑程度指的是令人抑郁、沮丧、消沉的程度，压抑程度高的公园可能会让人感到不适，影响园内体验。

（2）两两对比结果收集

与直接获取被试者的评分数值相比，两两对比是一种更有效、准确的感知获得方式。首先，在尽可能涵盖所有公园场景的前提下，人工判读筛选出200张有效照片。随后，利用Java Script建立在线评分系统，该系统会根据用户的选择和图像已有的对比关系，动态调整所展示的图片，以保证每张图片均获得充分对比与有效评分。每次对比随机从200张照片中抽取2张，被试者需根据问题（“哪个场景让您感到更有吸引力／丰富／自然／压抑？”）选出更符合个人偏好的图片。实验共招募35名华南理工大学风景园林专业为主的在读硕士生（男女比例12:23），完成为期三天（2024年3月3～5日）的在线实验。最终，四项指标共获得对比结果6702项，平均每个指标获得结果1675.5项。

基于图片两两对比的主观评分系统示例 © 赵旭凯，林广思

（3）主观评价指标计算

参考现有研究，本文使用“赛程强度”方法来统计主观评分，以此获取每个指标的高低得分。

4项主观评价指标高低得分示例 © 赵旭凯，林广思

（4）图像分类模型训练

上述200张图片在4项指标上均被赋值为“0”或“1”，从而构成公众感知数据集。图像分类模型可以将这些数值作为标签，以图像作为解释变量进行训练。本研究采用ViT-base-p16模型进行图像分类。在训练阶段，ViT-base-p16模型首先使用大规模的ImageNet-1k数据集进行预训练，以学习图像的通用表示，接着在公众感知数据集中分别对各项指标进行微调，最终得到4个模型分别用于预测公园所有图像的吸引力、丰富度、自然程度和压抑程度。

研究结果与讨论

客观评价指标提取结果

下图列举了经Segformer-B5模型语义分割后图像中不同景观元素的构成情况，表格中为4个客观评价指标的统计信息。4项指标中，各点位绿视率平均值最高，表明珠江公园中的植被条件十分优秀，构成了公园景观的主要骨架。相应地，高植被覆盖度也导致天空视域因子较低。

语义分割结果示例 © 赵旭凯，林广思

主观评价指标预测模型训练结果

主观评价指标的5折交叉验证数据分布情况与模型预测准确率结果显示，测试集的平均准确率依次为69%（吸引力）、70.5%（丰富度）、82%（自然程度）、68.5%（压抑程度），预测结果可信度较高。

5折交叉验证数据分布与模型预测准确率 © 赵旭凯，林广思

主观指标评分统计结果显示，自然程度的均值最高，表明珠江公园的自然程度在人类感知中较为突出。吸引力和压抑程度的均值也较高，表明自然程度较高的公园场景整体上具有较强的吸引力，但过于茂盛的植被可能增加压抑感。相比之下，丰富度的分布更为集中，标准差较低，其均值也最低，表明公园视觉要素的多样性较低，与自然程度的较高波动性形成对比，表明虽然不同场景中自然程度变化较大，但视觉元素的丰富性相对不足。

客观评主观与客观指标综合评价结果

珠江公园主、客观指标的得分的空间分布模式较为相似。公园西门入口前的草坪区（C区）主要由开阔的草坪与低矮的乔木组成，辅以少量灌木，整体空间较为开阔、道路较为宽敞，天空占比较高，绿视率与自然程度较低，同时吸引力偏低。公园中部的快绿湖区域（E区），虽然绿视率较低、天空占比较高，但吸引力较高，符合人们对水体有普遍偏好的既有研究发现。公园东部为植被茂盛的风景林区（F区），绿视率与自然程度较高，在广州繁华的市中心十分难得，该区域道路曲折蜿蜒、起伏多变，路面与人工构筑物占比较低，总体吸引力也较高。而位于公园东侧的服务型建筑立面较为单一（G区），吸引力偏低，需要公园管理者重点关注。

公园场景示意图 © 赵旭凯，林广思

各指标空间分布图 © 赵旭凯，林广思

Spearman相关性分析结果显示，自然程度与吸引力之间存在显著的正相关，表明自然程度高的场景更受人们的喜爱，与前人研究结果相符，即游客偏好自然植被丰富的环境，这可能会积极影响游客的公园使用频率和满意度。其次，丰富度与地被占比呈负相关关系，意味着地被的增加可能导致整体丰富度的降低。例如，珠江公园中以地被为主的区域（画面中地被占比较高），集中在公园西侧，且以开阔草坪为主，空间丰富度较低。自然程度与绿视率、乔木、灌木占比存在显著正相关趋势。其中，自然程度和绿视率分别反映了图像中主观和客观的生态环境状况，而主观自然程度的感知不仅受到植被占比的影响，还涉及其他影响因素，如绿色元素在图像中的整体构成比例、画面中呈现的其他材料（如水体、泥土、透水路面）等。

Spearman相关性分析结果（*表示在0.05的水平上显示显著相关性，**表示在0.01的水平上显示显著相关性） © 赵旭凯，林广思

结语与展望

总体而言，本研究在以下三个方面展现出积极意义：1）采用的方法克服了传统视觉景观评估中难以高效评估大批量图像与多场景评估时易于出现的视觉疲劳问题，验证了基于图像大数据与深度学习技术的城市感知研究在绿地中应用的有效性。2）通过精准提取并评估客观指标与预测主观评分，发现植物与水体的存在有助于提升公园场景的吸引力与使用者的积极感知，而天空、道路与人工构筑物占比过高则会产生负面效果。3）采用的智能方法通过部分场景照片主观评分的学习，能够预测新场景的主观评分，帮助公园管理者高效识别出低分值区域，为城市绿地的更新设计提供指引，具有较强的实践应用价值。

然而，本研究经由人工采集与筛选的图像数据与被试者的样本量相对有限，且仅针对珠江公园的夏季场景，难以预测与珠江公园差异较大或其他季节的公园场景。此外，全景相机采集的图像可能存在一定畸变，会导致一定误差。未来研究中应补充更多绿地与不同季节的景观图像，并纳入更多使用者的评分，以完善绿地感知数据集，并有必要针对不同群体的偏好进行细化研究。

最后，本研究所提取出的主、客观感知评价指标，可以与公园活力、功能使用、环境质量等多元数据结合，进一步挖掘公众感知与公园的景观吸引力、使用者行为模式和公园客观物理特征等方面的关系，系统化地为城市管理者提供科学的决策支持。

参考文献

[1] Wolch, J. R., Byrne, J., & Newell, J. P. (2014). Urban green space, public health, and environmental justice: The challenge of making cities ‘just green enough’. Landscape and Urban Planning, (125), 234–244.

[2] Daniel, T. C. (2001). Whither scenic beauty? Visual landscape quality assessment in the 21st century. Landscape and Urban Planning, 54(1–4), 267–281.

[3] Gobster, P. H., Ribe, R. G., & Palmer, J F. (2019). Themes and trends in visual assessment research: Introduction to the Landscape and Urban Planning special collection on the visual assessment of landscapes. Landscape and Urban Planning, (191), 103635.

[4] Daniel, T. C. (1976). Measuring Landscape Esthetics: The Scenic Beauty Estimation Method. Department of Agriculture, Forest Service, Rocky Mountain Forest and Range Experiment Station.

[5] Cai, K., Huang, W., & Lin, G. (2022). Bridging landscape preference and landscape design: A study on the preference and optimal combination of landscape elements based on conjoint analysis. Urban Forestry & Urban Greening, (73), 127615.

[6] Zhao, X., Lu, Y., & Lin, G. (2024). An integrated deep learning approach for assessing the visual qualities of built environments utilizing street view images. Engineering Applications of Artificial Intelligence, (130), 107805.

[7] He, N., & Li, G. (2021). Urban neighbourhood environment assessment based on street view image processing: A review of research trends. Environmental Challenges, (4), 100090.

[8] Sanchez, T. W., Shumway, H., Gordner, T., & Lim, T. (2022). The prospects of artificial intelligence in urban planning. International Journal of Urban Sciences, 27(2), 179–194.

[9] Cheng, Y., & Fan, B. (2023). Digital landscape process. Chinese Landscape Architecture, 39(6), 6–12.

[10] Biljecki, F., & Ito, K. (2021). Street view imagery in urban analytics and GIS: A review. Landscape and Urban Planning, (215), 104217.

[11] Luo, J., Zhao, T., Cao, L., & Biljecki, F. (2022). Semantic Riverscapes: Perception and evaluation of linear landscapes from oblique imagery using computer vision. Landscape and Urban Planning, (228), 104569.

[12] Li, Y., & Long, Y. (2024). Inferring storefront vacancy using mobile sensing images and computer vision approaches. Computers, Environment and Urban Systems, (108), 102071.

[13] Xie, E., Wang, W., Yu, Z., Anandkumar, A., Alvarez, J. M., & Luo, P. (2021). SegFormer: Simple and efficient design for semantic segmentation with transformers. Advances in Neural Information Processing Systems, (34), 12077–12090.

[14] Zhou, B., Zhao, H., Puig, X., Fidler, S., Barriuso, A., & Torralba, A. (2017). Scene parsing through ADE20K dataset. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (pp. 633–641). Computer Vision Foundation.

[15] Qiu, W., Li, W., Liu, X., Zhang, Z., Li, X., & Huang, X. (2023). Subjective and objective measures of streetscape perceptions: Relationships with property value in Shanghai. Cities, (132), 104037.

[16] Song, Q., Li, W., Li, M., & Qiu, W. (2022). Social inequalities in neighborhood-level streetscape perceptions in Shanghai: The coherence and divergence between the objective and subjective measurements. Social Science Research Network.

[17] Xia, Y., Yabuki, N., & Fukuda, T. (2021). Sky view factor estimation from street view images based on semantic segmentation. Urban Climate, (40), 100999.

[18] Lange, E., & Legwaila, I. (2012). Visual landscape research—Overview and outlook. Chinese Landscape Architecture, 28(3), 5–14.

[19] Dubey, A., Naik, N., Parikh, D., Raskar, R., & Hidalgo, C. A. (2016). Deep learning the city: Quantifying urban perception at a global scale. Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11–14, 2016, Proceedings, Part I (pp. 196–212). Springer.

[20] Sun, D., Li, Q., Gao, W., Huang, G., Tang, N., Lyu, M., & Yu, Y. (2021). On the relation between visual quality and landscape characteristics: A case study application to the waterfront linear parks in Shenyang, China. Environmental Research Communications, 3(11), 115013.

[21] Zhang, G., Yang, J., & Jin, J. (2021). Assessing relations among landscape preference, informational variables, and visual attributes. Journal of Environmental Engineering and Landscape Management, 29(3), 294–304.

[22] Wartmann, F. M., Stride, C., Kienast, F., & Hunziker, M. (2021). Relating landscape ecological metrics with public survey data on perceived landscape quality and place attachment. Landscape Ecology, (36), 2367–2393.

[23] “Depressing.” Oxford English Dictionary. Oxford University Press.

[24] Gong, Y., Palmer, S., Gallacher, J., Marsden, T., & Fone, D. (2016). A systematic review of the relationship between objective measurements of the urban environment and psychological distress. Environment International, (96), 48–57.

[25] Zhang, F., Zhou, B., Liu, L., Fung, H. H., Lin, H., & Ratti, C. (2018). Measuring human perceptions of a large-scale urban region using machine learning. Landscape and Urban Planning, (180), 148–160.

[26] Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. International Conference on Learning Representations.

[27] Talal, M. L., Santelmann, M. V., & Tilt, J. H. (2021). Urban park visitor preferences for vegetation—An on-site qualitative research study. Plants, People, Planet, 3(4), 375–388.

[28] Council of Europe. (2000). Explanatory Report to the European Landscape Convention.

获取全文免费下载链接请点击“阅读原文”

编辑 | 高雨婷，马锡栋，田乐

制作 | 周舟

▽ 扫描下方二维码即可订购本期

注：本文由作者及来源机构授权景观设计学前沿发布，未经授权不得以任何形式、任何文种在其他印刷版、网络版等媒介发表，如有违反，本刊将保留追究其法律责任的权利。若有转载，请后台联系授权。

如果你喜欢本期推送，

请点“赞”和点亮“在看”，分享给更多朋友吧！

阅读原文

继续滑动看下一个