Preparing better graphs
Review Article

绘制更高质量的统计图

Laura King

Medical Writing and Editing Program, The Graham School at the University of Chicago, Chicago, Illinois, USA

Correspondence to: Laura King, MA, MFA, ELS. 154 Cole Forest Blvd, Barnesville, GA 30204, USA. Email: king-laura@att.net.

摘要:统计图在科学论文中的应用已经有几个世纪的历史了,然而,如何有效地创建统计图也绝非易事。考虑到有效报告数据的重要性,花时间学习如何绘制更高质量的统计图是值得的。本文描述了统计图的组成部分,讨论了准备和选择哪种统计图时的一般注意事项,并提到了绘制统计图时最容易出现的问题。对于读者而言,由于统计图是直观总结和突出研究结果的最有效手段,因此设计和制作统计图的熟练程度对于有效传达你所研究领域的信息至关重要。

关键词:统计图;数字;设计;视觉传达


Received: 10 December 2017; Accepted: 30 December 2017; Published: 04 January 2018.

doi: 10.21037/jphe.2017.12.03


在科学出版物中,你展示数据的技能——也就是设计统计图表的技能,与你的写作技能一样重要。”——汤姆·朗[1]


前言

统计图在科学论文中的应用已经有几个世纪的历史了。被誉为统计图创始人的威廉·普莱费尔(William Playfair)于1786年制作了直线图、面积图和条形图,并于1801年制作了饼图和圆图[2]。正如Playfair在1801年所说的那样,为了领悟统计信息,“我突然意识到,当涉及到比例和等级这些数量关系时,能抓住读者的眼球是传达作者独特想法的最佳和最容易的方式[2]。的确,随着时间的推移,Playfair关于如何吸引读者眼球之见解的正确性得到了时间的检验,因为目前科学手稿对统计图这种表达形式的依赖与日俱增。时至今日,“统计图被认为是科学视觉表达的一个优先选项”[3]

这里有两个例子可以说明采用有效的统计图所具有的潜在影响。弗洛伦斯·南丁格尔(Florence Nattingale)是一名在克里米亚战争(1853-1856年)期间为英国军队提供护理的护士,她绘制了著名的饼图(有时也被称为极区图),该图显示死于疾病的士兵要远远多于死于战伤者,由于这些统计图准确而客观地表达了这一事实,促成了陆军部的彻底重组[4]。另一个例子中, 1986年挑战者号航天飞机在低温下发射时,一个O型环失效,导致其爆炸。O型环性能数据的统计图是按发射日期而不是关键因素——发射期间的温度展示的,这种统计图并没有突出O型环在低于66°F的发射时可能失效的事实。尽管另一种统计图是否会阻止发射仍存在争议,但显然,缺乏相关信息是决定是否继续发射的一个因素[5]

科学期刊中的图表存在一个主要问题,那就是它们通常是通过电子表格和统计分析程序自动创建而来的。相比于给读者传达信息,这样的图表更适合于数据的分析。这样的话,遵循本文中的建议可能会有一些困难,因为它需要操作者学习如何调整程序上的设置。磨刀不误砍柴工,考虑到有效报告数据的重要性,花时间来学习这部分内容也是值得的。


图表的组成部分

科学出版物中的大多数统计图包含以下组成部分:图表编号、图形说明、轴刻度和标目、数据区、数据,有时还有一个标题和一个或多个脚注、标注和图例(图1)。

图1
图1 图表的组成部分。B村的脚注由上标“a”(a)表示,并应在统计图标题之后。理想情况下,绘图区将仅包含数据,有时还包括其标签(本例中表示村庄A和村庄B的线条)。

图形编号

文本中的每个统计图应按顺序使用阿拉伯数字编号。如果仅使用一个图形,则该图形不应包含数字(例如,“图形”而不是“图1”)。

图形标题

统计表有标题,统计图也有标题。与统计表一样,统计图的标题标识了所呈现的数据。统计图的标题不应标识图形的类型(例如,“线图展示……“),因为此类信息是显而易见的,没有必要画蛇添足。下面是一些无效的标题和修改的建议。

  • 无效:根据随访天数,消融组和对照组Barrett食管患者进展为高度异型增生的时间条形图;
  • 修订:不同分组的Barrett食管患者进展为高度异型增生的时间;
  • 无效:按以前、现在和从不吸烟状态分组,东欧40、50、60、70和80岁吸烟者的累积肺癌死亡率;
  • 修订:按吸烟状况,东欧40岁及以上吸烟者的累积肺癌死亡率。

标题注释

标题注释跟随统计图标题,并提供有关统计图的更多详细信息或其他限定信息。统计图中的缩写也可以在标题注释中或紧靠数据字段下方的单独注释中拼写。

轴刻度和标目

横(X轴)和纵(Y轴)轴需要刻度和标目,用于标识图形中所呈现的变量及其度量单位。通常,纵轴表示结果变量(也称为因变量或反应变量),横轴表示暴露变量(也称为自变量或解释变量)。在纵轴上,数字应从下到上递增;在横轴上,数字应该从左向右增加。

纵轴的刻度应尽可能地从零开始。尽管有些统计图的原点刻度不是零开始,但这样的刻度有可能在视觉上扭曲数据之间的关系。在这种情况下,断开刻度和数据区可以强调非零原点(图2)。刻度划分应以主要、逻辑上合理且通常等距的间隔标记记号。刻度单位应以适当的精度报告。此外,请注意“弹性比例”问题,其中图形的高度与宽度之比(纵横比)可以直观地改变图形中数据之间的关系(图3)。

图2
图2 断开标尺和绘图区以强调非零基线。(A)对于粗心的读者来说,左栏的高度似乎是右栏高度的一半;(B)左栏显示的值实际上是右栏显示值的80%;(C)断开标尺和绘图区清楚地表明,应从标尺而非视觉表示中读取条形图的数值。
图3
图3 在“弹性比例”问题中,改变纵横比可以改变测量的比例,这会影响对统计图的解度。(A)理想情况下,标尺会将数据分布到两个轴的数据最大处;(B)压缩X轴使数据中的变大而突兀;(C)拉伸Y轴会使数据更小,变化更平缓。

数据

统计图中的数据通常由不同的点或由一系列的点所组成的线构成。不同的数据点集最好使用对比强烈的符号如实心和空心符号(●○,▲△,■□)加以区分,而不推荐使用难以区分的不同形状(●,▲,■)。当绘制不同数据代表的线条时,也遵循同样的规则,即尽可能使用区分度大的线条。

绘图区域

绘图区域是包含数据的一个矩形空间。它的两侧以横轴和纵轴为界。在绘图区域的四周用一条线围起来有助于读者准确地读取数据,同时避免右上区域的数据“漂离”到图形之外。绘图区域应主要包含数据,但有时也包误差误条、可信区间(CI)、标注、图例或其他统计图的组成部分。解释图形中使用的所有符号、线条样式、颜色和阴影,以及数据字段中的标签或标注都应该放在绘图区域,但如果绘图区域过于拥挤,也可以把上面这些内容放在批注里。此外,误差条图(显示数据的各种的不确定度或变化)的一些指标,如标准偏差、极差、四分位范围或可信区间也应置于绘图区域。

脚注

数据字段中的脚注在图中用上标符号(如*、†、‡、§、¶)或上标小写字母(如a、b、c)显示。脚注出现在标题或标注后,提供有关脚注项的具体细节。

  • 标题:估计平均卫生支出的差异;
  • 标注:接受和未接受补充营养援助计划(Supplemental Nutrition Assistance Program, SNAP)福利的群体之间的差异;
  • 脚注:a本组有两例患者缺失;b本组患者中均无高血压。

标注标签

标注标签用于标记统计图的单个数据点、组或特殊特征。尽管许多统计和电子表格程序会自动提供索引,但与将识别信息放在图例中相比,更倾向于直接使用索引来标记特征。

图例

图例是一系列符号列表,有时在绘图区中的一个框中显示,并在图中显示它们的名称或解释(图1)。 尽可能使用直接标注,而不是图例,因为标注更清晰,使读者更容易获得信息。


绘制统计图时应考虑的几个问题

选择适当的统计图类型后,应考虑几个设计元素,例如所用的颜色是黑白还是彩色的、线条的粗细、使用标注标签还是图例以及二维还是三维图形。设计元素会极大地影响数据在报告中所呈现出来的清晰度。不必要或令人困惑的视觉效果[也被称之为“图表垃圾” [6]],如过度使用不同的颜色和标注、多余的网格线或背景图案,可能会妨碍读者解读数据的能力。大道至简才是更好的[7]

要展示的数据量应该足够大,以显示使用统计图的合理性。小数据集通常最好以文本或统计表的形式来展示。此外,如果您想要传达数据中的总体模式或差异,那么统计图比统计表更合适,相反,如果您想要传达精确的值或差异,那么统计表比统计图更合适(图4)。你也应该考虑演示所用的和出版物所用的统计图之间的区别。演示文稿中使用的图形(如幻灯投影和海报)应该以一种快速被理解的方式传达信息(图5),而出版物中使用的统计图则可以提供更为复杂的数据(图6)。

图4
图4 统计图比统计表更适合显示数据的近似值和相互之间的总体关系,而统计表更适合报告精确值和相互之间的具体比较。
图5
图5 在印刷出版物中,仅显示三个数据点的统计图效率很低且不必要。此统计图适用于幻灯片或海报(“演示文稿图形”),它们是用来“察看”的,而不是用于阅读的,这种统计图应该大方、简单、精要。
图6
图6 显示大量数据的统计图很好地利用了印刷杂志中的版面,但对于幻灯片或海报来说,这种表述方式可能过于详细。在一种媒介(如印刷品)中绘制的大多数统计图未必适用于另一种媒介(如幻灯片或海报),因此有必要重新绘制。

统计图的大小应基于出版社所告知作者的投稿须知。大多数期刊页面的宽度为1到4列;所以,出版社经常指定统计图的列宽是该出版物列宽的若干倍。太宽或太窄的统计图很可能会返回给作者以调整大小。如果必须缩小图形以适应页面,则图形中的元素(如线条、符号和标签)应清晰易读,且不会干扰读者的注意力。

由于成本相对较高,出版社通常不出版彩色统计图,因此,大多数统计图仍然是黑白印刷。然而,如果一个统计图传达了大量信息,而黑白阴影或图案的使用使得数据难以解读,此时则可能需要使用不同的色彩来表达更为复杂的信息。随着出版越来越在线化,统计图形的彩色也变得越来越可行。然而,只有当彩色增强了读者解释数据的能力时,才应使用它,彩色统计图的使用应遵循合理性原则,颜色太多、颜色选择不当反而会降低其可读性[8]


选择合适的统计图类型

选择最合适的统计图类型对于有效展示数据至关重要。统计图的类型取决于所报告数据的性质(变量类型)和作者想要传达的信息。

统计学中的数据通常分为两个主要的类型:定性数据和定量数据。分类或定性数据可以分为若干组,例如种族、性别或血型等。分类数据可细分为无序和有序数据。无序数据有两个或两个以上没有内在顺序的类别[例如血型(A、B、AB或O)或性别(男性或女性)]。有序数据有三个或三个以上具有固有排名的类别(例如,轻度、中度或重度疾病)。与之相对应的是连续或定量数据,它们是以相等间隔(如时间、体积或大小)为尺度的计数或测量,并且在绘制统计图时形成分布(例如,以厘米为单位的长度)。

报告分类数据

点图

条形图通过将条形图对应到刻度上的相应位置来表示数值,而点状图通过单个刻度轴上的点表示数值来显示无序或有序的数,这将读者的注意力集中在数据本身上,而不是条形图上(图7)。点图还可以有效地显示汇总数据,如均值、中位数、优势比、危险比、风险比或相对风险。在点图中,单个值可能伴随着误差条,表示该值的变化(例如,标准差、四分位范围或95%CI,有时是标准误差)。

图7
图7 条形图将注意力集中在条形图上,而点状图将注意力集中在数据上。与条形图或柱状图相比,点图在同一空间中也可以显示更多的数据。

报告连续性数据

箱式图或箱式和胡须图

箱式图或箱式和胡须图概括了连续数据的分布(图8)。通常,箱式图包含矩形方框(表示四分位范围、第一个和第三个四分位或第25个和第75个百分位的值)、水平线(表示中间值或第50个百分位),矩形框上方的线或“胡须”[表示最大值(上界)和最小值(下界)]。平均值通常用星号表示。如果胡须从第10个百分位延伸到第90个百分位,则可以绘制这些百分位以外的单个值,以帮助识别异常值(异常值是与其余数据差异很大的值,可能与其余数据无关)。

图8
图8 方框图或方框图显示了整个数据分布的描述性统计数据。左边的两个图显示了每个分布的最大值和最小值,而右边的两个图显示了从第5个百分位到第95个百分位的范围,以及最高和最低的个体值,这有助于识别边缘值。

线图

线图由一系列与线相连的相关数据点组成,有符号或无符号(图1, 图9)。数据线应比轴线粗,以引起读者对数据的注意。当绘制多条数据线时,特别是当线重叠时,考虑将每一条线分别绘制在所谓的“小型的系列图”(图10)中。数据行仍然可以比较,但不会因为线太多而混淆。

图9
图9 大多数线形图绘制时间序列数据。尽可能只在数据字段中输入数据。刻度和记号应位于数据字段之外,有关数据的任何注释都应放在标题、标题附注(更重要的注释)或脚注(不太重要的注释)中。
图10
图10 “小型的系列图”的有用性。(A)有时,数据线的数量或复杂性使图形难以理解;(B) 通过分别绘制每条线,线变得更清晰,但仍然可以进行比较。

散点图

散点图显示两个都是连续变量的数据,通常与相关分析相关(图11)。数据点不通过线连接或汇总。当与相关分析一起使用时,绘图区通常会给出数据点的数量(样本大小)、相关系数和95%CI或P值(图12)。拟合数据以总结数据点之间的关系的直线通常意味着分析已经超越了相关性,变成了简单的线性回归。用于此目的时,数据字段中通常会给出数据点的数量(样本量)和回归方程。最后,散点图还可用于显示从个体中获取的测试前和测试后值(图13)。

图11
图11 散点图显示了两个连续变量,因此通常用于报告相关性分析。根据惯例,相关系数、样本量和P值包含在绘图区中。
图12
图12 简单线性回归分析通过将最小二乘回归线拟合到数据中,总结了散点图上变量之间的关系。绘图区中还包括样本量、回归方程和直线斜率的P值(回归系数或β值)。
图13
图13 散点图也可用于显示测试前和测试后的值。对于落在对角线上方的数据,测试前的值高于测试后的值;对于落在对角线下方的数据,结果则相反。

网格图

网格图扩展了点图以绘制多个变量。在这方面,它们类似于图10中的小型的系列图。例如,它们比分割条形图或柱状图更有效,因为它们比较来自公共基线的值(图14)。

图14
图14 网格图是一组统计图的集合,类似于线图中使用的“小型的系列图”。(A)要比较分割条形图或柱状图的分段,读者必须比较两个没有共同基线的长度,这很难准确地做到;(B)相比之下,点图可以显示相同的信息,并允许读者将不同线段进行比较。在这里,四项研究中对四组进行了比较,创建了一个由四个具有相同比例的图形组成的网格图。

公共卫生研究中使用的专门统计图

流程图

虽然不是真正的统计图,但流程图提供的数据有助于记录样本选择过程或研究参与者的流程,并有助于说明所有参与者(图15)。在许多报告指南中都需要这样的统计图,例如用于报告随机试验的CONSORT声明和用于报告观察性研究的STROBE声明。

图15
图15 流程图可以指示研究中不同研究对象进出该研究的情况,传达研究设计,并使读者能够在研究的每个阶段了解研究对象的数量。

生存(或 Kaplan-Meier)曲线

生存(或 Kaplan-Meier)曲线显示事件发生的时间,例如术后和死亡之间的时间或治疗结束和恢复之间的时间(图16)。 重要的是在横轴下方的表格中提供每个研究组在某个关键时间处于危险中的个体数量,以便读者知道每次分析中包括多少个体 [9]

图16
图16 生存曲线绘制从事件随时间而变化的情况。 图表下方的表格显示了研究期间关键时间每组中处于危险之中的人数。

森林图

森林图显示了荟萃分析的单个和汇总结果,总结了针对同一研究问题的两项或多项研究的结果(图17),尽管它们也可用于其他类型的研究,例如报告亚组分析。森林图通常表明处理效果的强度。它们通常包含研究列表、相应的效果度量,例如优势比或相对风险以及相关的95%CI,通常是每项研究的样本量,以及这些数据的图。数据标记可以反映分析中研究的规模或权重。应使用“赞成”标题(例如,赞成治疗、赞成安慰剂)和1 处的虚线(表示一组中的风险或几率与另一组中的相同)。菱形通常代表整体或汇总结果。CI通常显示为水平条。跨越统一线(风险和优势比为1)的条形表示组间差异在0.05水平上不具有统计显著性。

图17
图17 报告荟萃分析结果的森林图。 水平条是图表上估计值的 95% 置信区间 (CI),菱形显示整体或合并结果。

在科学出版物中用途有限的图表

条形图或柱形图、分割的条形图或柱形图、3维图和饼图在报告科学数据方面的应用有限。除了图7中所示的问题外,条形图或柱形图的常见问题还包括未将列与背景区分开来、添加不必要且令人困惑的第三维,以及以非常浅或非常深地填充使一列突出(图18)。 同样,不应使用3维图来绘制2维数据,因为它们难以阅读并且会扭曲数据中的关系(图19)。 第三维很少包含有用的信息。

图18
图18 条形图和柱形图的常见问题。
图19
图19 计算机生成图形的问题,这是来自Excel绘制的图形。3维图 (A) 不应用于绘制2维数据。将此类图转换为二维图 (B)。

饼图是较差的数据视觉传达工具,因为它们需要读者费劲地比较不止一个角度和面积,但对于人类的视觉和神经接收系统而言,我们并不擅长(图20)。 正如美国统计学家和数据可视化专家爱德华·塔夫特 (Edward Tufte) 所说,“统计表几乎总是比这种看起来傻乎乎的饼图要好;饼图的设计比较糟糕,因为要求观众去费劲地比较图表内部和图表之间空间混乱的数量……鉴于它们的低密度和无法沿视觉维度对数字进行排序,饼图不应该使用。” [6] 虽然某些出版物保留了饼图的使用,如果要使用饼图,也应减少使用次数。

图20
图20 在科学出版物中,饼图 (A) 应转换为点图 (B)。

统计图中最常出现的问题

  • 误导性数据问题(例如,纵轴刻度比例尺寸错误、数据未按比例绘制、比例尺不以零开头、图形标注错误、数据被遗漏、刻度线错位或缺失);
  • 糟糕的设计问题(例如,使用条形图、直方图或饼图;数据用文本或统计表的形式会更合适;统计图太空洞或内容太拥挤;统计图种所用的符号、颜色、阴影或图案不易区分;颜色、阴影或图案过于浮夸;统计图的比例尺不恰当,造成失真问题;统计图本身无法理解,读者需要参考文本才能理解统计图所表达的含义;
  • 隐藏信息问题[即,图表应以直接且易于理解的方式展示作者的主要观点,有时主题不明确、图形不美观或数据不清晰会妨碍统计图的信息传递。正如Rougier等人所说“如果你的统计图让读者第一眼就眼前一亮,并让他获得了一个明确的信息,这无疑会增加你文章的关注度。” [10]]。

小结

统计图是直观总结和突出研究结果的最有效方式。统计图使读者能够快速了解研究结果或对研究整体有个快速把握。统计图类型的选择在一定程度上取决于你的数据类型是分类数据、有序数据还是连续数据,要绘制多少变量,要绘制多少数据以及数据具有多少可变性。此外,统计图应尽可能简单明了,不应使用一些画蛇添足的成分。带有标题的统计图应该能够独立存在,而无需过多地去参看文本部分。最好的统计图是那些清楚地呈现数据并表明数据为何重要的统计图。


Acknowledgments

I thank Tom Lang for reviewing early drafts of this article and for rendering many of the figures.

Funding: None.


Footnote

Provenance and Peer Review: This article was commissioned by the the Guest Editor (Thomas A. Lang) for the series “Publication and Public Health” published in Journal of Public Health and Emergency. The article has undergone external peer review.

Conflicts of Interest: The author has completed the ICMJE uniform disclosure form (available at http://dx.doi.org/10.21037/jphe.2017.12.03). The series “Precision Infectious Disease Epidemiology” was commissioned by the editorial office without any funding or sponsorship. The author has no other conflicts of interest to declare.

Ethical Statement: The author is accountable for all aspects of the work in ensuring that questions related to the accuracy or integrity of any part of the work are appropriately investigated and resolved.

Open Access Statement: This is an Open Access article distributed in accordance with the Creative Commons Attribution-NonCommercial-NoDerivs 4.0 International License (CC BY-NC-ND 4.0), which permits the non-commercial replication and distribution of the article with the strict proviso that no changes or edits are made and the original work is properly cited (including links to both the formal publication through the relevant DOI and the license). See: https://creativecommons.org/licenses/by-nc-nd/4.0/.


References

  1. Lang TA. How to Write, Publish, and Present in the Health Sciences: A Guide for Clinicians & Laboratory Researchers. 1st edition. Philadelphia, PA: ACP Press, 2010.
  2. Playfair W. The Statistical Breviary: Shewing, on a Principle Entirely New, the Resources of Every State and Kingdom in Europe. Oxford: Oxford University Press, 1801.
  3. Harmon JE, Gross AG. The Scientific Article: From Galileo's New Science to the Human Genome. Available online:http://fathom.lib.uchicago.edu/2/21701730/
  4. Biography.com. Florence Nightingale. Available online: https://www.biography.com/people/florence-nightingale-9423539. Accessed December 4, 2017.
  5. Tufte ER. Visual Explanations: Images and Quantities, Evidence and Narrative. 1st edition. Cheshire, CT: Graphics Press, 1997.
  6. Tufte ER. Visual Display of Quantitative Information. 2nd ed. Chesire, CT: Graphics Press, 2001.
  7. Wainer H. How to display data badly. Am Stat 1984;38:137-47.
  8. Meaux S. Using color in scientific figures. American Journal Experts. Available online: http://www.aje.com/
  9. Rich JT, Neely JG, Paniello RC, et al. A practical guide to understanding Kaplan-Meier curves. Otolaryngol Head Neck Surg 2010;143:331-6. [Crossref] [PubMed]
  10. Rougier NP, Droettboom M, Bourne PE. Ten simple rules for better figures. PLoS Comput Biol 2014;10:e1003833 [Crossref] [PubMed]
译者介绍
张建江
宁德师范学院医学院(更新时间:2021/9/10)
审校介绍
杨鸿麟
硕士研究生毕业于首都医科大学社会医学与卫生事业管理专业,研究生期间跟随导师王亚东教授进行卫生政策、卫生应急方面的研究,参与多项急救规划和卫生应急政策方面的课题,积累了丰富的外文文献检索、阅读和翻译经验。目前在华西附二院从事医院运营管理相关工作,进行了卫生经济学、计量经济学和实验经济学的相关理论知识学习。本人目前发表英文论文2篇,对外文文献的行文框架、常用语法结构有一定的了解。(更新时间:2021/9/10)

(本译文仅供学术交流,实际内容请以英文原文为准。)

doi: 10.21037/jphe.2017.12.03
Cite this article as: King L. Preparing better graphs. J Public Health Emerg 2018;2:1.

Download Citation