自然灾害发生后,人道主义救援组织需要了解受影响人群的位置,需要哪些资源以及安全信息。这些信息是很难在一定时间内用传统的数据收集方法捕获的。随着更多人在 Facebook 上连接和分享,这些数据能够提供实时近距离观察,以帮助人道主义救援组织协调工作,并在灾害期间填补信息的重大差距。雷锋网了解到,Facebook 团队近日宣布了一个 Facebook 灾难地图计划,帮助救援组织解决他们在应对自然灾害时经常遇到的信息方面的关键差距。
Facebook 灾难地图提供有关人口所在地点,移动方式以及自然灾害时候安全检查位置的信息。 所有数据会取消个人的身份识别标记,并汇总到 360 平方米的网格或本地管理边界(例如人口普查边界)。[1]
本篇博客描述了灾难地图数据集,如何计算观察,以及为确保保护隐私而采取的措施。
视频:https://www.facebook.com/facebook/videos/10155889045356729/
数据和汇总
当人们使用启用位置服务的 Facebook 应用程序时,他们的经纬信息会定期被收集。位置信息被广泛应用在很多方面,例如推送与使用者最相关的功能或内容。 例如,它允许在小孩被绑架后的目标搜索区域向人民新闻 Feed 发送 AMBER 警报,或者向受自然灾害影响的地区的人员发送安全检查通知。
据雷锋网了解,在汇总和去除识别的情况下,相同的地理位置数据可以在自然灾害发生后向人道主义救援组织提供有价值的信息。 聚合信息不仅有助于保护隐私,还可以通过将信号与噪声分离,使数据更易于使用和解释,从而减少从数据转变为行动视角所需的中间处理步骤。
灾难地图数据集通过以下方式跨越时间和空间进行聚合:
时间聚合:尽管灾害期间需要及时的数据,但是 Facebook 得合作伙伴的反馈表明,救援组织并不会实时的处理和响应新的输入。 因此,该系统会定期(例如,每小时,每 6 小时,每 24 小时)共享数据。[2]
空间聚合:将地理定位点聚合为 360 平方米的网格或本地管理边界。
空间平滑:一旦计算出了每个度量(例如,在时间段y内的管理或像素单位x中的人数),则执行空间平滑。 对于每个空间位置,使用相邻瓦片中的值来计算瓦片本身的值的加权平均值,更邻近的瓷砖对最终结果有更大的贡献。 这种局部平均结果是获得有更平滑,更清晰信号的地图,由于随机变化而降低噪声,同时保持关键信号并进一步保护隐私。
灾害地图数据集的组成
使用上述数据和聚合技术,可以生成三个独特但互补的数据集:
人口:指示每个网格中 Facebook 使用群体密度的指标。
运动:与网格对之间的人口移动相关的指标。
安全检查:指示安全检查签入密度与每个网格的总邀请度的指标。
密度地图
通过聚合地理位置数据,能够显示一个平滑的表示出有多少使用位置服务的用户在每个管理区域或每个时间段的地图网格中使用 Facebook 的应用程序。
提供计数的一个限制是,哪些值代表与正常重要的偏差并不是很明显。 为了帮助提供这方面的信息,还需要包括基线计数 —— 同时在过去三个星期内平均每个行政区域中有多少人(从同一人口测量)的近似值。 通过匹配位置和时间,研究团队更加自信,他们所观察到的任何差异都是由于灾难事件。 他们还提供额外的统计数据,以说明观察到的密度变化是否具有统计意义。
数据的结构如下,每个独特的区域计算每个度量:[3]
其中,
crisis_name:事件的名称。
time_window:记录数据的时间。
area_id:瓦片名称。 在光栅形式中,这表示地图上的给定光栅像素,可以在空间上聚合,以便与其他数据集可互操作。 在管理表单中,area_id 表示可以与其他管理数据集(例如普查数据)连接的区域的管理边界名称。
n_baseline,density_baseline:人们在同一范围在同一时间窗口的平均个数,但是是前三个星期平均的数字。这个可以估计出在特定时间每个范围有多少人
n_crisis,density_crisis:在时间t内在瓦片中观察到的人数。
n_diff:危机时人口与基线人口之间的差异。
percent_change:危机时人口与基线人口之间的百分比差异。
z_score:危机人口与基线差异的标准偏差。
运动地图
此数据集包含有关在给定时间段内在网格对之间运动的人数的信息。 在基线期间(在灾难发生前三周平均的瓦片对之间的运动)也是这样测量的,所以可以了解到与灾难相比,在灾难期间有多少人或几个人正在移动。 这有助于将灾害相关的运动与人们的正常迁移模式进行区分。
数据集如下所示:
其中,
area_id_start 和 area_id_end:表示瓦片对,其中s是起始瓦片,e是最终瓦片。
n_people_baseline:在灾难发生前三个星期的时间段内从s向e移动的总人数。
n_people_crisis:在时间t期间从s移动到e的总人数。
n_diff:在灾难期间从s到e之间相对于基线的人数之间的差异。
percent_change:从s到从灾难发生到基线的人数之间的百分比差异。
安全检查地图
为每个灾难提供的一些指标来源于 Facebook 的安全检查产品。 安全检查帮助人们在灾难中与朋友和家人联系。 受到危机影响的人们可以安全检查。 一旦他们签到,他们还可以邀请可能受影响的其他人。 以这种方式,受邀请人群可以安全地传播给 Facebook 上可能受到灾难影响的人们。
他们汇总并分享安全检查数据,以向人们表明他们是安全的。
这些数据如下所示:
其中:
n_invited 是被邀请到安全检查的人员总数,位于a区域。
n_safe 是在时间t或之前某个时间内a进行安全检查的总人数。
safe_ratio 是在被邀请的人数中安全检查的区域中的人员的比例。
在分析这些信息时,请务必记住,受到安全检查的人员可能不代表受灾地区的统一样本,并且数据会随着时间的推移而累积。 另外,为什么人们不能安全检查有很多原因,例如:他们在危机时是不安全或忙碌的,缺乏连接性,或者完全不受影响,也不觉得需要回应邀请。 由于这些原因,重要的是在上下文中考虑这些信息。
代表性
灾害地图数据中包含的观察代表使用 Facebook 应用程序并启用位置服务的人员。 这个人群可能与更广泛的人口不同,特别是在信息落后的地区。
Facebook 团队鼓励作为灾难应对专家的人道主义伙伴将他们的数据用作更广泛的数据集的一部分,以帮助资源部署。 具体来说,他们应该考虑到这些数据代表一些具体的人口,并在他们收到的其他信息的背景下考虑。 作为下一步,他们正在与联合国儿童基金会,世界粮食计划署和红十字会的数据科学小组合作,分析数据中的潜在偏差,以便能够纠正和报告给社区。
例如,可以通过将灾难地图密度数据集与开源人口密度数据集(如 Facebook 的人口密度图)进行比较来评估数据的空间覆盖。 通过进行这种比较,可以清楚地向合作伙伴传达任何可能没有被灾害地图人口数据集覆盖的领域。
让灾难地图数据触手可及
在接下来的几个月中,Facebook 团队将与合作伙伴密切合作,进一步验证灾难地图数据。 在验证数据时,他们将采取并行工作,以确保在自然灾害中积极推动政策和响应工作的人道主义应急人员可以访问数据集。
目前正在开发的灾难地图 API 和可视化工具的屏幕截图,显示的内容是 2017 年 3 月秘鲁皮乌拉的洪水。
Facebook 的基础设施团队正在建立一个 API 和可视化工具,能够向世界各地有能力使用数据进行人道主义反应的救援组织提供灾难地图。 该 API 将提供可视化和下载功能,并将与灾难地图数据集进行互操作,从而允许合作伙伴在对其最有用的聚合级别(例如网格或管理数据)中以时间和空间高分辨率的访问数据。
[1]在某些情况下,危机影响了整个国家等大地区,瓦片尺寸略低于分辨率。
[2]如果在时间窗口中收到一个人的多个位置,使用最常发生的地方; 如果数量刚好齐平,则在时间窗口内使用最近发生的最近的地点。
[3]图表中的公式便于增加理解。