疫情期间大数据监控的“健康宝”是什么技术实现的？

2021-06-27 23:43

一个很好的问题，本人正好对健康码进行了一次深入研究，现在试着回答一下你的问题。

健康宝是防疫健康码的一种，是适用于北京地区的健康码，其本质上是一种二维码。健康宝看似简单，其实背后的实现原理并不简单。在我看来，健康宝其实是一款大数据产品。下面，从数据产品的角度解读一下健康宝的实现。

一、从数据产品角度定义健康宝

健康宝是指适用于北京地区的，融合了个人申报信息、出行数据、接触信息、就诊数据等基础上，通过身份识别、数据比对、规则判别等手段，实现个人疫情风险等级的标识和可视化展现的“电子健康证明”二维码。

二、健康宝的技术实现

因为健康宝是健康码的一种，所以，下面还是以健康码的实现过程的分析来代替对健康宝的实现过程的解剖。

1、健康码到底用到了哪些数据？

根据相关资料的汇总，笔者的得到了健康码产品背后的所需要的数据（如下表）。当然，实际的健康码生产过程中有些数据可能是没有用到的，有些数据可能是缺失的，但这里面比较关键的是用户填报的信息、位置轨迹和交通出行信息、医学检测数据等。

由此可见，健康码的生成实际上依赖的数据源理论上有很多，比如：电信运营商、卫健委、社区、海关、采集点、用户自身等等。这从侧面说明，健康码在数据整合上有一定的难度，同时也证明多源数据跨界融合的重要性。

2、健康码的工作原理

假定A与B归属同一家庭，第一天A外出乘坐地铁上班，在地铁中与C和D有近距离接触，到了工作单位后A在于同事E和F也有近距离接触，而E和F跟G有近距离接触，当天下班后A回到家中。第二天，A出现发热症状，体温高于37.3°，于是去医院进行核酸检测，检测结果显示为阳性，初步判定A为疑似病例，健康码颜色有绿色变为红色，立即采取隔离措施，并发出危险信号。对密切接触者B、C、D、E、F的健康码颜色标识为红色，G的健康码颜色标识为黄色。

3、风险等级判别与健康码颜色的生成

个人防疫风险等级是根据个人录入信息与后台大数据的综合比对和研判得出的，这个综合研判的标准就是健康码规则引擎。以某省健康码为例，其健康风险等级的标准如下：

（1）红码标准

①确诊病例、疑似病例、无症状感染者以及实施居家（集中）隔离医学观察未满14天的治愈出院确诊病人和无症状感染者；

②确诊病例、疑似病例、无症状感染者的密切接触者；

③来自疫情高风险地区的人员；

④正在实施集中隔离医学观察的人员；

⑤其他需要纳入红码管理的人员。

以上5条为“或”的关系，只要满足一条，其健康码就被标识为红色。

（2）黄码标准

①体温37. 3°C及以上或出现呼吸系统症状（干咳、咳痰、鼻塞、咽痛、气促、呼吸困难）、身体不适（乏力、肌肉酸痛、头痛、关节酸痛）、消化道症状（腹痛、腹泻、恶心、呕吐）、结膜出血等临床表现之一的人员；

②来自疫情中风险地区的人员；

③14天内与确诊患者、疑似患者和无症状感染者可能存在密切接触，如搭乘同一公共交通工具、居住在同一楼栋单元等情况；

④其他需要纳入黄码管理的人员。

以上4条为“或”的关系，只要满足一条，其健康码就被标识为黄色。

（3）绿码标准

①除红码、黄码标准以外的其他人员;

②列入疫情防控“白名单"人员。

以上2条为“或”的关系，只要满足一条，其健康码就被标识为绿色。

个人健康码的颜色是根据个人信息与健康风险等级的标准进行比对生成的，其大致过程如下：

4、防疫健康信息服务平台

为保障健康码产品的正常运行和服务的常态化，需建立配套的一体化平台，也就是防疫健康信息服务平台，该平台的大致框架如下图所示：

5、健康码背后的关键技术

（1）大数据技术：健康码实际上是需要进行动态数据的比对和监控的，健康码的实现依赖于规则引擎的运行计算，要支持亿级用户的大规模实时动态查询，离不开大数据技术的支持。从存储角度来看，利用大数据技术的海量存储功能，接近PB级别数据存储和扩容的能力，才能支持健康码亿级用户的数据存储；从计算角度来看，这里最重要的就是ETL和流处理技术，不管是采用Spark架构的内存计算还是利用Flink的流处理模式，其背后少不了需要集合上千台服务器的计算能力，所以阿里云或腾讯云的强大算力在背后发挥了基础性的支撑作用。

（2）架构设计：腾讯的健康码小程序在今年2月份的覆盖用户就超过了7亿，要承载超过5000万日活跃用户的查询与上报等需求，对平台的架构提出了很高的要求。因此，平台的架构设计必须满足三个原则：①高性能、高可用；②安全、稳定③可扩展、易维护。以腾讯为例，其采用的架构如下：

（3）二维码生成：

健康码本质上是一个二维码，日常生活中最常见二维码是QR码(Quick Response Code)。QR码的编码遵循国际标准ISO/IEC 18004，国内则遵循国家标准GB/T 18284。通常二维码的编码过程是这样的：对于给定的数据，首先需要通过标准定义的转换方法将其转换成二进制0和1表示，再将0和1的编码按规则对应到二维码图案中，0对应白色方块，1对应黑色方块。除了数据信息外，一个二维码中还包含定位图形、位置探测图形（寻象图形）、纠错码、格式信息等。

健康码从分类来看是一种动态码，其生成过程为：使用网页链接方式时，个人身份信息和健康信息展示在网页上，网页上的数据来源于底层数据库，网页链接被编码在二维码中。网页链接可以进行加密以限制只有特定扫码设备可以访问该网页，网页被访问时也可以验证访问者身份和授权情况，以保护用户的个人敏感信息只有在授权后才可被访问。网页内容可以随着用户健康状态的变化而更新，不再使用时也可以直接删除。同时，根据网页被访问的情况，也便于记录用户被扫码的时间、地点、次数，以满足后续追溯的需要，省去了用户反复填写、登记的麻烦。

（4）二维码查验：

二维码是如何实现“无接触式”查验的？以支付宝为例，有两种实现方式：

① “同步+异步”相结合：即不仅市民端可以通过支付宝来修正自己的健康状况，实现码的即时更新，码的后端也会轮询底层源数据库，有更新就会触发码的再次生成逻辑

② “实时+离线”相结合：即对于防控系统中实时变化的名单，通过管道技术做到实时更新；针对支撑算法的接口数据，做到通过批处理日更新，确保数据服务的时效性。

（5）数据安全与隐私保护：

健康码为广大用户带来了便利，同时也引发了用户对于隐私保护的担忧。通过分析发现，在系统开发初期、开发过程中、系统运行过程中和数据传输过程中都可能存在数据泄露的风险，因此需要加大数据安全的防护力度。

在数据安全和隐私保护方面，腾讯和阿里都注重遵守《中华人民共和国网络安全法》等，满足合规性要求。对于敏感信息在使用时进行了数据脱敏，重要的数据加密存储使用，核心数据使用时增加了水印，对数据库采取了安全防护和审计措施，运维过程中则采用堡垒机保障运维俺去，同时还对重要数据进行了容灾备份。

另外，在健康码背后两家公司应该还运用了区块链技术。通过数字身份合约和数据存证服务，有效保障“身份健康码”及人员数据安全和授权使用。在数据应用过程中，还通过依托区块链技术，利用可信数据源管理机制确保数据来源安全，利用数字身份锁定数据责任主体，以区块链存证溯源确保数据不被篡改和伪造，利用数据网关对数据访问进行认证、授权和审计。

以上就是对健康宝的技术实现的解读，希望我的回到能帮到你。

我是数据价值发现者，欢迎关注我的WX公众号：大数据产品设计与运营。

上一篇：征信五级分类可疑什么意思？下一篇：河流的汛期是指什么？