新华网 正文
气象大数据与预报准确率
2016-07-14 11:21:00 来源: 新华网
关注新华网
微博
Qzone
评论
图集

    文|沈文海

    就数据本身而言,气象大数据是指所有与气象工作相关的数据总和;从来源渠道划分,气象大数据可分为“行业大数据”和“互联网大数据”两类。其中:

    “气象行业大数据”由与气象部门各项工作相关、且产生自气象部门内部的所有数据组成,包括:由气象部门建设的、具有国内最高专业水准的气象探测体系所产生的气象专业探测数据,其它部门自行采集、通过数据共享/交换等方式汇聚到气象部门、且经过气象部门严格质量控制的气象要素探测数据,由气象业务部门和业务系统产生的各类气象服务产品数据、派生数据及中间产品数据,职能部门各管理系统(如:财务系统、人力资源系统、项目管理系统等)所产生和管理的数据,各业务和管理系统的状态数据和日志数据等等。

    “气象互联网大数据”由互联网上与气象相关的所有数据所组成,包括:移动终端搭载的气象要素传感设备的探测数据,网友随手拍并上传的天气状态照片,搜索引擎对气象相关敏感词的统计分析数据,其它所有可供气象部门业务和服务应用的互联网数据等等。

    “气象行业大数据”与“气象互联网大数据”间存在很大差异,限于篇幅,难以在此做详细分析。简言之,“气象行业大数据”属于气象业务数据,其生成的直接目标是服务于气象业务和工作的,故其气象信息浓度高、各种技术指标亦最为符合气象业务和工作的各项要求。“气象互联网大数据”则不然,它不是专为气象工作而生成的,它产自于其它非气象部门的行业、企业,是为满足这些行业和企业自身业务目标而生成的。这些数据之所以被纳入“气象互联网大数据”的范围,是因为这些数据包含有与特定气象应用相关的信息内容,而这些内容是气象行业大数据所缺乏的;亦即,这些数据是为弥补气象行业大数据在内容和时空密度等方面的不足而从互联网上收集来的;故其气象信息的浓度、数据质量等参差不齐,各项技术指标也往往差强人意。即便就气象要素而言,两者之间存在的差异也是很明显的,见表1

    

气象行业大数据

    气象互联网大数据

数据来源

部门内部

    互联网、众筹

要素内容

专业、全面

    简单

时空密度

专业化,均匀

    不均,极密或极疏

要素精准度

精准

    参差不齐

传感器载体

专业探测设备

    移动终端、家用电器、交通工具、非气象监测设备等

获取代价

国家财政

    免费

体量

较大,可预测

    不详,未来巨大

    表1、气象行业/互联网大数据中气象要素之间的差异

    从内容上划分,气象行业大数据大致有:气象观测原始数据、气象观测产品数据、气象业务产品数据、气象服务产品数据、业务日志数据、设备及系统状态数据、气象管理数据等等。需要说明的是,目前对气象数据范畴的界定,只包含前四项,即:气象观测原始数据、气象观测产品数据、气象业务产品数据、气象服务产品数据。其后的业务日志数据、设备及系统状态数据、气象管理数据等尚未正式纳入气象数据的定义范围。

    从性质上考察,气象行业大数据属于“气象业务数据”范畴,即:每类数据都有其特定的使用目的、使用对象及数据形态,且所有数据的初始目的都是围绕满足气象部门自身运转所特有的数据需求的。

    从体量上衡量,“气象行业大数据”虽可勉强跻身大数据行列(PB级),但较之互联网公司而言,仍有至少24个数量级之间的差距。以目前业界现有处理技术,完全可以满足“气象行业大数据”在分析处理方面的时效要求(数值预报除外)。因此对于“气象行业大数据”而言,单纯的管理和处理技术不是问题所在。

    气象大数据与预报准确率

    将大数据理念和方法全面应用到气象部门,在部门内开展气象大数据工作,能否有效提高预报准确率,这是本文首先必须正面回答的问题。

    大数据理念和方法探究

    《大数据时代》一书的作者将大数据理念的精髓概括为三点:“不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系”。深究下去,不免使人产生质疑:首先,如果通过分析少量的样本数据就可以得到事物的准确本质(如:适用于数学归纳法的数据集),是否还有必要花费巨大成本去收集和处理全体数据?其次,如果能够得到准确数据或结论(如:台风路径和登陆地点、暴雨的落区),是否还有必要刻意去追求混杂不准确的数据或结论;第三,如果能够了解并掌握因果关系(如:人类活动与气候变暖之间的关系),是否还要放弃对因果关系的探寻,而只去分析相关关系?

    答案显然都是否定的。

    所以,不能生搬硬套大数据的理念和方法,否则可能会出现有违基本常识的举措和结果。对于大数据理念和方法,其合理的解释应该是:如果通过分析少量的样本数据无法得到事物的本质,则人们将不得不花费更多成本去搜集和处理全体数据,以求得到事物的真实本质。如果得不到准确的数据或结论,则人们将不得不接受那些差强人意的不十分准确的数据或结论。如果无法了解到事物之间的因果关系,则人们将退而求其次,通过分析相关关系来了解事物

    因此,由《大数据时代》作者所定义的大数据方法,不应该是刻意为之的,而应该不得已而为之的:当现有的观测数据无法满足业务需求、且布设新的探测设备代价太高或无法布设时,只能寻找其它代用数据,以弥补现有观测数据的某些不足。当无法做出准确预报时,概率预报是退而求其次的预报方法。当气候变化规律目前无法完全掌握时,气候统计预测方法便是填补气候预测方法空白的可接受的选择之一了,如此等等。

    观测数据和科学研究是气象学科的主要支撑

    上世纪二、三十年代,无线电通信技术引入到气象地面和高空观测信息通信,人们能够获得大范围的大气立体观测资料,在此背景下,科学家们通过对观测资料的深入分析,并根据流体力学、动力学/热力学定律等物理学原理,构建起了气象学科的基本框架,并在日后的岁月里不断丰富完善。因此,气象学科是建立在观测资料基础之上,并由气象学家们通过深入的科学分析研究,发现其中的内在机理,进而形成相应的理论体系而最终构建的。随着资料的不断丰富,科学家们不断发现着新的天气/气候变化内在科学机理,气象学科因此得以成长发展。如果没有气象科学家天才卓越的分析研究成果,气象观测资料便仅仅是一堆天气现象的记录数据。因此对于气象学科而言,观测数据/产品和科学分析研究,二者缺一不可。而在人工智能在达到能够具有科学家们深厚的知识背景、敏锐的捕捉现象的本能、严谨的推演技巧和天才的综合分析判断能力之前,这些科学分析研究工作就只能由科学家们承担并完成。

    气象业务的现代化水平最终体现在气象预报的准确率,所追求的恰恰就是精确和及时。如果不掌握天气变化的内在规律(即所谓因果关系),单凭现象要素之间相关性的强弱,是很难达到及时精确预报的要求的。地震前许多动物的行为举止往往异常,但动物举止异常却不见得预示着地震的即将发生。止步于天气现象与气象要素之间相关性的统计分析,不对其做进一步的机理分析研究,对气象学科而言,不是科学的态度。

    统计分析是气象部门常用的方法

    探究科学机理是十分艰难的。在尚未掌握科学机理的情况下,统计分析是常用的预报方法,如气候领域里的气候统计预测。这种通过对长时间序列气象观测资料进行统计分析,以历史上相似天气现象所发生的天气(或气候)变化的概率为依据,进行气候预测的方法,自气候学科发端之日起,便一直在采用,已达数十年之久。因此“大数据”所推崇的统计分析方法,气象部门早在数十年前便已悉数使用,并不陌生。

    但这并不意味着气象部门在该领域的科学研究止步于此。事实上,目前基于动力框架的气候数值预报模式(尤其是集合预报模式等)等方法一直在积极地试验和尝试使用之中,目的就在于探索能够有效发现气候变化规律(即所谓因果关系)的路径和方法——虽然气候统计预测方法仍在使用之中。目前数值天气预报和数值气候预测中所大量采用的集合预报方法,就是“因果”与“相关”、机理与统计之间有机结合的一种尝试。

    气象观测数据是所有数据中最重要的贡献者

    从上述分析可得知,与一般大数据所使用的数据源不同,气象行业大数据中的气象观测数据及产品是专门为气象预报业务工作而采集的,其时空分布、数据质量及其它各种技术指标最符合气象业务的各项要求,气象业务所需信息的浓度也最高。比较而言,气象互联网大数据的气象信息密度不高,数据质量也难以保证,其它技术指标更是难以保证满足气象应用的需求。因此,从气象行业大数据中的气象观测数据和产品产生出来的统计分析结论以及学科科学机理的发现是具有权威性的。就预报准确率而言,气象观测数据/产品是所有数据中最重要的贡献者,气象互联网大数据是它的补充而绝非替代者。

    大数据并非提高预报准确率的终南捷径

    综上所述,气象预报对准确率永远的追求决定了,气象学科必须以探究并最终掌握大气运动的内在机理为工作目标。而大数据方法是在特定的、理想状态无法满足情况下的退而求其次的方法,即:在尚未完全掌握大气运动规律、无法通过理论推演和方程计算准确预报天气或气候的情况下,统计分析方法也许是一种补充完善的途径。在无法断定抽样分析所得结论的正确性时,分析全体数据也许是一种最终解决方案。在无法提供准确预报时,概率预报也是一种不错的选择。但是,如果通过努力有可能达到理想状态,人们便不应该盲目的生搬硬套大数据方法;因为对气象预报而言,因果关系的掌握远比相关关系的发现更为重要,后者是为前者提供线索而非取代前者的。同样,精确的分析和预报结论永远比模糊的分析和预报结论更加满足预报需求,收集和处理样本数据永远比收集和处理全体数据更为高效和节省资源。

    所以,大数据理念和方法并非提高预报准确率的终南捷径。

    当然,笔者并不否认大数据方法在客观预报产品解释应用方面对预报效果的改善有所帮助等正面作用,但这终究是辅助性、修饰性的,不是提高预报准确率的根本途径,且效果难以具体量化。

    尤其需要强调的是,以在预报准确率方面赶上世界先进水平为目标的气象工作者,绝不能因拥有了大数据这种退而求其次的方法而放弃对掌握气象规律这一理想事业的追求。而且,这一追求的最终实现,只能靠观测数据和产品在时空密度和质量上的不断提高,以及科学家们辛勤的分析研究。由于就数据而言,对提高预报准确率贡献价值最高的仍然是气象观测数据及产品,因此研制出高质量、高时空密度的气象观测产品数据,便仍将是提高预报准确率以及气象科学研究最重要的基础性工作。至于科学研究工作,没有捷径可走,在这里“工匠精神”永远不会过时。

   气象大数据的价值分析

    上述分析并非意味着大数据在气象部门无所作为,而只是想说明,大数据并非包治百病的灵丹妙药,而是一个宏观上可在全社会产生巨大正面效益、但也存在一些效益不甚显著区域的、实实在在的思维理念和工作方法。说到底,气象部门之所以引进大数据理念和方法,并非为了大数据而大数据,而是为了解决实际工作中存在的问题。因此,气象大数据必须以业务和工作需求为引领。当业务或工作中出现的问题没有合适的数据信息,或者虽有数据但常规处理方法无助于问题的解决时,气象大数据也许是一种可以尝试的解决途径。通过“气象行业大数据”中的各类数据,在履行其各自的直接业务目标之外,使各类数据间彼此有机融合并协同分析,是能够发掘出新的数据价值、信息价值和知识价值,从而推动业务的发展和管理的进步,不断提高气象部门的工作品质的。气象部门内层级堆叠、工作效率不高的问题长期以来有目共睹,“智慧气象”中“精细的科学管理”,即可从打通部门藩篱、消除管理信息孤岛开始。通过管理信息的整合,优化管理流程,增强职能部门间的工作协同,提高管理效率。通过充分挖掘和发挥出管理信息应用的价值来提高管理工作效率,进而提高气象部门整体的工作效率,通过大幅提高工作效率来创造价值等等。

    “气象行业大数据”产生自气象部门,是气象部门赖以运转的最主要资源,同时也是气象部门各项工作的记录载体,在所有数据资源中,它所含有的气象信息最浓;故其应用领域首先应在于气象部门业务工作的有效运转,其次才是社会服务。“气象行业大数据”潜在价值的挖掘和发挥,也应当以提高气象部门工作能力为首要目标。用好“气象行业大数据”,是开展气象大数据工作的重要内容和检验指标。

    与此同时,“气象行业大数据”与“气象互联网大数据”之间的有效融合,有可能大幅提高气象观探测的时空密度。物联网技术的有效应用,可以使“气象行业大数据”中专业气象探测的时空分辨率变得富有弹性,以更加有效地应对各种业务需求和社会服务需求。此外,高时空分辨率的探测数据也可为气象科学家发现新的大气运动机理和客观规律提供前所未有的数据资源。

    就应用对象及范围而言,“气象互联网大数据”中气象要素数据的产生是与搭载传感仪器的拥有者——人——密切相关的,其所沉积下来的信息中包含有珍贵的人类活动痕迹。凡人迹所至且移动通信可覆盖之地,均有可能成为“气象互联网大数据”的数据源。虽然其传感器搭载体的形式各异,探测环境也很不规范,但也正因为其搭载体拥有者是人,可放置或出入于各种人类活动场所,从餐厅到旷野、从巷道到影院、从居所到河畔,皆可随时对各种场所进行气象基本要素探测,这为气象服务的精细化、专业化和个性化提供了“气象行业大数据”所难以甚至无法提供的现场气象要素数据。此外,利用已广泛布设的非气象监测设备所采集的信息,通过分析得出所需要的气象要素,以弥补专业气象探测设备无法获得的探测信息,是一条值得深入探索的途径,GPS/MET的发掘和广泛应用就是一个典型的成功事例。可以预期,“气象互联网大数据”与“气象行业大数据”以及其它行业大数据之间的有效融合,可在气象社会服务领域开辟出空前繁荣的气象服务新局面。

    总之,数据是为应用服务的,气象大数据必须将业务和工作做为最主要的引领。气象大数据战略的首要内容,不是数据的收集、数据源的拓展以及海量数据的管理技术,而是气象工作的持续创新。在技术创新、原理创新、概念创新和思想创新的氛围中,不断涌现出新的应用,根据新应用在信息和数据需求方面的特点,充分发掘现有数据资源的价值,同时有针对性地寻找并拓展新的数据资源,合理运用大数据有关技术,处理并提炼出新的有价值的信息,以推进创新的不断实现。与此同时,由于创新本身是不同概念之间的有机连接和融合,多角度的观察会增加概念连接的机会,大数据所固有的关联分析以及由此产生的相关事物的现象信息,对开拓概念连接的范围会有所帮助,对气象部门在新形势下的创新当有所裨益。于是,初始创新启动大数据应用,大数据应用促进新的创新——这应该是气象大数据战略的基本轮廓。

    (本文节选自《再析气象大数据及其应用》作者沈文海,国家气象中心副总工程师)

+1
【纠错】 责任编辑: 华信
新闻评论
    加载更多
    重庆:大足石刻新获“护身符”
    重庆:大足石刻新获“护身符”
    在京台胞房山植树
    在京台胞房山植树
    合肥:经典诵读进社区
    合肥:经典诵读进社区
    通讯:从古船扬帆到巨轮远洋——中欧远洋货轮续写“海丝”时代传奇
    通讯:从古船扬帆到巨轮远洋——中欧远洋货轮续写“海丝”时代传奇
    010020080870000000000000011106141355115341