网上直播 文字实录 图片实录 返回直播页

第11期网络传播沙龙:大数据与新闻表达

   由中央网信办网络新闻信息传播局指导、《网络传播》杂志主办的第11期网络传播沙龙定于2016年7月27日(周三)15:00在北京市朝阳门内大街190号608会议厅举行。本期主题为:大数据与新闻表达。中国网现场直播,敬请关注! 文字实录 图片实录 返回直播页

图片实录 更多

相关新闻

相关专题

相关站点

活动标题

  • 第11期网络传播沙龙:大数据与新闻表达

活动描述

  • 由中央网信办网络新闻信息传播局指导、《网络传播》杂志主办的第11期网络传播沙龙定于2016年7月27日(周三)15:00在北京市朝阳门内大街190号608会议厅举行。本期主题为:大数据与新闻表达。中国网现场直播,敬请关注!

文字内容:

  • 主持人:

    尊敬的各位领导、各位来宾以及现场的老朋友和新朋友们,大家下午好。这里是朝阳门内190号“第11期网络传播沙龙”的活动现场,我是主持人郭沛沛,欢迎各位的光临。

    今天很荣幸再次和大家相聚在这里,一起探讨时下最热门的话题之一:“大数据与新闻表达”。其实提到“大数据”这个词大家一定不陌生,甚至可以说我们现在就已经生活在了大数据的世界里。从联上互联网的那一刻起,小到我们日常的开销花费、手机电话号码,再大到乃至于全世界的社会经济增长数据,但凡是有迹可循的都可以,而且已经被一一记录下来。

    有人说大数据是第四生产要素,也有人预言说大数据将来的价值会超过石油,会成为未来新的能源。不管是夸大其词,还是确实如此,大数据真的已经深入地介入到各行各业中,并且为其带来深刻的改变。对于我们传媒业来说,这也不例外,在面对新技术的冲击、面对媒体全面转型的一个档口,大数据似乎就成了媒体人的一个风口,各种形式的活泼的报道让以往严肃的传媒业反而更加得年轻了起来。

    2016-07-27 15:03:45

  • 主持人:

    当然,这离不开业界的创新,离不开行业的支持,也离不开学界的指导。今天我们就把各界的执牛耳者都请到了我们现场。现在请允许我向大家隆重介绍,他们是:

    人民日报媒体技术公司总经理、人民日报“中央厨房”主要负责人叶蓁蓁

    九次方大数据创始人、贵阳大数据交易所执行总裁王叁寿

    中国社科院网络新媒体研究室主任孟威教授

    莅临我们“网络传播沙龙”活动现场的还有《网络传播》杂志执行主编赵帆、《网络传播》杂志副主编孙光海。今天光临我们现场的还有工信部、北京市网信办、北京交通委员会、民建市委、中央电视台、中央人民广播电台、中国日报、中国青年报、南方都市报、新华网、中国政府网、北京大学、北京交通大学、中央民族大学、优酷、新浪等百家媒体,让我们以热烈的掌声一并欢迎他们的到来。

    还要感谢中国石油天然气集团公司对我们“网络传播沙龙”的全程战略支持。今天光临我们现场的是中国石油天然气集团公司新闻处处长郭影女士,欢迎您。

    2016-07-27 15:05:57

  • 主持人:

    “网络传播沙龙”的精彩内容也将在中国网信网、中国网、中国青年网、央广网、海外网、未来网、千龙网、中国发展网、今日头条、华龙网、红网、长城网中同步呈现。特别要感谢中国网对本次沙龙的全程图文、视频直播,以及本次沙龙首次将在8大微信群同步直播,还要感谢中青华云、谷尼舆情提供的数据支持以及人民日报全媒体平台为沙龙提供的技术支持。

    今年两会期间,总理送来了“快递”,《傅莹邀您加入群聊》等文章刷爆了朋友圈,让我们在感叹原来两会还可以这么看的同时,也让一个名字走近了我们的视野,就是人民日报“中央厨房”。

    在两会期间,“中央厨房”从不同的角度总共生产了220多条原创报道,并且被总书记亲自点赞。“中央厨房”到底有何秘方?现在让我们掌声有请人民日报媒体技术公司总经理叶蓁蓁,我们一起听听这个“厨房”到底是怎么利用大数据“烹制”新闻大餐的。我们掌声有请。

    2016-07-27 15:08:17

  • 叶蓁蓁:

    首先,感谢主持人,还要感谢在座的各位业界同行,还有台上的两位老师。其实王叁寿跟我们是重要的合作伙伴,我们有很多数据来自于他那里。孟老师是我们人民日报的亲属,我们平时在院子里经常能见到。今天天气很热,这么多的业界同行来这里参加“网络传播沙龙”活动,让我们有机会给大家介绍,其实是有机会向大家请教。前面我们做了一些关于我们自己的一些内容的PPT有关的介绍,我想简短一些,待会儿我还是主要想听大家的问题和大家的高见,还有台上两位老师的高见。

    首先,我收到的作业叫“大数据时代的新闻表达”。我跟主持人讲,这个切口切的很深、切的很细。但是在2014年8月18日中央深改领导小组通过的中央《关于推进传统媒体和新兴媒体融合发展的指导意见》当中,就明确了我们媒体要利用大数据、云计算和先进技术来加快我们的融合发展。两年时间过去了,我们再来谈融合和大数据就不能那么泛泛而谈,就要深入和具体一些了。

    首先跟大家分享四个观点,也是我们对整个数据新闻表达的认识框架:

    第一,现实世界正与虚拟世界发生深度的融合。融合不仅仅是媒体融合,中国古代有一个“庄周梦蝶”,庄子梦到自己变成了蝴蝶,醒来了以后提出了一个哲学命题,是我梦见自己变成了蝴蝶,还是蝴蝶梦见自己变成了我。其实这个话题,我觉得现在尤其是在VR、AR以及最近非常火爆全球的游戏“Pokemon GO”游戏流行的时候,你就会发现,其实这个哲学的命题从2000多年以前到今天依然非常的有效,而且能够指引我们思考。

    2016-07-27 15:10:42

  • 叶蓁蓁:

    我们曾经非常确定的说过,网络世界不过是现实世界的投影,我们曾经这样自信的认为。但是,到今天还能这么自信的去做这个判断吗?其实,当今日头条上你阅读的东西越来越取决于在后台和数字的虚拟世界里决定给你推送什么东西的时候;当大街上的物流的车辆被后台的数据所驱动,告诉他物流要怎么配送的时候;当阿里巴巴开了一家VR购物的商店,让你在一个虚拟的环境里实现购物的时候;当警察局可以用大数据预防和抓捕罪犯的时候,你还能这么说吗?实际反过来数据世界、虚拟世界越来越多地反作用于我们的现实世界,这样的作用与反作用正在越来越深度、频繁的发生,这种情况下,就意味着我们这些媒体工作者会面临着越来越多的挑战。但是,作为一个年轻人,我永远相信机遇会大于挑战,在这种融合的过程中,产生的数据越来越多,我们能够捕捉到的人类的活动轨迹、思想足迹也会越来越丰富,所以我们相信一定能够做出更加丰富的新闻产品和内容。

    第二,在应对这样一个现实与虚拟深度融合的时代,大数据新闻怎么做?首先需要数据化的思维。因为,我们的脑袋是指导我们行为的“司令部”,在这个里面,我们能够用什么样的思维框架来看待这个世界,非常关键。过去,我们的记者、我们的编辑、我们后台的主编和社长总编们可以凭着经验和凭着对世界看得见、摸得着的事物的判断,对一个新闻进行策划和制作。现在越来越多的新闻发生在虚拟的数据世界里,我们如何对这些看不见的新闻现场、对这些看不见的新闻来源有一个明确的、精准的把握呢?这就需要数据化的思维。所以,在人民日报的“中央厨房”,我们专门设置了一个新的部门,叫“数据新闻与可视化实验室”。在这里,我们配置了新的岗位,有数据采集员,这种类型的数据记者将是新闻史上继文字记者、摄影记者、摄像记者之后的第四类记者;我们也要配置数据编辑、数据分析师、大数据的挖掘团队等等。这些人的职责就是对看不见的新闻现场,在那个虚拟的世界里去纵横捭阖,去驰骋他们的想象和挖掘我们的新闻素材。

    2016-07-27 15:12:33

  • 叶蓁蓁:

    第三,大数据时代的媒体需要数据化的流程。也就是说,让我们的大数据渗透到内容的策划、采集、编发、播发、反馈、评价等全流程,使我们全流程的工作不再是基于过去的经验。过去我们大家都是基于经验,基于我们对过去做过的新闻的所做的积累,来做出进一步的决策。未来会有越来越多的数据支撑我们的决策,这个选题到底热不热、做什么样的选题角度,做什么样的标题最好?所有的东西其实越来越会有更多的数据来给我们提供支撑,那么,我们的流程如何数据化?所以,在我们“中央厨房”平台上,我们就是把数据融入到从全网的热点监测,甚至热点预测开始到选题的确定、记者采写、后面的编辑编发、最后的传播效果的评估,全部都全流程数据化。

    最后,大数据时代的媒体需要数据化的表达。因为大数据所呈现出来的世界和我们通常原来熟悉的那些数字、图表之间是有差异的。过去的数据我们可以称之为小数据,小数据是什么?是精准、精确的,能够明确地反映因果关系的,比如CPI(消费指数)是什么样子的,因为PPI是什么样子的,所以最近的GDP是什么样子的,他们之间是能够建立起因果关系的。但是在大数据的新闻当中,越来越多的新闻呈现的是模糊的关联关系,因为A现象出现了,所以B现象出现了,但是这两者之间是不是有因果关系,我们不知道,很多时候是这么一种类型的新闻在出现。那么,在一个大数据时代,我们的新闻产品怎么样用数据化的表达方式?我觉得这是大家需要锻炼和积累的一种能力。

    这四个观点就是我们看到了在我们迈进到了一个现实与虚拟如此深度的融合时期,我们整个媒体行业需要做好四个方面的准备。从我们自己的实践来讲,我们的实践非常初步,我相信在座的一些媒体单位,你们做的可能在我们的前面,或者说在座的有一些单位像中石油,你们的数据积累远远超过了我们的想象;像九次方的王总他们那样,你们的数据资源丰富程度也远远超过了我们。

    2016-07-27 15:14:22

  • 叶蓁蓁:

    在这里,我做一个小案例给大家分享。人民日报“中央厨房” 我们想做的是什么?我们希望基于前面的数据思维、数据化的表达等等一切,这些东西是横在每一个媒体机构和媒体人面前的,感觉起来是一道鸿沟。但是我们一直有一个观点和信念,就是说所有的技术只有在它发展不成熟的时候,它才构成门槛,它才构成难度;当技术发展到成熟阶段的时候,技术就会消失掉,怎么解释?就像这里的电一样,你进入到这个房间,按一下开关灯就亮了,打开开关电脑开了,打开开关投影就有了,我按一下PPT就翻页了。如果倒退100年就很难,电这个东西不是随处可得,无处不在,因为在1866年才进入电力的时代,你会觉得那个时候企业要想用电,自己都要买一个发电机,甚至用人摇去发电才能用上。

    其实互联网让我们觉得它对我们的影响已经如此的深刻,但是在人类发展的历史长河中,二三十几年的时间,太短暂了。我们只是处在一个新时代的初级阶段而已,所以我们才会处处出现互联网焦虑、技术焦虑,觉得这是门槛、那是难题。我缺这个技术人员,我缺那样的技术团队,说人家有技术,我没有,天天要焦虑这个问题,那是因为你的技术太落后了。所以,我们希望解决这个问题,把一切难的技术全部云化,做成工具,放到中国媒体融合云上来,使我们的媒体同行不再需要为技术去焦虑。

    2016-07-27 15:16:47

  • 叶蓁蓁:

    就像在去年两会的时候,我们第一次启动运行,当时我们预测两会会是一场H5的大战,所以我们提前外包雇了十几个写H5代码的程序员加入到我们公司来打短工,为整个两会H5的产品做准备,当时确实做了很多东西。后来我们知道,这个东西不对,要把它工具化、傻瓜化,于是我们就开发了两个H5制作的傻瓜化的工具,一个是面对普通的编采人员的,能够做简单的新闻类的H5产品;一个是面向设计师,就是美工、设计师或者有一定的技术基础的技术人员,这个工具可以开发手游、开发动漫类的H5。这样的话,通过半年的时间我们做了两个产品,再到后来今年的两会我们再去做“傅莹邀你加入群聊、总理给你送快递”等等,我们一天就能够做好几个了,而且不需要外聘人员,因为我们已经有了傻瓜工具。这个工具不是只给人民日报用的,我们全部云化了,我们的同行只要用了用户名和密码进来,简单学习、熟悉一下就可以使用。包括VR的东西,包括其他大数据挖掘以及舆情的东西。曾经我们觉得难的,我们想把这个门槛锯掉,我们想把它放在我们云上供全行业使用,这样的话,这样一个融合云的平台会连接各种各样的数据资源,包括央企、中央部委、九次方大数据等等各个方面,比如今日头条、一点资讯、腾讯、去哪儿等等,你们能想到的一切的互联网重要的端口,因为他们都在产生大量的数据,我们希望把这些数据资源汇集起来,分享给所有的媒体同行。

    我们把数据能力也集中在这个上面,各种各样的技术公司、数据公司,它所开发的技术能力我们都去对接,放在这样一个平台上,让大家都能使用。还有就是怎么样把数据资源做成新闻产品也需要一些工具,也全部放上来,只有这样的话,大家就能一起迈过这道门槛。这是我们现在正在做的一些尝试。根据主持人的要求,我们做几个案例,一会儿我们交流的时候,再往下讲。

    我想对前面的分享做一个简短的收尾,不管技术如何发展,只有在技术的初期阶段,技术才是难的,成熟的技术一定是简单的,一定是随手可得的技术。所以,我们希望大家一起缩短这个周期,而不管是大数据还是人工智能等等,永远替代不了以下三个事情:一是替代不了人类对于优质内容的追求,二是替代不了新闻对公平正义的需求,三是替代不了媒体对人类的人文关怀。所有这些技术,其实都是为了帮助我们更好地在一个新的时代去寻找、去发现新闻的价值和本质。

    谢谢。

    2016-07-27 15:18:10

  • 主持人:

    语速快,赶不上叶总在业界跑得快,刚才只有15分钟的时间,我相信大家已经体会到了这种精妙,尤其在今后的可操作、可借鉴的道路上也给我们提供了一个很好的方向。我知道在座的各位也非常好奇刚才我列举的案例是怎么制作出来的,更关心我们自己是不是也能生产出这样的一个案例。现在我们就坐下来好好地跟我们几位嘉宾一起聊聊,我们还有其他两位不同领域的嘉宾,希望在接下来的时间为大家在今后的“大数据与新闻表达”中提供更好的、有利的参考。

    在大数据的时代需要大数据的思维和流程、数据化的表达,现在什么事情都离不开大数据,但是我特别想知道其他两位嘉宾,尤其是王总,王总身上有很多关于和数据相关的标签:“中国最早的大数据公司”以及“全球第一家大数据交易所”。我想问一下,王总是什么时候开始关注大数据的,当我们在谈论大数据的时候,我们到底在谈论什么?

    2016-07-27 15:21:55

  • 王叁寿:

    我有两个身份,第一个身份是九次方大数据创始人,我是在2010年创办了九次方大数据;第二个身份是贵阳大数据交易所执行总裁,在2015年的时候我们创办了贵阳大数据交易所,这个也是联合了我们贵阳市这个土壤才有这样一个交易所出来。贵阳市大数据交易所是李克强总理去年5月8日亲自给的批示。(贵阳交易所)在国内的地位,只要是做大数据的,如果没有听到贵阳大数据交易所,就应该不是搞大数据的。

    其实2010年我在中国开始做九次方大数据的时候,大概听到了很多声音,第一个声音说大数据,我们那儿全都是大数据,问他数据在哪里?不就是服务器吗?这是2010年到2012年这三年时间里很多人对大数据的理解。2012年到2013年,我再去跟别人讲大数据,他们说,我们那个数据量很大的,问他在哪里?说都在我们的Excel表格里。当2014年我们再去招聘的时候,很多人就会来投简历,问我大数据是做什么的?我说你是学什么专业的?他说,我是学统计的。我们对大数据的理解从服务器到Excel表格,再到最后简单的统计分析,我认为都不是大数据。

    后来我有了一个更深的理解,很多人也提出大数据是“黄金”,是“石油”,其实到今天为止,我把这个观点也推翻了。我认为大数据既不是石油,也不是黄金。因为石油和黄金是一种不可再生的资源,而数据恰好是一种生生不息、又无限次循环的资源。比如我们现在说人民日报的数据,历史数据可以把它比作是黄金、石油,但是每天都在产生新的数据这种属性并不是石油和黄金,就是挖掘现有的数据资源,是每一天都在产生新的数据资源。这就是我对大数据一些简单的理解吧。

    最后一句话,我想总结一下我在创业的这几年发现一个道理,大数据就像爬泰山一样,你爬不到山顶就看不到太阳,这是我一个深深的体会。我相信今天人民日报“中央厨房”也是这样一种感觉,就是当他发现积累到一定数据量的时候,他还是感觉这个量不够大,但一旦是“中央厨房”汇集的数据量非常大的时候,他就爬到了山顶看到了太阳。

    2016-07-27 15:23:23

  • 主持人:

    刚才我们从王总和叶总的介绍中也听到,虽然我们对大数据的认识在一步步的加深,但是从整个层次上来看还是处于一个初级或者是一个起步的阶段。我不知道作为学界研究大数据的孟威老师怎么看待和理解大数据这个概念,在学界怎么定义?

    2016-07-27 15:26:27

  • 孟威:

    因为目前大数据非常热,在学界也没有一个统一的、非常恰如其分的概念。林林总总的理解里,有人认为大数据就是一种资源,有人认为大数据是一种技术,还有一种观点认为大数据是一种表达的方式。这些观点实际上都是从不同的侧面让我们认识到大数据的一些特点。我理解的大数据,从学界的研究来看,有这么几个角度:一是微观的角度,二是中观的角度,三是宏观的角度。

    从微观上来看,大数据是以云计算,是以一些数字化的基础设施为支撑的,这是它技术层面上的特点。它是一种信息在物理空间的运动,投射到虚拟空间或者数字空间的表现,它不同于常规的数据,在规模和大小上都不同于常规的一组数据集。从微观上讲,我们觉得大数据就是这样一种东西。这种数据集和原来的数据比较起来,它的规模是更大的,它的品类是更多的,它关联性是更强的。这是从微观的角度理解。

    从中观的角度理解,大数据是一种新的生产要素,这对于新闻传播来说也是这样,它是一种新的生产力和生产关系的基础性的力量。

    从宏观的角度来看,实际上是我们认识论的一种提升,就是说依据大数据,能够重新定位我们看待和认识世界的一种视角。

    2016-07-27 15:27:19

  • 主持人:

    像刚才叶总说的,上升到哲理甚至上升到认识的层面,请问叶总对这个话题有什么补充?提到大数据您第一个反应是什么?

    2016-07-27 15:29:08

  • 叶蓁蓁:

    第一个反应,大数据的热潮当中很多人没有把概念搞清楚。如果我们对着大数据照一个词就是小数据、统计数据,像王总讲的Excel表格类型的数据,其实很多的产品是基于小数据做的。所以在我们现在的工作当中,事实上大数据、小数据是在混用的,因此我们数据新闻实验室,包括内部讨论的时候,我经常打断同事说,你这不是大数据,不要乱用,我们要严谨。现在我们在这里交流的时候,有很多数据在这里产生,比如有人记录下来,比如我刚才站在那个地方的时候,脚的摆动频率是多少,这些都是数据。但是在那个瞬间如果没有记录,就过去了,就淹没掉了,所以很多人类的行为都在不断地产生大的数据,但是你如果不把它及时记录保存下来进行处理和利用,它就会消失和淹没掉了。

    第二,大数据更像一团石头或者土,数据挖掘是做什么工作,从这团土和石头里面能提炼出黄金、铁,甚至钻石,那个成果是从大数据里提取的结果,是你的数据成果,那个才叫黄金或者才叫铁或者钻石,但是那一团混沌创造的东西是大数据。所以,中国人的传统观念很好理解它,就是处在混沌状态的,还没有“无极升太极,太极升两仪,升万物”之前的那个状态是大数据,一旦升起来,一些变化和一些清晰区分的概念其实已经开始被提炼和挖掘出来了,就产生了不同的结果和不同的可以利用的成果。

    2016-07-27 15:30:41

  • 主持人:

    还是从大数据发展的状态上来说,就像王总讲的,我们之所以探讨大数据或者有一个大数据的热潮,正是因为它现在正处于一个起步阶段,或者说还不是那么清楚的阶段。从两会开始,不管是主流媒体、央视还是门户网站也好,再到现在的数据公司也在做大数据方面的尝试,也有一个很成型的案例,大数据对新闻表达或者整个传媒业的影响结果还是非常的直观的。当然这个话题就比较大了,我想问一下孟威老师,从您长期的观察和研究中,大数据对我们新闻或者传媒业带来了哪些改变?

    2016-07-27 15:33:57

  • 孟威:

    大数据应用在新闻领域,我想一个最大的变化就是产生数据新闻的数据样式。数据新闻从传统的新闻理念来衡量它有什么比较优势,就是给我们这个行业带来什么样的更新?我想有几个方面。

    一是对新闻人新闻价值的回归。大数据是一种技术的手段、科学的方法,来进行新闻生产和新闻消费,在这个过程中,人们更看重的是新闻的真实性、数据的真实性和它的客观性的表达。而我们搞新闻传播的,我们在座都是新闻传播业内的人士,我们知道真实是新闻的生命,我认为,真实性和客观性其实对大数据的第一的礼赞,大数据能够给我们更加接近于真实、客观的新闻提供一个很好的手段。

    二是在新闻的生产领域里面,就是生产的流程上来说,传统的新闻内容生产是以人工生产为主导的。我自己有一个观点认为,我们现在有一个比较普遍的流行的观点,就是把我们的数据新闻看作是之前的精确新闻或者计算机辅助新闻报道的一种延伸,但是我觉得这样理解数据新闻是不够的。我认为数据新闻在数据量的积累、挖掘的过程中,能够生成一种新的新闻样式,实现一种质的变化。所以在这个层面上,数据新闻是跟原来的精确新闻或者是计算机辅助报道是有断裂的,所以数据新闻给我们带来了内容生产上的变化是远远大于只用技术手段来帮助我们生产新闻这样一种概念。

    2016-07-27 15:34:40

  • 主持人:

    刚才孟威老师提到一个很关键的词就是数据新闻,这是我们后面讨论的重点。顺着孟威老师刚才说的一个问题,我有一个疑问,数据新闻是增加了我们新闻的真实性或者客观性,但是这样有一个问题,如果说数据增加了新闻的真实和客观性,前提应该说这个数据本来就是真实和客观的。这个问题请问一下王总,在这么大数据量的情况下,我们怎么保证这些数据来源是真实的,而我们现在用的数据能够多大程度反映真实呢?

    2016-07-27 15:36:07

  • 王叁寿:

    这个问题反问你一句,比如你把一瓶墨水扔在太平洋里去,太平洋的颜色会变吗?这就是大数据的魅力。在一万条的新闻里,不知道这条资讯是真的还是假的,这个并不重要。比如前一段时间邢台被洪水淹没的事情,有很多不同的声音,有不同的渠道去报道这条新闻。但是你会发现,当一条看起来不太真实的资讯掺杂在1万条和这个事件有关的资讯里,你不会在意这条是真的还是假的。因为它和其他9999条的资讯都是不太一样的。但是我们不是说这就反映了一定的真相。

    我认为,在新闻媒体这个时代,利用大数据无非有四个目的:

    第一,智能分析。比如前一段时间我们说宝万之争姚振华,当时我们看到这个新闻的时候,对于我来说,假如我是一个财经人士,我想知道他在全中国的控股企业有哪些?投资的企业有哪些?这些企业到底是好还是坏?这是第一个要素。

    第二,预警。为什么说要预警?当我看到某一条新闻的时候,任何一个行业可能会认为三聚氰胺对乳业引起一个连锁反应,我希望通过一个大数据的分析摸到这个脉络,就是预警。

    第三,预测。当我看到这个新闻的时候,我是否感觉到未来应该是一个什么样的样子。

    第四,新媒体利用大数据是否能做出决策,让看新闻的所有相关人都要有一种决策。为什么全球这么多人做媒体,为什么只有布隆博格每年有100多亿美元的收入?在全球如果你是搞金融的却没有用过布隆博格,你都不好意思说你是搞金融的。这就是我们讲的为什么布隆博格一个终端能卖2400美金,就是看他所有资讯媒体内容的人可以做出交易的判断决策,大概我想就是这四个方面。

    2016-07-27 15:37:34

  • 主持人:

    王总刚刚用四大优势来淹没了我刚刚提出的那一点点“墨水”。所以说大数据本质是数据,但是它的优势就在于“大”,可能是全样本的分析会降低我们在以往的抽样或者调查的传统的分析,会减少这样一个误差。下面这个问题是问叶总的,到底大数据是怎么抽样进入到新闻表达中的?给我们传媒业带来哪些改变?叶总可不可以具体举一个案例,在一个新闻的生产过程中,如果是传统媒体生产会按照什么流程?大数据进入以后,又对每一个环节产生什么改变?

    2016-07-27 15:40:51

  • 叶蓁蓁:

    我们最近和去哪儿做一个中国人亲子旅游的热度调查,看看哪些国家排在最前面,排出了前十个国家以后,发现泰国从原来的比较靠后的位置上升到了第一位,这是一个相对比较简单的新闻,但是我们特别想知道原因,是什么原因使他们上升到第一位?这种情况按照传统的模式,可以说找一些游客采访,发一些问卷调查,其实这些都会很难,因为你只会抽样。但是在去哪儿包括一些其他的旅游平台都做了一些基础的数据挖掘,包括游客旅游之后的评价等等,之后出现了一个很奇妙的现象。如果是人设计纬度的时候你不会想到,但是在机器去爬的时候发现一个很关键的词就叫“微笑”,很多人在游记和评论当中都会提到泰国人友善的微笑。后来我们通过大数据发现,中国人最近特别喜欢去泰国旅游,因为泰国人到处给游客热情的、真诚的微笑,是吸引中国人去的原因,不是因为美丽的沙滩和风景,而是人们的微笑。那我们很难想到这个维度,可能你会想到价格、海滩等等。

    我们今年两会期间跟中国网一起做的一个叫“谁在代表我”,实际上我们就是把全国人大代表所有的人的姓名、性别、民族、籍贯、党派、学历等等全部的数据库做完整之后,前面有一个端口,就是你可以自己填你自己的姓名、性别、籍贯、学历等等,机器会翻出跟你最匹配的人大代表,然后把他的情况弹出来。但从严格意义上来说,这不是一个大数据,但它是一个数据新闻。

    2016-07-27 15:41:30

  • 叶蓁蓁:

    举这个案例我想说明两点:

    第一,我们通常说数据新闻的时候不要以为数据新闻就一定有数字。在我刚才举的这个“谁在代表我”案例当中没有出现数字,你所编的基本都是一些语义符号,比如哪里人、性别、党派、学历等等。所以,数据新闻并不是数字新闻。

    第二,数据新闻常常会有一种互动化的消费方式,刚才说的“谁在代表我”这样一个新闻,其实就有互动,包括最近想做没有做的题目,叫“我什么时候要退休?”,大家知道人社部在研究延迟退休的方案,按照这样一个草案和方案,如果去算自己退休的年龄,算起来会比较麻烦,而且可能会算错,如果我们做成一个计算器,把自己的情况填进去,就自动地告诉你,到了你退休的时候应该是多少岁,你就会得到这样一个结果。所以,这样一个数据新闻的消费过程,就是一个互动式的消费过程,有参与的,而且是个性化的。

    2016-07-27 15:43:23

  • 孟威:

    刚才叶总讲了一个,就是说这方面我很有感触。数据新闻对传统新闻的提升还有一点,就是说它对于数据的应用、对于生产的新闻、对于个人的关联性的影响。一方面,它掺杂了许多互动的层面,还有一个就是大数据既有一个社会宏观面的把控,同时一般的数据新闻或者大数据的使用,它能够让你感受得到,就是在这个新闻中和你自己的这样一个关联性,而这一点就是对个人的影响的重要性和关联性,是数据新闻的一个非常重要的特征。同时,在数据新闻生产的过程里面,它倡导的是一种协作的理念,这种理念也是我们在互联网和新媒体时代的一种互联网思维的体现。所以数据新闻从来源上来说,我们产生的主体不完全是我们的职业工作者,他有UGC的成份,有PGC的、OGC的成份,是交融在一起的,所以它也是一个混合的、融合的新闻形态。这也是它的一个方面。同时还有一点,就是我们可以看到的可视化,可视化是一类,但是就像叶总讲的,可视化不仅仅是数字,实际上是利用各种各样的数字,结构性的也好,非结构性的也好,数据、图形、列表、动态的,各种各样的数据,他们来怎样讲故事,这些故事怎样讲的渗透和讲的更好,这才是数据新闻生产之后要取得传播效果的最重要的东西。

    2016-07-27 15:45:13

  • 主持人:

    刚才两位从整个新闻流程中都介绍了,叶总介绍了扩大选题、丰富新闻形式,孟威老师在外在的呈现上和表达形式上做了一个补充。我再细节性地问一下,“中央厨房”生产一条原创的,不管是H5也好,还是新闻也好,大概会用多长时间?

    2016-07-27 15:47:48

  • 叶蓁蓁:

    就像“谁在代表我”这么一个产品,其实它的基础就是需要有一个完整的数据库,这个数据库的资料越丰富,将来算出来的匹配度就会越高。我们大量的时间是花在了做数据库或者完善数据库上,这个产品我们总共花了一个半月的时间,包括过去电子化已经成型的数据库,除此之外,我们觉得不够完善,所以我们又人工手动地补充了很多的内容,就是数字维度的精确,花了一个半月的时间在做,七八个人,其实这个东西很难算,因为有一些数据的丰富是通过人民日报各地的分社记者找当地很多人要更多的资料过来,很难一下子统计过来,就是这几个人在干,可能不同的人在参与,大家参与的都不同,但是我们核心的有七八个人。这就引出另外一个问题,其实我们也只是处在数据新闻的门槛初级阶段,表现的就是数据的来源太缺乏了。数据库不同数据之间的互相印证又非常困难,因为数据不够,所以无法去印证这个数据库是否可靠,那个是否可靠。互相之间的纬度交叉率很低,只能说明我们还处在大数据时代的“蛮荒时代”,我们还只是“野蛮人”。

    2016-07-27 15:48:24

  • 主持人:

    王总,我们现在数字量能够达到多少?刚才叶总提到了做数据新闻是花费浩大的,前期投资又特别大,做数据新闻和大数据有时在哪里?要从以后的角度上才能看得出来吗?

    2016-07-27 15:50:16

  • 王叁寿:

    对,举一个简单的例子,刚才我们拍照的哥们,你说那个摄像机采集数据很容易,干吗只是放我一张图片,能不能多放几张,选一张帅的。当你获取数据免费的时候,为什么不能用更好一点的呢?现在没有大数据的支持,很多新闻做不出来,举几个小例子。

    第一,之前天津爆炸是氰化钠爆炸,当天津氰化钠爆炸的时候,因为马上出新闻了,说是氰化钠的一个仓房爆炸了,你们谁能在一个小时之内就把全中国的氰化钠产业地图拎出来,没有媒体可以做到这一点。现在通过这样一个数据库,当我输入氰化钠的时候,当然这个数据库可以在电脑上看,一秒钟就会告诉你全中国有哪些是做氰化钠的,这些公司分布在哪个省、哪个市、哪个街道上,每个公司是存活了多少年,每一家氰化钠公司到底什么时候注册的,每一家氰化钠公司整个规模到底有多大,一秒钟就出来了。我的意思,你没有大数据支持,你能做这条新闻吗?你做不了。

    第二,前两天我们看到和我们吃穿住行的一条新闻,说绝味鸭脖细菌超标。当你想深挖绝味鸭脖的时候,我想反问你能在一秒钟把绝味鸭脖在全中国店铺的布局拎出来吗?比如你想做一个绝味鸭脖中国产业布局图,你能做出来吗?你做不出来,因为你没有这个数据。而在我的数据库里只要输入“绝味鸭脖”的话,一秒钟就出现全中国的布局图。如果没有大数据的话,还是做不出来。不是说改变了谁,是让方法产生了变化。

    2016-07-27 15:51:33

  • 主持人:

    在数据和新闻的一个关系上,其实以往我们说新闻一定是强调时效性或者突发性的,但是数据好像是越沉淀才会越有价值。看似特别矛盾的两者之间,反而会结合出来一个更加具有创新性和生命力的东西。请问孟威老师从学界角度怎么看数据和新闻的关系?

    2016-07-27 15:53:33

  • 孟威:

    数据和新闻的关系,我觉得数据和新闻两个加起来就是数据新闻的说法。但是,数据我想是新闻的一个基础,因为新闻有一个数据源的问题,所以数据需要有一个高质量的数据源作为它的基础的保障,所以没有数据是不能成为新闻的。因为我们现在的数据概念,刚才已经说过了,不完全是一种数字的概念。比如自然的信息,比如传统的文化生产所产生的信息,比如我们人体自身的信息,都是一种数据信息。所以,没有这些信息的话,我们在现在的社会再成就一条新闻的话,可能是非常困难的,这是一种基础的关系。

    同时,我想数据也不等于是新闻。因为刚才说过了,我们大数据还处在一种比较混沌的状态当中,所有的消息拿过来、数据拿过来都是新闻吗?不是的。所以,这就是我们专业新闻人所要做的这样一种筛选和清洗、挖掘工作的价值所在。

    2016-07-27 15:53:41

  • 主持人:

    不管是数据新闻发展怎么样,肯定是一个方向,我想现场做一个调查,在我们所来的媒体当中,有多少家是已经开设了数据新闻这种栏目形式的?

    2016-07-27 15:55:30

  • 观众互动:

    (观众)1家。

    有多少家是想开设这样一种形式或者想去尝试的呢?

    (观众)还是有一些的。

    那其他既没有又没想的,今天为什么来的。

    2016-07-27 15:56:05

  • 王叁寿:

    他们是来做新闻报道的。我说一下这三者之间的区别,新闻报道会产生信息,信息提炼出来之后产生数据,你知道这三者之间的关系了吗?

    2016-07-27 15:57:08

  • 主持人:

    我们想真正做一个业界的调查,就是大家想开设但是又没有开设,这个问题或者困难出现在哪里?有没有一家媒体代表来说一下。

    2016-07-27 15:57:48

  • 王叁寿:

    我先补充一下,是因为没有人民日报的“中央厨房”的数据支持。一定是这样的,因为每一家媒体公司建这样一个“中央厨房”,提供大量的数据,这个工作量是非常大的。

    2016-07-27 15:58:48

  • 主持人:

    数据的来源是一个问题。刚才叶总也讲,现在成型的或者比较领先的就是“中央厨房”,“中央厨房”在做数据新闻中最大的优势或者竞争力在哪里呢?

    2016-07-27 15:59:22

  • 叶蓁蓁:

    我们最大的优势一方面就是这个品牌。人民日报给我了我们非常好的号召力,其实媒体本身并非是一个大的数据来源,其实我们只是有一些数据,但是数据的量不是很大,真正大的量的来源是来自于各行各业、政府部门,甚至包括一些商业机构,还有像王总他们这样的第三方机构。

    我们的好处是,因为我们和任何一个数据来源都不构成竞争关系,我们都可以构建合作关系,所以我们可以用一个很开放的姿态,把各种数据接入进来,跟各种各样拥有大量数据的平台进行合作。这是我们的一个客观的优势,主观的优势就是我们本身理念的开发性。我们在做任何东西的时候,都不是狭隘地站在人民日报的角度去谈合作,站在人民日报的角度想怎么打败别的媒体。所以我一直在说,在媒体转型融合或者说大数据新闻的时代,人民日报不把任何一家媒体同行视为竞争对手,而把他们都视为合作伙伴,甚至是肩并肩战斗的战友,因为大家会面临共同的问题,我们做的任何事情都想着怎么样解决行业问题,而不是我们自己的问题。这样的心态使我们在和各个数据来源、技术公司、提供技术工具的团队去合作的时候,大家都会觉得和我们合作的价值远远超越了人民日报这四个字,而面对的是中国媒体,有时候甚至一定程度上面对的是世界媒体的概念,这是我们的优势,大数据时代我认为需要开放和合作的思维。

    2016-07-27 16:00:49

  • 主持人:

    我可不可以这样理解,叶总和王总都是技术公司,只不过叶总服务的对象或者面向的更多是媒体,我们王总面向更多的是行业,同样一个问题,就是王总的数据来源是从哪儿来的?

    2016-07-27 16:02:43

  • 王叁寿:

    我们两家是有分工的,我是去“打井、铺管道”,把地下水做成自来水的。“中央厨房”是把自来水搞成可口可乐的。其实我们两个关系还是有一点不太一样。所以,刚才叶总讲他和其他媒体公司都不是竞争对手。

    其实数据源无非来自五个部分,第一部分是政府,第二部分是互联网公司,第三部分是金融机构,第四部分是行业公司,比如像西门子手里有工业数据,宝钢里面有钢铁数据,第五个就是其他。我说这五个数据源,有什么样的区分?李克强总理在今年的贵阳数博会上讲过这么一句话,目前市场上可用的有价值的数据80%都是在政府手里。所以现在九次方大数据公司,主要的数据来源分成X轴、Y轴和Z轴,X轴就是通常跟一些地区政府合作,现在我们已经和46个地方政府合作成立大数据公司,来负责地方政府数据的运营权。比如像黑龙江、新疆、青海、广东、福建、甘肃、云南等等很多省和市,还有苏州,他们地方政府都和我们公司合资成立了大数据的运营公司,政府的数据公司主权永远都是政府的。像新疆公司的名字就叫新疆大数据公司,青海合资的公司就叫青海大数据公司,负责统筹整个青海地区的数据。你想分析氰化钠也好,你想分析某一家公司也好,分析某一个人也好,基本上可以做到一秒钟呈现出来,这是一个数据源。

    第二个是互联网公司,互联网目前主要强调的还是舆情数据,其实舆情数据有两个指标,你们在做媒体的时候也会碰到。第一个指标就是爬取的速度,每一天这个互联网都会产生大量的信息,对于这个数据的爬取的速度非常关键。第二个指标叫盲区,比如围绕这一个人,比如互联网上有一万条跟他相关的数据,但是你的爬取和数据挖掘只能挖出七千条,恰巧有一条说这个老板会跑路,但是你没有挖掘出来,就会对你的信息造成不对称的问题。

    2016-07-27 16:03:35

  • 王叁寿:

    第三个是金融机构的数据。它不会贡献给你的,没有听说过任何一个机构手里有金融机构的数据。

    第四个是行业机构的数据。目前有很多行业内的门户网站,像钢铁行业网、汽车行业网。

    最后一点就是其他,就属于个人数据,这部分数据目前是国家严令禁止采集的,主要是保护个人隐私。数据源主要来源于这五个部分。九次方目前的数据源,包括我们和“中央厨房”合作的数据源,主要是政府数据,大概是这样。

    2016-07-27 16:05:12

  • 主持人:

    在数据来源上有一个多重的困难,发展大数据也是耗时、耗力、耗资金的一件事情。想问一下,大数据或者是数据公司以后的一个发展方向会不会在不同行业里真的做到一家独大,就是说大数据的资源最后掌握在哪里?

    2016-07-27 16:07:19

  • 王叁寿:

    其实发展的趋势,我觉得谈大数据必谈数据源,数据源公司是未来整个大数据领域的一个终极目标,大数据主要分几个环节:采集、清洗、脱敏、建模、分析、可视化、应用。大数据的话主要分成这么几个方面,但是万变不离其宗,必须要有数据源。

    2016-07-27 16:09:44

  • 主持人:

    我想问一下孟威老师,刚才提问的时候,我们都没有人回答,我有两个问题想问您。第一个问题,既然媒体没有提问,从我们观察上来说,您觉得除了数据来源是一个问题,发展大数据还有哪些困境?第二个,刚才王总说了一句话,让我挺有感触的,这应该是数据公司做的,反而让大数据来做,好象有了这种技术发展了以后,媒体和公司这两个概念越来越模糊了,就是大数据也可以做新闻,技术公司直接做新闻就可以了,新闻跟公司最主要的区别或者以后的核心竞争力会在哪里呢?

    2016-07-27 16:10:09

  • 孟威:

    第一个就是在做数据新闻的过程中,我们除了数据源、数据质量上的困境,还有其他什么样的困境。我想,也有几个方面。一个是资金和技术方面的问题。为什么这样说呢?因为数据新闻现在的生成,在国际和国内都是一个方兴未艾、红光涌起的局面。在这样的一个势头里面,像皮姆博纳斯里(音)有一句话,他说“数据新闻就是未来”,这是非常具有雄心壮志的一句话。但是数据新闻毕竟要有一种资金力量的支撑,也要有一种技术质量的支撑。2013年的时候像“VOA”旗下的一个“Pach”(音)网站,做数据新闻,最后难以为继了,很多的数据新闻人员就被解散了。2014年,历史再一次重演。另外一个就是号称叫做“数据第一媒体”的一个媒体,它最后业经营不下去了。同时第三个例子,2015年国外又出现做数据新闻的媒体,因为每年要背负几万美元的资金压力,但没有得到很好的支撑,所以没法进行下去。我想,资金这方面也是一个很大的考量。

    这些年我们调查媒体融合的实践过程中,很多人认为,刚才叶总讲的他们的“中央厨房”,包括新华的一些数据,包括光明的云媒,但是很多地方媒体认为,中央媒体的这种形式是不可复制的,为什么?就是资金和技术上支撑的问题。技术上,我们现在找到的一个途径,就是这种外包的形式,外包的形式有很多媒体融合的媒体,他们想聚集一些技术的力量,形成一个数据的中心,有技术的力量、有专业的力量,来一块共同生产这样一种新闻,但是他们没有力量去外包或者没有力量留住他现有的技术人才。所以,对数据新闻来说,这也是很重要的一点。

    2016-07-27 16:12:03

  • 孟威:

    还有,我们媒体人本身的技术素养,我们在传统媒体领域里面,我们强调的是一种比如文字的素养、人文的素养、专业化的素养,这是人文科学的素养。但是到大数据的时候,甚至有人说现在叫做数据时代,我们先不考量它的科学性在哪里,但是在这样一个数据的环境中,刚才也提到了,虽然我们的数据还不够充足,但是有这样一种学术的预测,到2020年的时候,全球会生400亿T的数据量,1T数据量相当于5000个4门的文件柜,也就是再乘以400亿,大家想想这个数据有多大。那么,在这样一种数据生产的过程中,我们媒体人对于数据,简单的数据获取、数据的清洗、数据的分析、挖掘以至于最后生成的技术,这完全是一无所知,或者说是所知甚少,这是造成我们今天数据技术恐惧的以至于数据障碍的一种原因。这是一个方面。

    还有一个方面,我觉得就是在它的未来数据的价值获悉方面。在现在生产环境里面,我们都是一个消费的时代,是一个后工业化的时代,是一个信息时代,数据的价值市场价值怎样实现,这也是媒体要做数据新闻面临的一个考验。

    2016-07-27 16:14:16

  • 主持人:

    第一个问题,请问叶总,“中央厨房”的模式是不是可复制的?第二个问题,在这种大新闻生产中一定涉及到外包,外包所找的人员也好、用的机器也好,会不会影响到专业性?第三个问题是市场化的问题。

    2016-07-27 16:16:20

  • 叶蓁蓁:

    “中央厨房”在设计的时候,就是要把它设计成一种可复制的模式,从我们设计这个项目第一天开始。但是,这种模式的复制是它的基因复制,合作基因、开放协作共赢的基因,而不是每一个地方媒体都按照人民日报的“中央厨房”一模一样去投入几个亿构建这么一个庞大的技术体系,自己去构建一两百人的技术团队,再去跟几十家技术公司、几十家数据公司建立这样的联系,完全是重复的,没有必要。所以,当大家说不能复制的时候,实际上说这个话的媒体同仁可能还是站在一个封闭的过去的时代在看未来。在这里我们已经完全是一种开放的想法,我们所建的“中央厨房”不是人民日报独有的,而是一个面向全行业的,就是给大家共享的。所以我们和河南报业集团签了整体的战略合作协议,包括还有很多没有签。我们可以说“中央厨房”复制的协议排着队,已经有二三十个还没有签。这说明我们投入这么巨大的资金去建了以后,可以让我们媒体同行用1%的成本复制,这是非常低成本的复制,而且每一个复制都是对对方的强化,这是互联网的强化。这是互联网时代的特点,一旦有多一个复制对象以后,大家都在相互强化和加强对方,更多强调的是共享与合作。所以,这个不存在问题。

    还有说外包的问题。如果外包还是一个问题,只能说这个外包本身不成熟,是你做的不成熟。互联网时代有几个词非常重要,一个叫众筹,一个叫众包。这两个概念是非常具有互联网特色的,你如果天天说互联网思维,可是你不懂众筹和众包这两个概念,那就是假的互联网思维。所以人民日报“中央厨房”在未来内容生产的环节会引入众筹和众包的概念。所谓的“众包”就是让很多生产环节从我的核心体系甩出去。我们现在有外包团队在湖南常德、四川绵阳、青海西宁、辽宁大连来帮助我们生产内容。这些团队完全具备和我们合作的能力,只是说你把哪些环节外包出去,如何做质量把控、如何让生产的流程标准化,让这个报价体系、付款体系、签约合作的体系标准化、互联网化。只要把这些东西做好了,我相信新闻生产未来很多的环节都是会像生产一台手机或波音飞机一样,在全球各地做零部件加工,最后再一个地方做集成就可以了。这就是互联网时代的魅力,如果不把这些魅力、把这些能力充分用上,一定会被时代所淘汰,这是一个趋势,任何人无法阻挡。

    2016-07-27 16:17:17

  • 主持人:

    在我们大数据时代,一定会涉及到的就是云计算、人工智能的一系列的数据。在我们讨论这个问题之前,我想先让大家看两条新闻。

    2016-07-27 16:20:41

  • 主持人:

    看了这两条新闻,和我们平常看的有什么不一样。这两条新闻全部由机器生产写作的,总共用时是6秒。先不说真实性,或者图文的形式。所以,机器新闻将来会不会替代人工的问题,现在业界已经有一定的共识。在我们这个大数据时代,作为我们真正的媒体人,以后发展的方向或者主要具备的素养应该是什么样的?

    2016-07-27 16:21:02

  • 孟威:

    我想,在数据新闻的一个环境之下,对我们媒体人或者新闻人的一个挑战,主要有两个方面。一个方面,人工智能的可能性是不是能够代替人类的智力的潜能,这个方面是一个重要的方面。我们刚才说看到的有一个机器人写作的新闻,机器人写作现在也是在财经领域、体育报道领域里都开始越来越多的采纳。但是人工智能写出来的东西,一方面就是一种算法或者机器生成的一种报道模式,这种模式有一定的模板,有一定的规范,写作出来可以说同质化的倾向比较清楚的,它是一个有固定程式的机器生成的东西,这种东西与其说是进行智能创作和写作,不如说是一种编辑,是一种它所采纳出来的数据资源的编辑。这样一种生成就牵扯到到一个哲学的问题,人创造出了这样一种技术的可能性,但同时人的智力依然是原生态、自然的东西,人工的东西和自然的东西才能和谐的共存,两者怎么能够交融在一起,把新闻做的更好,这是我们应该思考的问题。在这个领域里面,我想,人的这样一种智力,比如对新闻的开发、对于不同想法,因为人是不同的,思维可能是发散的,表现出来的形态也是不同的,在做深度新闻或者做新闻的阐述、评论的过程中,我想这是机器所不能替代的。这是一个方面。

    再有一个方面,就是一种情感的因素。机器对于人来说是平等的,是科学主义的,就是极端的科学化的,这些东西通过数据生成出来之后,给我们一种感受,这种感受不能替代人工写作所给人们的这样一种人文的感受、一种情绪的感受、一种社会文化传承的感受,我们之所以策划数据新闻的选题,因为只有我们人才能考虑得到、才能思索到,我们所要发掘的这些主题,比如和平、文明、爱情,这只有人工才能产生的。虽然是机器在面临人的时候,它能够打败一个人,但是这样的电子狗,背后还要有人的手来牵制它。所以说在这个过程中,我们的文化素养和专业化的素养是我们今后核心竞争力的关键。

    2016-07-27 16:22:03

  • 主持人:

    这是我们正统的一个答案。换一个角度问王总,王总平时和机器接触得多,还是和人接触得多?

    2016-07-27 16:24:10

  • 王叁寿:

    说一个小故事,让大家感受一下到底大媒体和新媒体之间怎么融合。不知道台下各位朋友有没有炒股的。现在如果在美国,大家都知道在华尔街有一批人做高频交易的,高频交易最关键的就是一定要很快速地获取50字以内的资讯,因为他没有时间看很多,比如这篇文章一旦超过50字就没有时间看了。高频交易员抢的是时间,可能0.01秒下单和0.1秒下单最后赚的钱一定不一样多,甚至你是亏损,就像你上一秒钟可能还赚了一百万,下一秒钟交易速度没有那么快的话,就不会赚到那么多,这就是0.1和0.01秒的区别。现在美国一些新闻界可以做到哪一点呢?可以用机器把一个5000字的新闻立刻提出来50字,而这个工作绝对是人做不到的,为什么?海量的数据太多了。我想,大家在一些手机上会装过同花顺和东方财富网,你们有没有发现一个问题,当你关注自选股的时候,新闻是不是自动推送给你的,其实现在同花顺和东方财富网给你推送的新闻,还是经过了一定的人工编辑才推送给你的。现在在美国的华尔街基本都是机器,一个5000字的资讯,不管这5000字的资讯从哪儿过来的,一秒钟或者当时立刻就把5000字的资讯通过机器学习,立刻提出来50字,这是讲的一个小的例子。

    2016-07-27 16:25:32

  • 王叁寿:

    第二个例子,万变不离其宗,机器学习总要有一个出处,我可以畅想一下,未来中国媒体行业会发生一个什么格局呢?一个水池子或者几个水池子加一千个网络传播的末梢,加一百万个自媒体公众号,以后中国媒体的格局应该就是这样一个格局。不管说今天腾讯做了一个媒体机器人,后天搜狐做了一个媒体机器人,总要有抓的地方,去哪里抓呢?一定是去一个水池子里抓,这是不是人民日报做“中央厨房”的一个战略?就是总要有一个地方来抓,关键这个地方就是生产这个东西的,我就是生产5000字资讯的,那又怎么样呢?你可以让你的机器人来我这里抓东西,但是你抓的时候要给我钱。这就是关于商业模式的问题。我为什么说中国在这样一个媒体环境下,类似于哪个媒体还能再投入很多钱做这种“中央厨房”呢?我觉得这是很难复制的。我举一个实际的例子,九次方大数据目前是汤森路透中国最大的数据供应商,它在做媒体报道的时候,大家偶尔在终端上可以看到“汤森路透Eicon”和“汤森路透One”(音)这些媒体平台的时候,基本上可以看到图表数据来源,九次方大数据的英文名字。汤森路透是用一张图表给我们11元美金,大概就是这样一种方式。到了叶总这儿,叶总说,你得给我们钱,我说这是什么逻辑呢?当它有这样一个地位,我这是一个水池子,你不来我们这儿就没有一个出口,我们两家还在谈,活现在可以开始干了。我们现在这种逻辑,未来的话,不知道有这样一家机构,就是向全中国1000家媒体提供有质量的资讯,数据也好、图表也好,有质量的大数据的新闻也好,我就可以跟你要钱了,为什么不能要钱呢?

    2016-07-27 16:26:55

  • 主持人:

    另外一个问题。媒体花了这么大的资金和经历投入这么大的资本,我们自己在享用数据新闻的时候,这样的模式会是什么样的?

    2016-07-27 16:28:23

  • 叶蓁蓁:

    王总讲到了人工智能机器人把5000字变成50字,未来我们“中央厨房”就有这样的人工智能的东西,我们做的人工智能方向和新华社做的是两个方向,他们做人工智能机器人写消息,因为他们是消息总汇,我们全媒体平台做的是人工智能做摘要,就是把50万、100万字的资料抽象成2000、3000字,供大家写稿的时候参考,这比较容易一些,不用做那么多大量的阅读和资料的整理。所以,我们在做这个方向的东西。说到盈利模式,说实话,我们内心里面是有一个我认为是划时代的媒体行业的引领模式,但是这个模式是对传统新闻载体模式的颠覆。

    2016-07-27 16:29:44

  • 主持人:

    现场做一个调查,两会的一些报道我们都看到一些其中的魅力,假如以后叶总说我们人民日报会出现很多优秀的产品,但是让你们掏钱了,有多少人愿意买?

    2016-07-27 16:30:36

  • 叶蓁蓁:

    第一,我们做的内容产品99%的一定是免费的。第二,“中央厨房”和中央媒体和地方媒体合作的时候是有少量收费的,我们理想是在尽量短的时间内实现“中央厨房”全免费,我们有一些构思。

    2016-07-27 16:31:04

  • 主持人:

    机器写作在一定程度上替代人工,但是相对有局限性,比如财经、体育预测性的新闻,但是涉及到社会、人文或者人文关怀的东西,还是人的价值永远不可能替代得了的。以后媒体人的培养,在这种大数据时代,应该具有哪些素养或者要求,或者您作为人民日报来招人的时候,更希望招什么样的人?

    2016-07-27 16:32:22

  • 叶蓁蓁:

    我本身不是学新闻的,也不是学技术的,但是我做了18年的新闻,现在做了2年的技术。所以,我觉得其实在媒体这个行业或者在如今这个时代,很多时候更重要的是你的学习能力,以及你的开放的思维,始终不要太轻信自己所相信的那个东西是正确的、是唯一的。就像你刚才讲的,人工智能不能替代人类记者写稿,现在为了鼓励同行,我也会这么去讲,但是对这个结论,说实话,我是抱着谨慎的态度。因为当你了解到人工智能的发生机制的时候,它的背后机理的时候,你会发现其实未必。就是说,为什么不可以写有创造性的文字,不可能写评论,为什么不可以同样有人类共同认可的那些伦理在它的表达里体现。它可以的。我们尝试了人工智能的产品,但是后来我们担心会涉及到一些版权问题,因为技术的来源有些复杂,所以我们后来放弃了,但是在这个过程中,我们已经触摸到了一些让我们觉得比较可怕的东西。就是说机器的学习能力,会远远超出你的想象,只要人类社会在发声、只要在虚拟世界里传播,机器都可以学会,它装扮成人的样子去对话。当我们用人民日报评论员的语气评论新闻的时候,当你的料够的时候,机器就可以模仿人去评论下一个新闻,一点都不难,现在的技术已经具备这样的能力,只是你有没有往这个方向去开发。

    2016-07-27 16:33:38

  • 主持人:

    这个观点让我们挺震惊的,在技术这样一个时代,我们媒体人的要求不是来解放我们的生产力,反而提升到了一个更高的要求。在学术的角度上,请问孟老师,我们媒体人、传媒人在专业素养上有没有什么需要学习的?

    2016-07-27 16:35:21

  • 孟威:

    现在有一种倾向,一方面有一些媒体是不太重视数据素养的培育,可能也是因为有各种的若干原因。另外一个方面,有一些媒体我觉得也是太过于看中数据的力量,数字的力量,技术的力量,有一种工具理性在里面,就是说有一点轻视人文素养的培育。从我的角度来说,当然这是一个科学的问题,还是值得探讨的。第一个说人的高级的智能,在目前来看,是不能够被机器来轻易的取代,因为机器最后智能的产生还是要人的一种力量,但完全不是说机器没有能力达到一种非常高的高度。所以,电子狗可能在棋艺的对垒中下败一个人,或者下败一群人,或者下败多数人,但是如果从人类不放弃的角度来说,人类的智力依然是牵着AlphaGo那一只手,这是我目前的一个观点。

    第二个,在我们运用这种数据、重视这种数据素养的同时,人文的素养是不应该放松的,因为在网络的媒体上,有许多的比如像“标题党”的一些东西,比如说一些大尺度的东西,包括一些侵犯隐私的对象,有一些技术的设施是无法回避的。技术的最根本的东西,它是科学主义的东西,是精确到极致的,设计成什么样子,就出来什么东西,所以机器显得比较冰冷的,这反映了科学主义的另一面。在这样一个基础之上,我们作为一个专业人士,我们自身的文化素养,包括我们自身的文字的能力,有我们的人文的素质,历史的传承,传统的延续这样的人文的关怀在里面,这个方面是我们的专业精神,还有职业伦理,这是我们所需要加强的。

    2016-07-27 16:36:27

  • 主持人:

    非常感谢几位嘉宾,今天围绕大数据与新闻表达,从不同角度进行探讨。现在时间交给大家提问。

    2016-07-27 16:38:24

  • 提问:

    感谢各位老师的分享,人民日报在纸媒是翘楚,广电总局在7月份颁布了一个文件,就是根据“8.18”讲话精神,推动媒体融合,特意把“中央厨房”也作为其中一个项目。在“中央厨房”实践过程中,如果“中央厨房”单独拉出一支队伍来,组建一个新闻团队,生产的内容同时提供给十几个平台,对于同质化的问题怎么解决?中央电视台也存在同样的问题。包括刚才听到的“一池水”,岂是千人一面吗?

    2016-07-27 16:38:48

  • 叶蓁蓁:

    我想这是外界对“中央厨房”最大的误解,因为做“中央厨房”这个概念有很多家在做。首先你是一个封闭的“中央厨房”,一定会出现你说的这个情况。但是,我举一个例子,今年两会人民日报“中央厨房”针对总理的政府工作报告做了29个不同的解读,大家说报纸、微博、微信、客户端、网站所有通道都可以拿不同的东西,29个,各取3个,能够形成多少个组合呢?各取5个,又能够形成多少个组合呢?就会形成很多不同的东西,大家也可以在此基础上再去做变化、进一步做深化。你觉得29个已经很多了,但是不是,这绝不是“中央厨房”的最终目标。我希望在以后“中央厨房”正式运行的时候,我们一个两会的政府工作报告有290个解读,甚至有2900种解读,这才是真正意义上的“中央厨房”,为什么?因为你的生产体系是开放的,有很多的人、工作室和团队,再从他的角度对同一个重大新闻话题进行解读,你的分发器有足够的能力把2900多种解读送达给5万人、10万人,有人愿意消费这个解读,就OK了。一个真正意义上的“中央厨房”,第一,在内容素材的来源上应该是充分开放的,能够极大的集聚很多内容素材进来。第二在内容生产加工环节应该是开放的,让很多的人、工作室、团队、媒体机构都能够共同来进行。同一个题材、同样素材进来以后,大家可以做不同的“菜品”,然后哪怕最小众的“菜品”、味道最怪的那一款“菜品”,也能够售卖给足够多的人,循环回来,支撑起前面的生产者,还有意愿未来继续做这些小众的东西,这样才是真正意义上的“中央厨房”。

    2016-07-27 16:39:35

  • 提问:

    请问孟威老师,我看过一本书提到,大海中都是水,在突发事件当中真相可以伴随着谣言,比如之前的邢台洪灾中的谣言,当这种谣言数据或者假数据和真相混在一起的时候,会不会影响一个数据新闻的准确性、影响舆情工作的研判,您觉得怎样提高数据新闻的真实性?

    2016-07-27 16:41:46

  • 孟威:

    你说的这个问题,真相和假相的混淆,我想起罗斯扎克对批判数据崇拜的一句话,他说,到处都是信息,唯独没有思考的头脑。我们在网络和新媒体时代,常常面临着这样一种窘迫的环境,在这样一种环境里,怎么样削减这种环境,就是化解这样一种危机或者一种焦虑,我想和我们刚才说的,就是提高我们专业的素质,能够把我们的真相给它筛选出来,通过技术的运用,给它更多的筛选出来,通过技术、智能、人工智能和人的智力的专业化的一种合作,能够更清晰地让大家认识到一个完整的社会的图景,这就是我们现在的新闻人和专业人所要做的最重要的工作。尤其是在我们在数据的海洋里游泳的时候,否则没有办法冲浪和弄潮。

    2016-07-27 16:42:46

  • 提问:

    传统的新闻学当中,新闻讲究五个要素,何时、何地、何事、何因、何人,但是在这种新形势下的数据新闻表达当中,好像只有这五个点不是特别明显,这是数据发展趋势,是对传统新闻的颠覆,还是说它根本不是一种新闻?

    2016-07-27 16:44:00

  • 叶蓁蓁:

    我觉得这个问题应该留给孟老师做学术的研究。我想,我在此之前,在很多场合已经很少用新闻这个词了,我经常在用内容,就是内容产品。因为,我后来越来越觉得,在媒体整体转型面向一个新的时代的时候,我们都说内容为王,但是将来我们这些原来的媒体机构能够在一个互联网吹捧发展的时代,内容为王已经不在局限于新闻了,可能我们需要越来越多的去生产不同类型的内容。这些内容当中就可能会出现您刚才提到的,如果按照新闻的定义五大类来说,有些内容不太符合这五个要素,但是它可能是你的用户非常需要的,而这些内容又可能是新闻本身延伸出来的。比如刚才说的,你什么时候会退休?假设我做了这样一个计算器,显然你要说它是新闻,不具备五个W要素,你的用户之所以会消费这个内容产品,是因为前面有一件具备五个W要素的一个热点新闻存在,所以衍生出来的一个产品,也许比新闻本身更加的有受众需求。所以,可能会出现这种情况。在我们研究媒体转型的时候,我们专门做了一个叫“16度内容模型”,就是说我们把用户可能需要的内容分成了16个方格,就是一个横轴加一个纵轴交叉形成的16度模型,希望能够给我们做内容的同行来提供一些思考和参考。

    2016-07-27 16:45:02

  • 孟威:

    我有一点感受。首先,媒体人提的问题很好,很敏锐。确实,这关系到一个新闻定义,还有就是我们怎么样理解数据时代的新闻的问题。但是我想是这样的,在理解新闻的时候,我们要把新闻和新闻的结构、新闻表现的模式区分开来。新闻,我们深入到源头去,新闻是新近的发生的事实的报道。我们在新闻领域里,直白的说就是公众应知、预知而未知的新闻。这是我们的新闻。至于新闻的结构,这恰恰是大数据时代或者说我们的数据新闻中对新闻的原来的表现结构的一种冲击。我们说原来的是“5W1H”也好、六种元素也好,有这样一种说法,我们在新闻的结构、表现的形式中强调的是“倒金字塔”的结构。现在在大数据的新闻表达中,恰恰是在构建一种“正金字塔”的结构,就是说我们原来是从最尖端的、最小的一个局域说到最广的社会层面,从最新鲜的说起,说背景和整个表述,最后说相关的事态。可是我们现在说数据新闻建立的联系是怎么建立起来的呢?是我们通过数据的海洋,从社会性的层面建立起我们的社交层面,然后建立起群体层面,最后到你的联系的层面,所以是一个正金字塔的一种新闻的表达。这恰恰是大数据时代数据新闻对于新闻表达或者新闻结构的一种贡献或者是一种创新。所以,它不影响到我们对于新闻本身这种理念的判断。

    2016-07-27 16:47:56

  • 主持人:

    非常谢谢几位嘉宾的分享。由于时间的关系,我们的提问环节到此结束了。今天大家坐到这里,我更想把大家当成大数据新闻表达的观察者和参与者,希望通过这两个小时的讨论,让大家都能成为大数据时代的实践者和受益者。再次感谢大家的参与。

    2016-07-27 16:50:48

图片内容:

图片大图:

  • 《网络传播》杂志主办第11期网络传播沙龙:大数据与新闻表达

    中国网 郑亮

  • 人民日报媒体技术公司总经理叶蓁蓁

    中国网 郑亮

  • 九次方大数据创始人王叁寿

    中国网 郑亮

  • 中国社科院网络新媒体研究室主任孟威

    中国网 郑亮

  • 沙龙主持人介绍嘉宾

    中国网 郑亮

  • 人民日报媒体技术公司总经理叶蓁蓁分享数据新闻实践心得

    中国网 郑亮

  • 第11期网络传播沙龙现场

    中国网 郑亮

  • 第11期网络传播沙龙:大数据与新闻表达

    中国网 郑亮

  • 第11期网络传播沙龙:大数据与新闻表达

    中国网 郑亮

  • 九次方大数据创始人王叁寿发言

    中国网 郑亮

  • 人民日报媒体技术公司总经理叶蓁蓁发言

    中国网 郑亮

  • 中国社科院网络新媒体研究室主任孟威发言

    中国网 郑亮

  • 沙龙嘉宾相互交流

    中国网 郑亮

  • 沙龙现场

    中国网 郑亮

  • 《网络传播》杂志主办第11期网络传播沙龙现场

    中国网 郑亮

  • 第11期网络传播沙龙:大数据与新闻表达

    中国网 郑亮

  • 九次方大数据创始人王叁寿发言

    中国网 郑亮

  • 人民日报媒体技术公司总经理叶蓁蓁发言

    中国网 郑亮

  • 中国社科院网络新媒体研究室主任孟威发言

    中国网 郑亮

  • 沙龙嘉宾相互交流

    中国网 郑亮

  • 媒体记者向嘉宾提问

    中国网 郑亮

  • 人民日报媒体技术公司总经理叶蓁蓁回答记者提问

    中国网 郑亮

  • 媒体记者向嘉宾提问

    中国网 郑亮

  • 中国社科院网络新媒体研究室主任孟威回答记者提问

    中国网 郑亮

文字实录 查看全文  正序 倒序 刷新

打印 合并称谓 显示时间