近日,由中國中文信息學會(CIPS)、中國計算機學會(CCF)聯手百度公司共同舉辦的“2018機器閱讀理解技術競賽” 圓滿落幕。來自全球各地的1062支參賽隊伍,在百度提供的中文閱讀理解數據集基礎上,對測試問題進行不斷探索,使得參賽系統水平得到顯著提升。大賽更多信息可登錄2018機器閱讀理解技術競賽官網http://mrc2018.cipsc.org.cn/查看。賽后,獲獎選手紛紛表示,百度向大眾開放大規模中文閱讀理解數據集意義深遠。

共享優質數據集 百度直擊行業數據缺失痛點
在機器學習領域,數據是機器學習的原料,也是推進行業結構轉型升級的燃料,而對于個人研究者與高校學子來說,數據缺失成為研究的困境所在。作為最大的中文搜索引擎,百度在數據方面具有得天獨厚的優勢。2017年底,全球規模最大的“BROAD”百度AI公開數據集計劃(Baidu Research Open-Access Dataset)正式啟動,百度面向公眾開放包括室外場景理解數據集、視頻精彩片段數據集、閱讀理解數據集3個數據集。
來自北京大學Dlib實驗室的尹伊淳正是在閱讀了百度DuReader數據集的論文后,才選擇參與到本次百度機器閱讀理解技術競賽中的。這批公開的、大規模、高質量的真實數據集大大激發了他對于這項工作的興趣,使得他在最終角逐中獲得了總排名第二的好成績。
本次機器閱讀理解競賽中百度提供給參賽者的,正是面向真實應用場景的大規模閱讀理解數據集。該數據集是迄今為止最大的中文閱讀理解數據集,其中包含來自百度搜索的30萬個真實問題,每個問題對應5個候選文檔文本,以及人工撰寫的優質答案。東北大學自然語言處理實驗室知識圖譜團隊在賽后表示,“數據集的開放使得機器閱讀理解系統得以映射到真實的使用場景中。”對于機器閱讀理解技術研究者而言,百度數據集彌合了國內的真實場景語料多文檔閱讀理解數據集的空白,也為加速AI產品落地帶來了啟示。更多數據集論文可登錄https://arxiv.org/abs/1711.05073查看,供業界交流使用。
獲獎團隊好評如潮 百度數據集帶來真實創想
在比賽中,選手們依托百度閱讀理解數據集,參賽系統整體水平得到了顯著提升。比賽期間排行榜高分不斷刷新,ROUGE-L評價指標由最初的35.96提升至終賽的63.38,接近半數的系統結果超過了基線系統。
賽后,就百度數據集的數量與質量,本次機器閱讀理解技術競賽的獲獎團隊,給出了一致好評。選手們紛紛表示,面向真實場景的大型閱讀數據集,為自然語言研究引入了寶貴的創想。
最終在競賽中拔得頭籌的北京奇點機智科技有限公司(Naturali)團隊表示,此次比賽數據集聚焦于實用場景,問題來源于真實用戶,類型多樣,其中來源于真實網絡文檔的數據,有別于經過精心編輯的文檔,更有利于機器閱讀理解研究“從理想照進現實”。
面向高校開源不斷 百度助力AI人才培養與升級
作為一名機器學習方向的研究生,來自上海理工大學的王忠萌選手此前的研究材料以各種英文數據集為主。競賽中與百度數據集的交匯,點燃了他對中文機器閱讀理解的興趣。正如評測委員會成員劉凱所說,此次競賽提供的數據,將幫助參賽者挖掘更多中文閱讀理解問題,同時更深入地接觸到實際的應用需求,最終起到引導參賽者關注中文機器閱讀理解的目的。
百度中文數據集的公開,只是百度數據集分享計劃的一小部分。百度通過本次競賽為學術界和工業界提供了一個公開的閱讀理解技術交流平臺,將大量優質的數據集與研究成果將觸達到更多高校學子和企業研究人員,降低了AI研究的門檻,使得個人研究者也能積極參與到系統研發與調試中去。這不僅直接推進了AI技術的發展進度,還將大量潛在的AI人才吸引到行業之中,培養與成就更多中國人工智能領域的精英技術人才,打造優良的行業生態。
特別提醒:本網內容轉載自其他媒體,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。
站長資訊網