閱讀率與人工稿件基本持平 機器寫作正逐漸被接受

文章來源:中新網
字體:
發布時間:2019-12-10 02:50:33
訪問量:

  近幾年,機器寫作不再是紙上談兵的技術,已然滲透到了我們的生活之中。今日頭條、騰訊、百度、360等公司,以及新華社、南方都市報、第一財經等傳統媒體單位均開展了機器寫作技術的研究與應用。

  不久前,在北京大學科技成果發布會暨北京市科技成果轉化統籌協調與服務平臺系列項目路演中,北京大學計算機科學技術研究所研究員萬小軍的AI寫作機器人頗受關注。

  據介紹,這項成果已應用于多家媒體單位,研發單位與各媒體單位合作推出了小明、小南、小柯等多款寫作機器人,各類機器人已經自動撰寫新聞稿件十萬多篇。

  除了新聞寫作,還能應用于這些領域

  機器寫作,又稱自然語言生成,是自然語言處理領域的重要研究方向和研究熱點之一, 也是人工智能走向成熟的重要標志之一。

  目前,機器寫作在傳媒、出版、文娛、廣告等多個行業均具有廣闊應用場景。歐美等地較早成立專注于機器寫作技術應用的多家公司,例如ARRIA、AI、NarrativeScience等基于行業數據,通過機器寫作生成行業報告或新聞報道,從而節省大量人力。同時,不少國外知名媒體單位紛紛采用機器寫作技術進行新聞稿件創作,以節約人力成本,提高效率。

  “與人類作者相比,機器寫作具有效率高、時效性好、覆蓋性強、無偏見等優勢。今日頭條的線上測試表明,機器人撰寫新聞稿件的閱讀率與人工稿件的閱讀率基本相同,這說明機器稿件的質量不錯,能夠被廣大用戶所接受。”萬小軍告訴記者。

  萬小軍說,我們希望計算機同時具有讀與寫的能力,除了掌握閱讀和理解語言文字的本領之外,還能夠掌握文字創作的本領,從而像人類一樣寫出高質量的文字作品,例如新聞資訊、報告、詩歌、小說、作文等。

  然而,計算機不能憑空寫作,必須根據所輸入的數據與素材進行創作。據介紹,根據輸入的不同類型的信息,計算機一般采用不同的寫作方式進行創作。例如,計算機根據輸入的結構化數據(報表、RDF數據等)進行文字創作,從而能夠生成稿件。這是目前機器寫作應用的主要方式,適用于天氣預報、醫療報告、賽事簡訊、財經報道等文本的生成。

  萬小軍介紹說,近幾年機器寫作除了用于撰寫新聞、報告等實用型文本之外,還被用于創作古詩、現代詩、散文等文學作品,例如微軟小冰、清華九歌等系統分別能夠創作現代詩和古詩,在文字表現形式上的總體效果還不錯,但在意境上有所欠缺。

  深度學習生成模型,但還難保準確性和可讀性

  近幾年,深度學習發展迅速,機器寫作技術也受到其深刻影響。

  據萬小軍介紹,基于深度學習技術進行文本生成,不依賴于模板或規則。然而,這樣的寫作方式雖然在研究上取得一定進展,但目前還不能保證所生成稿件的準確性與可讀性,難以滿足很多應用場景下對稿件的質量要求。此外,深度學習生成的模型訓練需要大量的平行語料,而在很多領域內較難獲取到這樣的大規模語料。

  計算機根據已有的文字素材(例如已經發表的新聞)進行二次文字創作時,能夠基于已有稿件創作出不一樣的稿件,主要依賴于兩類自然語言處理技術:自動文摘與文本復述。其中自動文摘用于對單篇文本或多篇文本進行內容提煉與綜合,形成摘要或綜述。

  萬小軍指出,多文檔自動文摘比單文檔自動文摘更具有挑戰性,原因在于不同文檔內容的冗余性、片面性與弱連貫性。因此,對多篇新聞報道進行長篇綜述生成極其困難,其研究團隊在這方面進行了嘗試,提出基于段落排序與融合的方法為多篇新聞報道進行綜述生成,取得一定效果。

  文本復述則用于對現有文字進行改寫,在主題與意思基本不變的前提下產生另一種文字表述,從而避免原文照抄,也可實現文本風格化的目的。文本復述可以看作是一種單語言機器翻譯問題,因此在平行語料充足的前提下,各種統計機器翻譯方法(包括神經網絡機器翻譯)均可應用于此問題。但現實中卻難以獲得大規模的此類平行語料,因此針對文本復述的研究需要另辟蹊徑,最新的研究主要集中在如何有效利用少量的平行語料和大規模的非平行語料進行復述模型的學習。( 本報記者 華 凌)

??
'); })(); 玛雅幸运轮救援彩金 金猪配资 10分赛车 |app平台 20选5开奖结果i 欧美av女演员名单 四川快乐十二开奖走 快乐赛车走势教学 湖北30选5开奖公告95期 富赢网配资 麻将赌博手法 天津快乐10分钟开奖查询 青海11选5开奖全部结果查询 福彩3D最近2000期走势图 2019亚洲天堂最新地址 红中麻将代理加盟 快乐赛车计划软件 黑龙江p62今天开奖结果查询