鑒信首頁
鑒信機(jī)構(gòu)
返回
認(rèn)證服務(wù)
返回
信用建設(shè)
返回
- 信用建設(shè)
  返回
  - 政務(wù)誠信
  - 商務(wù)誠信
    返回
  - 社會誠信
    返回
  - 司法公信
  - 激勵懲戒
    返回
  - 聯(lián)席會議
- 信用評價
  返回
  - 信用評級
  - 信譽(yù)評估
    返回
  - 信用服務(wù)
  - 信用品牌
    返回
  - 行業(yè)信用
    返回
- 新聞動態(tài)
  返回
  - 相關(guān)新聞
    返回
  - 其他新聞
  - 雜談拾錦
  - 鑒信信息
  - 行業(yè)資訊
    返回
  - 綠色金融
  - 金融動態(tài)
- 政策法規(guī)
  返回
  - 相關(guān)政策
    返回
  - 法律法規(guī)
- 鑒信聯(lián)盟
  返回
  - 聯(lián)盟委員會
    返回
  - 評審委員會
  - 技術(shù)委員會
    返回
  - 正能量宣教中心
    返回
- 研究發(fā)布
  返回
知識產(chǎn)權(quán)
返回
- 征譽(yù)機(jī)構(gòu)
  返回
  - 相關(guān)知識
    返回
  - 征譽(yù)簡介
    返回
  - 征譽(yù)招聘
    返回
  - 新聞資訊
    返回
- 知識產(chǎn)權(quán)
  返回
  - 商標(biāo)服務(wù)
    返回
  - 地理標(biāo)志
  - 專利服務(wù)
    返回
  - 版權(quán)服務(wù)
    返回
  - 評估鑒寶
  - 知產(chǎn)質(zhì)押
- 品牌建設(shè)
  返回
  - 品牌宣貫
  - 商標(biāo)品牌
    返回
  - 品牌資訊
  - 品牌推薦
    返回
  - 中國品牌日
  - 品牌培育
  - 品牌活動
- 聯(lián)盟合作
  返回
  - 戰(zhàn)略伙伴
  - 公開文件
- 政策法規(guī)
  返回
- 名優(yōu)創(chuàng)新
  返回
招標(biāo)投標(biāo)
返回
- 招標(biāo)代理
  返回
  - 代理機(jī)構(gòu)
    返回
  - 其他代理
    返回
- 公示公告
  返回
- 友情鏈接
  返回
- 信譽(yù)評估
  返回
  - 誠信供應(yīng)商
    返回
  - 榮譽(yù)品牌
    返回
  - 品牌單位
    返回
  - 達(dá)標(biāo)評價
    返回
- 資訊信息
  返回
- 政策法規(guī)
  返回
  - 法律法規(guī)
  - 政策規(guī)章
- 服務(wù)中心
  返回
  - 公示信息
  - 公開文件
    返回
  - 供求信息
- 政府采購
  返回
  - 綠色采購
    返回
  - 企業(yè)采購
項目服務(wù)
返回

摘要翻譯、論文寫作、信息檢索、抄襲檢測……人工智能延伸科學(xué)交流觸角

欄目：大數(shù)據(jù) 發(fā)布時間：2020-03-03

分享到：

——來源：科技日報

近日，一款看起來挺有文化的寫稿機(jī)器人上線了。它叫小柯，由中國科學(xué)報社和北京大學(xué)科研團(tuán)隊共同研發(fā)。

小柯寫的不是普通的稿子，而是中文科學(xué)新聞。據(jù)介紹，運(yùn)用自然語言處理技術(shù)，小柯以英文論文摘要為基礎(chǔ)，能夠快速寫出中文科學(xué)新聞底稿，然后由專業(yè)人士和報社的編輯進(jìn)行把關(guān)和信息完善，幫助科學(xué)家以中文方式快速獲取全球高水平英文論文中的最新科研進(jìn)展。

目前小柯的作品已經(jīng)上線。人工智能的觸角，也在伸向各個領(lǐng)域。

小柯：一個盡職的摘要翻譯轉(zhuǎn)寫者

記者發(fā)現(xiàn)，7月5日，小柯機(jī)器人發(fā)出第一篇稿子，截至8月22日記者統(tǒng)計時，小柯機(jī)器人共發(fā)稿415篇。初期更新時間距論文發(fā)表時間間隔一個月左右，現(xiàn)在可以做到當(dāng)天或隔天更新，每天更新幾篇到二十幾篇不等。所選論文來自生命科學(xué)等領(lǐng)域，涉及《自然》《細(xì)胞》《新英格蘭醫(yī)學(xué)雜志》等期刊。

記者對照分析了小柯作品《單細(xì)胞測序揭示冠狀動脈疾病保護(hù)機(jī)制》及其英文原文。新聞中，小柯先對論文主題、研究單位以及發(fā)表期刊進(jìn)行簡單介紹，后接英文原文摘要的翻譯，大致反映原文內(nèi)容；翻譯時會對原文進(jìn)行適當(dāng)?shù)恼Z句簡化，同時在對專業(yè)詞語的翻譯上也使用了如“血管平滑肌細(xì)胞”“保護(hù)性纖維帽”等專業(yè)表述。

不過，這也不全是小柯的功勞，因為稿件發(fā)出前，還有人工審校這一步驟。北京大學(xué)計算機(jī)科學(xué)技術(shù)研究所研究員萬小軍團(tuán)隊負(fù)責(zé)小柯的系統(tǒng)總體設(shè)計與聯(lián)合技術(shù)攻關(guān)。他告訴記者，目前機(jī)器翻譯系統(tǒng)的性能很大程度上依賴于其所使用的訓(xùn)練數(shù)據(jù)，即平行語料。目前的平行語料多為新聞?wù)Z料，因此訓(xùn)練得到的機(jī)器翻譯模型對于日常新聞的翻譯效果較好。但學(xué)術(shù)文獻(xiàn)（比如生物學(xué)術(shù)論文）與日常新聞在用詞造句等方面都有較大差別，機(jī)器翻譯系統(tǒng)對于學(xué)術(shù)文獻(xiàn)翻譯的效果并不理想。

這一次，他們通過融合領(lǐng)域知識進(jìn)行語句智能篩選，選擇適合大眾理解的語句，并基于語句簡化提升語句翻譯質(zhì)量?！坝⑽膶W(xué)術(shù)論文摘要適合專業(yè)科研人員閱讀，但摘要中的語句并不都適合寫到科學(xué)新聞中面向大眾傳播，因此需要結(jié)合編輯提供的先驗知識，采用計算機(jī)算法對語句進(jìn)行篩選，保留適合進(jìn)行大眾新聞傳播的語句?！比f小軍說。

自然語言處理技術(shù)不只能讓機(jī)器人寫稿

研發(fā)小柯用了半年時間，萬小軍表示，和一般寫稿機(jī)器人相比，一個好的跨語言科技新聞寫稿機(jī)器人需要進(jìn)行兩次重要的信息轉(zhuǎn)換過程：一次是不同語言的轉(zhuǎn)換，將英文文本轉(zhuǎn)換為中文文本；另一次是語言風(fēng)格的轉(zhuǎn)換，將學(xué)術(shù)型文字表達(dá)轉(zhuǎn)換為大眾能夠接受的通俗文字表達(dá)?！斑@兩次轉(zhuǎn)換都具有較大的挑戰(zhàn)性，目前并沒有完全解決。后續(xù)還需要進(jìn)一步積累數(shù)據(jù)，調(diào)整算法模型，才能取得更好的效果?！比f小軍說。

接下來，團(tuán)隊還將繼續(xù)優(yōu)化小柯，讓它寫出的科學(xué)新聞內(nèi)容更豐富，表達(dá)更生動。

當(dāng)然，翻譯撰寫科技新聞稿件，只是自然語言處理等人工智能技術(shù)在學(xué)術(shù)交流中所能大顯身手的領(lǐng)域之一。

“基本上，只要人類交流和工作過程中涉及到語言和文字的地方，自然語言處理技術(shù)都有可能發(fā)揮作用?！比f小軍說，在科研論文寫作過程中，可以借助自然語言處理技術(shù)幫助推薦參考文獻(xiàn)，并自動生成related work等章節(jié)的文字；業(yè)界也有基于自然語言處理技術(shù)自動編撰圖書的嘗試?！拔覀€人也接觸到很多很有意思也很有挑戰(zhàn)的應(yīng)用需求，但可惜的是不少需求都無法基于目前的自然語言處理技術(shù)進(jìn)行實現(xiàn)。自然語言處理技術(shù)還需要進(jìn)一步地發(fā)展和突破，我相信在未來將有更多的用武之地?！?/span>

中國知網(wǎng)常務(wù)副總經(jīng)理張宏偉長期關(guān)注自然語言處理，大數(shù)據(jù)和人工智能方面的應(yīng)用研究。他告訴記者，在數(shù)字出版和知識服務(wù)的全鏈條中，你都能看到人工智能和機(jī)器學(xué)習(xí)技術(shù)的身影。

人工智能可以對數(shù)字出版的選題策劃、協(xié)同撰稿、內(nèi)容編審進(jìn)行賦能。大數(shù)據(jù)標(biāo)注機(jī)器人則能對海量文獻(xiàn)信息資源進(jìn)行OCR文字識別，智能版面分析，知識元抽取，自動分類，自動標(biāo)引主題，自動生成摘要，自動翻譯，自動標(biāo)注引用和參考文獻(xiàn)。

人們熟悉的論文抄襲檢測，同樣需要智能技術(shù)。它不是簡單的語句重復(fù)檢測，而是要對文本內(nèi)容（包括圖片、公式、表格等）進(jìn)行語義索引，“看你在思想上有沒有抄襲別人”。如果存在不同語言之間的互抄，還需要動用“機(jī)器翻譯”。張宏偉表示，初級的語義抄襲可以由機(jī)器揪出來，不過，如果足夠有“心機(jī)”，完全用自己的語言“洗”了別人的思想，對人工智能的技術(shù)要求一下就提高了許多。目前已有利用神經(jīng)網(wǎng)絡(luò)模型對文本內(nèi)容構(gòu)建高維度語義索引等新技術(shù)出現(xiàn)，不管是中文還是英文，一律映射到一個統(tǒng)一的語義空間，實現(xiàn)真正基于內(nèi)容理解的語義級全文比對檢索。

知識庫是智慧社會的基礎(chǔ)設(shè)施

至于在學(xué)術(shù)研究中必不可少的資料索引，看似簡單，也仍然具有技術(shù)含量。

張宏偉說，數(shù)字出版和數(shù)字圖書館的資源類型非常豐富，有大量文本、圖像和音視頻數(shù)據(jù)，且數(shù)據(jù)是非結(jié)構(gòu)化的，若想對其進(jìn)行深度的挖掘利用，難度不小。

就拿常見的信息檢索來說，首先得做到結(jié)果要全，相關(guān)度要高；再進(jìn)階一步，能不能用自然語言交互的方式檢索；升級一下難度，用智能問答的方式查找信息，能否直接給出答案？“要讓檢索功能變得更貼心，計算機(jī)要‘學(xué)會’閱讀資料，總結(jié)、推理然后回答。它需要把海量的數(shù)據(jù)資源變成自己可以理解的知識庫?！睆埡陚フf。

深度學(xué)習(xí)等統(tǒng)計方法嚴(yán)重依賴于大樣本數(shù)據(jù)，然而，現(xiàn)實世界中，很多實際問題僅僅依靠統(tǒng)計方法是無法解決的，這就需要建立專門的計算機(jī)能理解的知識庫，實現(xiàn)真正的人工智能。但構(gòu)建知識庫，本身是一項極其艱難且耗時漫長的工作。畢竟，機(jī)器和人對知識的理解方式大相徑庭。

張宏偉說，像知網(wǎng)這樣的機(jī)構(gòu)正在致力于深度整合全球知識信息資源，建設(shè)世界知識大數(shù)據(jù)。也在讓文本文獻(xiàn)碎片化、網(wǎng)絡(luò)化，依據(jù)知識使用的場景，采用半自動知識抽取算法來構(gòu)建面向垂直領(lǐng)域的知識圖譜。2019年知網(wǎng)陸續(xù)推出了一些基于知識圖譜的行業(yè)智慧應(yīng)用產(chǎn)品，如醫(yī)療領(lǐng)域的臨床智能診斷，法律領(lǐng)域的智能量刑判案等。

“不過，我們在這些領(lǐng)域剛剛起步。我個人覺得，還是要少一點(diǎn)浮躁，踏踏實實做一些基礎(chǔ)性的工作。沒有知識的支撐，就談不上‘智慧’。” 在張宏偉看來，知識庫和人工智能，本身就是互相促進(jìn)、相互賦能的關(guān)系。構(gòu)建知識庫需要人工智能，而人工智能的發(fā)展，也離不開知識庫。怎么將人類的知識庫轉(zhuǎn)換成計算機(jī)能理解的知識庫是人工智能的核心問題，面臨許多困難，需要學(xué)術(shù)界和產(chǎn)業(yè)界共同努力。（記者張蓋倫陸越）

上一篇：大數(shù)據(jù)讓稅收更“有數(shù)”

下一篇：風(fēng)云衛(wèi)星、天氣雷達(dá)、自動氣象站構(gòu)成一張“大網(wǎng)”——國之重器讓臺風(fēng)“無所遁形”

TOP

QQ客服1

QQ客服2

QQ客服3

QQ客服4

0591-87525825

0591-87528923

fjsxwf

2678050333@qq.com

摘要翻譯、論文寫作、信息檢索、抄襲檢測……人工智能延伸科學(xué)交流觸角

——來源：科技日報

摘要翻譯、論文寫作、信息檢索、抄襲檢測……人工智能延伸科學(xué)交流觸角