近日,由我國智能科學(xué)技術(shù)領(lǐng)域權威學(xué)會(huì )中國人工智能學(xué)會(huì )主辦的“第三屆中國‘AI+’創(chuàng )新創(chuàng )業(yè)大賽”完美收官。在“自然語(yǔ)言處理技術(shù)創(chuàng )新大賽——中文文本糾錯比賽”賽道中,力維智聯(lián)Sentosa團隊從眾多企業(yè)和高校團隊中脫穎而出,獲得了大賽第三名,前兩名分別是蘇州大學(xué)&阿里巴巴達摩院聯(lián)合團隊、清華大學(xué)團隊。
在新聞出版行業(yè),由于出版種類(lèi)和數量的大幅增長(cháng)、傳播渠道的多樣化、知識替代和更新的日益加速,以及中國語(yǔ)言文字的靈活性等原因,審校工作難度越來(lái)越大。而內容質(zhì)量又是出版物的靈魂所在,如果完全由人工進(jìn)行編校質(zhì)量把關(guān),勢必影響工作效率。
此次文本校對任務(wù)主要是針對文本中出現的錯誤進(jìn)行檢測和糾正,屬于綜合性的自然語(yǔ)言處理研究子方向,能夠比較全面地體現自然語(yǔ)言處理的技術(shù)水平。賽題主要選擇互聯(lián)網(wǎng)上中文母語(yǔ)寫(xiě)作者撰寫(xiě)的網(wǎng)絡(luò )文本作為校對評測數據,從拼寫(xiě)錯誤、語(yǔ)法錯誤、語(yǔ)病錯誤等多個(gè)方面考察機器的認知智能能力。
針對比賽任務(wù),力維智聯(lián)依托Sentosa數據科學(xué)與機器學(xué)習平臺(DSML),以預訓練模型BERT和ELECTRA為基礎,通過(guò)對拼寫(xiě)、語(yǔ)法、標點(diǎn)錯誤的任務(wù)分解與模型串聯(lián)進(jìn)行訓練與預測。在這個(gè)過(guò)程中,Sentosa團隊針對語(yǔ)法與標點(diǎn)錯誤,提出兩種不同的數據增廣方式,提升了數據質(zhì)量,也提高了模型的泛化能力。
力維智聯(lián)基于Sentosa平臺,依據行業(yè)規范、標準和業(yè)務(wù)知識,開(kāi)發(fā)出智能審校產(chǎn)品,輔助用戶(hù)快速準確發(fā)現文稿中的字詞錯誤、語(yǔ)法錯誤、標點(diǎn)錯誤等問(wèn)題,幫助用戶(hù)提升校對質(zhì)量及審稿效率,確保內容安全生產(chǎn)。后續,力維智聯(lián)將充分利用人工智能大數據技術(shù),在文本糾錯、知識提取、古文句讀等方面持續發(fā)力,促進(jìn)中文自然語(yǔ)言技術(shù)發(fā)展,助力出版行業(yè)數字化轉型。