隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)上社交媒體、直播、短視頻每日上傳的圖片超過10億張,發(fā)文數(shù)量超過5億條。不少色情、暴力等內(nèi)容成為各大網(wǎng)站頭疼的問題,聘用大量的人工鑒黃師也為企業(yè)增加了許多負擔。近日阿里AI鑒黃師上線,一天能鑒數(shù)億張圖片,還支持鑒別語音、視頻等,可分辨多國語言以及東北等地的方言。

據(jù)悉,2015年10月,阿里巴巴“綠網(wǎng)”上線,用人工智能識別網(wǎng)絡上包括色情、暴力在內(nèi)的違規(guī)信息,阿里AI鑒黃師應運而生。再通過大量的圖片“喂養(yǎng)”,讓它不斷的學習。阿里巴巴安全部高級算法工程師威視介紹:“最初在獲取樣本時,我們篩選了近2000網(wǎng)站、6000多萬色情圖片,經(jīng)過去重,標注1300多萬張高質(zhì)量的色情圖片,可以說這是AI鑒黃最重要的一塊基石。”

據(jù)悉,目前阿里AI鑒黃師每日可鑒別數(shù)億張圖片,識別準確率高于99.5%。還可鑒別語音、視頻內(nèi)容,可支持中文、日文、英文等多國語言,還支持東北、四川、廣東等地方言。無語義的呻吟聲也能識別出來。在實際應用中,如人工一天鑒別1萬張圖片的話,4億圖片就需要4萬人。而AI鑒黃只需將其中20萬張可疑的圖片篩出來,由人工再審一道,這需要20人即可。

阿里安全部產(chǎn)品專家念夏還表示AI鑒黃并不能完全取代人工鑒黃,相比人工審核,機器還很難理解內(nèi)容背后的深意。“最佳的審核方式是智能為主,人工為輔。人工鑒黃師群體數(shù)量少了,目前主要做打標和審查可疑圖片的工作。”