訂閱
糾錯
加入自媒體

AI的數據、算法、算力“輪流坐莊”,NLP到了“數據為王”的時代

2020-05-09 08:33
智能相對論
關注

工作人員齊整坐好,每個人都對著電腦全神貫注,一件又一件的“東西”在眼前劃過,經過標準化處理就轉到下一流程……這實際上是人工智能行業里的數據標注辦公區一角。

由于深度學習的研究方向,人力密集型的數據標注工作是推進人工智能技術落地的重要環節之一。

很長一段時間以來,在過往AI的發展中數據的采集與標注行業沒有過多地被關注,畢竟,與算法、算力這些高大上的東西相比,AI數據的生產總帶著那么幾分與AI技術的“科技感”截然不同的形象。

然而,隨著AI的發展走向縱深,更多人發現這是一個誤解,AI數據產業正在向著高專業化、高質量化的方向蓬勃發展。

根據2018年智研發布的《2019-2025年中國數據標注與審核行業市場專項分析研究及投資前景預測報告》,2018年該行業市場規模已達到52.55億元,2020年市場規模有望突破百億。有行業人士估計AI項目中會有10%的資金用于數據的采集和標記,2020年,數據標注行業最終市場規模將達到150億。

而分享市場的,既有BAT、京東等互聯網巨頭,也有云測數據這種專注于高質量交付的專業化數據平臺。

龐大的前景下,數據采集與標注也可以分NLP(自然語音處理)、CV(計算機視覺)等幾個部分,隨著數據需求量的增大、對數據質量要求的提高,其中的NLP越來越成為“硬骨頭”,AI數據產業終將面臨它帶來的難題,也承襲這種難題下空出的市場空間。

AI的數據、算法和算力“輪流坐莊”,NLP到了“數據為王”的時代

芯片制程以及大規模并聯計算技術的發展,使得算力快速提升后,AI能力的提升主要集中到了算法和數據上(算力提升當然還有價值,只是相對價值那么明顯了,例如不可能對一個物聯網終端設備有太多的算力設定要求)。

這方面,多年以來,人工智能技術都呈現“輪流坐莊”的螺旋提升關系:

算法突破后,可容納的數據計算量往往變得很大,所以會迎來一波數據需求的高潮;而當AI數據通過某些方式達到一個新的程度時,原來的算法又“不夠了”,需要提升。

2018年11月,Google AI團隊推出劃時代的BERT模型,在NLP業內引起巨大反響,認為是NLP領域里程碑式的進步,地位類似于更早期出現的Resnet相對于CV的價值。

以BERT為主的算法體系開始在AI領域大放異彩,從那時起,數據的重要性排在了NLP的首位。

加上兩個方面的因素,這等于把NLP數據采集與標注推到了更有挑戰的位置上。

一個因素,是NLP本身相對CV在AI數據方面的要求就更復雜。

CV是“感知型”AI,在數據方面有Ground Truth(近似理解為標準答案),例如在一個圖片中,車、人、車道線等是什么就是什么,在采集和標注時很難出現“感知錯誤”(圖片來源:云測數據)

AI的數據、算法、算力“輪流坐莊”,NLP到了“數據為王”的時代

而NLP是“認知”型AI,依賴人的理解不同產生不同的意義,表達出各種需要揣測的意圖,Ground Truth是主觀的。

例如,“這房間就是個烤箱”可能是說房間的布局不好,但更有可能說的是里邊太熱。人類語言更富魅力的“言有盡而意無窮”的特點,應用于AI時,需要被多方位、深度探索。

另一個因素,是AI數據的價值整體上由“飼料”到“奶粉”,對NLP而言這更有挑戰。

大部分算法在擁有足夠多常規標注數據的情況下,能夠將識別準確率提升到95%,而商業化落地的需求現在顯然不止于此,精細化、場景化、高質量的數據成為關鍵點,從95% 再提升到99% 甚至99.9%需要大量高質量的標注數據,它們成為制約模型和算法突破瓶頸的關鍵指標。

但是,正如云測數據總經理賈宇航所言,“圖像采標有很強的規則性,按照規范化的指導文檔工作即可,但NLP數據對應的是語言的豐富性,需要結合上下文等背景去理解和處理。”在高位提升這件事上,NLP數據更難。

例如,在訂機票這個看似簡單的AI對話場景中,想訂票的人會有多種表達,“有去上海的航班么”,“要出差,幫我查下機票”,“查下航班,下周二出發去上海”……自然語言有無窮多的組合表現出這個意圖,AI要“認得”它們,就需要大量高質量的數據的訓練。

1  2  3  下一頁>  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

文章糾錯
x
*文字標題:
*糾錯內容:
聯系郵箱:
*驗 證 碼:

粵公網安備 44030502002758號

电竞投注竞彩app