精耕細作的數據標注產業,能否幫中國AI大模型構筑獨特優勢?
文/觀察者網 張廣凱
【資料圖】
具備高度智能的ChatGPT,能否正確運用自己海量的知識,卻要取決于一群時薪不到2美元的肯尼亞勞工。
他們所做的工作--數據標注,不僅是ChatGPT能夠領先競爭對手的重要原因,也有著重要的倫理意義。數據標注師們自己的價值觀,同樣決定了人工智能的價值觀,決定了AI能否被善意地運用。
在百度智能云數據標注基地業務產品負責人胡馳看來,人工標注將是大模型訓練中絕對無法被替代的一部分。
而對于中國大模型企業來說,這項嚴重依賴勞動力個人素質的工作,或許也是獨特的競爭優勢所在。
近日,百度在中文大模型的數據標注產業建設上邁出重要一步。
100%本科學歷,百度數據標注卷到新高度
日前,位于海口市秀英區的百度智能云(海口)人工智能基礎數據產業基地正式啟動運營,這是百度智能云與海口市政府合作共建的國內首個大模型數據標注中心。
百度智能云海口人工智能基礎數據產業基地
百度智能云大模型數據標注師董志煥介紹到:"我們的主要工作就是對大模型生成的內容進行評價、反饋,通過這些人工標注數據,讓大模型學習人類的思維方式,從而使大模型更加聰明。"
當前,大模型正處在產業落地前期,高質量的數據,是大模型實現產業化的關鍵要素。以ChatGPT、文心一言為代表的生成式AI,不僅需要海量的數據訓練,更需要人工標注、指令微調、基于人類反饋的強化學習(RLHF),才能夠讓大模型與人類價值觀、思維方式不斷對齊,使大模型更加可用。
為此,百度智能云升級了大模型數據服務能力,建設了國內首個專業大模型數據標注基地。
截至目前,百度智能云已經在全國與各地政府合作,共建了十多個數據標注基地,累計為當地提供超過1.1萬個穩定就業崗位,間接帶動5萬人就業。
但是相比于傳統的數據標注,語言類大模型對勞動者技能提出了更高的要求。海口數據標注基地現擁有數百名專職大模型數據標注師,標注師的本科率達到100%。
"和傳統的數據標注師要求不同,大模型標注師都需要本科以上學歷,我覺得主要是因為大模型數據涉及的知識面很廣,評判標準復雜,非常考驗標注師的語言理解能力和邏輯推理能力。在入職的前兩個月,公司會對我們進行集體培訓和考核,通過考核后才能正式上崗。"百度智能云大模型數據標注師王潔玉說。
標注師劉小瑩畢業于一所普通本科學院的漢語國際教育專業。她對觀察者網表示,自己的專業原本就業方向較窄,就業壓力大,而大模型標注產業卻剛剛傾向于招收漢語言、新聞傳播等專業畢業生,為自己提供了新的就業方向。
海口市秀英區委常委、常務副區長石晟屹表示:"海口人工智能技術數據產業基地的落成,最大的價值是在人才集約、產業集聚等方面有重要的引領作用。在不到一年的時間,基地已經帶動近千人的大學生就業,對培育本地的數字經濟人才做出了突出貢獻。同時,引入百度這樣的科技企業,將持續帶動數字產業化項目落地,也會為傳統產業的轉型升級帶來新的戰略契機和發展機會。"
百度智能云海口人工智能基礎數據產業基地 作業區
不只靠堆人力,中國數據標注如何精耕細作?
盡管數據標注聽上去是一個依賴簡單重復勞動的工作,但是一旦深入工作細節便會發現,它同樣需要很高的技術含量。
事實上,以Scale AI為代表,海外已經誕生了一些數據標注行業的獨角獸公司。2022年,Scale AI營收達到2.9億美元,毛利率更是高達70%。
Scale AI不僅僅在使用非洲等地的廉價人力資源,同樣還招聘了數十名博士,來應對各行業的專業數據。數據標注質量,是Scale AI為OpenAI等大模型企業提供的最大價值。
百度也正在全面提升中文大模型的標注質量。
劉小瑩向觀察者網介紹,除了自己負責的第一道標注工序之外,層層審核也是保證標注質量的重要環節。在數據標注公司內部,有資深標注師對所有標注數據進行全面復核,而百度自己也有龐大的審核團隊,最終把握數據質量。涉及到專業領域知識時,也有相關行業專家提供支持。
據了解,百度智能云沉淀了多領域專家資源,針對來自不同行業的數據服務需求,百度智能云可快速搭建專家團隊,對特定領域的任務提供監督微調和強化訓練數據,保證數據交付質量,目前已覆蓋計算機、法律、醫療等領域。
此外,百度智能云還組建了專業的數據咨詢團隊,從前期的數據收集、數據清洗,再到數據管理、數據回流,可為企業提供全流程的咨詢服務,幫助企業在智能化轉型過程中少走彎路。
百度自研的高效標注系統,則進一步提升了數據標注效率。
胡馳表示,為提高數據標注的質量和效率,百度智能云自主研發了業內領先的大模型數據標注平臺,支持從大模型微調、強化學習到模型評估的數據生產閉環。在人工標注之前,平臺會首先進行自動化的預審核,對數據的行業特征進行分類,確保數據交到更合適的審核員手上。
結合平臺獨有的人機協同標注、多輪智能審核等智能化工具,百度可大幅提升數據標注的產能和質量,同時幫助企業實現降本增效。
數據安全也始終是重中之重。胡馳表示,百度智能云不僅可提供高安全性的端到端數據服務,標注平臺還支持私有部署,通過與基地資源聯動,為客戶提供多樣化的數據安全方案。
"大模型標注基地重點要評估三大指標:高效標注工具、高端人才梯隊、高級別數據安全,只有三管齊下,才能為大模型提供好的數據。"胡馳說。
隨著數據標注基地等"智能新基建"的建設,百度"千帆大模型平臺"將更好地向社會提供服務。
據悉,百度智能云將在9月全面升級大模型服務。8月,百度智能云宣布,千帆大模型平臺升級,接入包括文心一言、Llama 2全系列、ChatGLM2-6B等在內的33個國內外最主流的大模型,成為國內擁有大模型最多的平臺。
(文中劉小瑩為化名)
標簽: