精耕細(xì)作的數(shù)據(jù)標(biāo)注產(chǎn)業(yè),能否幫中國AI大模型構(gòu)筑獨(dú)特優(yōu)勢?
文/觀察者網(wǎng) 張廣凱
【資料圖】
具備高度智能的ChatGPT,能否正確運(yùn)用自己海量的知識(shí),卻要取決于一群時(shí)薪不到2美元的肯尼亞勞工。
他們所做的工作--數(shù)據(jù)標(biāo)注,不僅是ChatGPT能夠領(lǐng)先競爭對手的重要原因,也有著重要的倫理意義。數(shù)據(jù)標(biāo)注師們自己的價(jià)值觀,同樣決定了人工智能的價(jià)值觀,決定了AI能否被善意地運(yùn)用。
在百度智能云數(shù)據(jù)標(biāo)注基地業(yè)務(wù)產(chǎn)品負(fù)責(zé)人胡馳看來,人工標(biāo)注將是大模型訓(xùn)練中絕對無法被替代的一部分。
而對于中國大模型企業(yè)來說,這項(xiàng)嚴(yán)重依賴勞動(dòng)力個(gè)人素質(zhì)的工作,或許也是獨(dú)特的競爭優(yōu)勢所在。
近日,百度在中文大模型的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)建設(shè)上邁出重要一步。
100%本科學(xué)歷,百度數(shù)據(jù)標(biāo)注卷到新高度
日前,位于??谑行阌^(qū)的百度智能云(??冢┤斯ぶ悄芑A(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地正式啟動(dòng)運(yùn)營,這是百度智能云與??谑姓献鞴步ǖ膰鴥?nèi)首個(gè)大模型數(shù)據(jù)標(biāo)注中心。
百度智能云??谌斯ぶ悄芑A(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地
百度智能云大模型數(shù)據(jù)標(biāo)注師董志煥介紹到:"我們的主要工作就是對大模型生成的內(nèi)容進(jìn)行評價(jià)、反饋,通過這些人工標(biāo)注數(shù)據(jù),讓大模型學(xué)習(xí)人類的思維方式,從而使大模型更加聰明。"
當(dāng)前,大模型正處在產(chǎn)業(yè)落地前期,高質(zhì)量的數(shù)據(jù),是大模型實(shí)現(xiàn)產(chǎn)業(yè)化的關(guān)鍵要素。以ChatGPT、文心一言為代表的生成式AI,不僅需要海量的數(shù)據(jù)訓(xùn)練,更需要人工標(biāo)注、指令微調(diào)、基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),才能夠讓大模型與人類價(jià)值觀、思維方式不斷對齊,使大模型更加可用。
為此,百度智能云升級了大模型數(shù)據(jù)服務(wù)能力,建設(shè)了國內(nèi)首個(gè)專業(yè)大模型數(shù)據(jù)標(biāo)注基地。
截至目前,百度智能云已經(jīng)在全國與各地政府合作,共建了十多個(gè)數(shù)據(jù)標(biāo)注基地,累計(jì)為當(dāng)?shù)靥峁┏^1.1萬個(gè)穩(wěn)定就業(yè)崗位,間接帶動(dòng)5萬人就業(yè)。
但是相比于傳統(tǒng)的數(shù)據(jù)標(biāo)注,語言類大模型對勞動(dòng)者技能提出了更高的要求。??跀?shù)據(jù)標(biāo)注基地現(xiàn)擁有數(shù)百名專職大模型數(shù)據(jù)標(biāo)注師,標(biāo)注師的本科率達(dá)到100%。
"和傳統(tǒng)的數(shù)據(jù)標(biāo)注師要求不同,大模型標(biāo)注師都需要本科以上學(xué)歷,我覺得主要是因?yàn)榇竽P蛿?shù)據(jù)涉及的知識(shí)面很廣,評判標(biāo)準(zhǔn)復(fù)雜,非??简?yàn)標(biāo)注師的語言理解能力和邏輯推理能力。在入職的前兩個(gè)月,公司會(huì)對我們進(jìn)行集體培訓(xùn)和考核,通過考核后才能正式上崗。"百度智能云大模型數(shù)據(jù)標(biāo)注師王潔玉說。
標(biāo)注師劉小瑩畢業(yè)于一所普通本科學(xué)院的漢語國際教育專業(yè)。她對觀察者網(wǎng)表示,自己的專業(yè)原本就業(yè)方向較窄,就業(yè)壓力大,而大模型標(biāo)注產(chǎn)業(yè)卻剛剛傾向于招收漢語言、新聞傳播等專業(yè)畢業(yè)生,為自己提供了新的就業(yè)方向。
海口市秀英區(qū)委常委、常務(wù)副區(qū)長石晟屹表示:"??谌斯ぶ悄芗夹g(shù)數(shù)據(jù)產(chǎn)業(yè)基地的落成,最大的價(jià)值是在人才集約、產(chǎn)業(yè)集聚等方面有重要的引領(lǐng)作用。在不到一年的時(shí)間,基地已經(jīng)帶動(dòng)近千人的大學(xué)生就業(yè),對培育本地的數(shù)字經(jīng)濟(jì)人才做出了突出貢獻(xiàn)。同時(shí),引入百度這樣的科技企業(yè),將持續(xù)帶動(dòng)數(shù)字產(chǎn)業(yè)化項(xiàng)目落地,也會(huì)為傳統(tǒng)產(chǎn)業(yè)的轉(zhuǎn)型升級帶來新的戰(zhàn)略契機(jī)和發(fā)展機(jī)會(huì)。"
百度智能云??谌斯ぶ悄芑A(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地 作業(yè)區(qū)
不只靠堆人力,中國數(shù)據(jù)標(biāo)注如何精耕細(xì)作?
盡管數(shù)據(jù)標(biāo)注聽上去是一個(gè)依賴簡單重復(fù)勞動(dòng)的工作,但是一旦深入工作細(xì)節(jié)便會(huì)發(fā)現(xiàn),它同樣需要很高的技術(shù)含量。
事實(shí)上,以Scale AI為代表,海外已經(jīng)誕生了一些數(shù)據(jù)標(biāo)注行業(yè)的獨(dú)角獸公司。2022年,Scale AI營收達(dá)到2.9億美元,毛利率更是高達(dá)70%。
Scale AI不僅僅在使用非洲等地的廉價(jià)人力資源,同樣還招聘了數(shù)十名博士,來應(yīng)對各行業(yè)的專業(yè)數(shù)據(jù)。數(shù)據(jù)標(biāo)注質(zhì)量,是Scale AI為OpenAI等大模型企業(yè)提供的最大價(jià)值。
百度也正在全面提升中文大模型的標(biāo)注質(zhì)量。
劉小瑩向觀察者網(wǎng)介紹,除了自己負(fù)責(zé)的第一道標(biāo)注工序之外,層層審核也是保證標(biāo)注質(zhì)量的重要環(huán)節(jié)。在數(shù)據(jù)標(biāo)注公司內(nèi)部,有資深標(biāo)注師對所有標(biāo)注數(shù)據(jù)進(jìn)行全面復(fù)核,而百度自己也有龐大的審核團(tuán)隊(duì),最終把握數(shù)據(jù)質(zhì)量。涉及到專業(yè)領(lǐng)域知識(shí)時(shí),也有相關(guān)行業(yè)專家提供支持。
據(jù)了解,百度智能云沉淀了多領(lǐng)域?qū)<屹Y源,針對來自不同行業(yè)的數(shù)據(jù)服務(wù)需求,百度智能云可快速搭建專家團(tuán)隊(duì),對特定領(lǐng)域的任務(wù)提供監(jiān)督微調(diào)和強(qiáng)化訓(xùn)練數(shù)據(jù),保證數(shù)據(jù)交付質(zhì)量,目前已覆蓋計(jì)算機(jī)、法律、醫(yī)療等領(lǐng)域。
此外,百度智能云還組建了專業(yè)的數(shù)據(jù)咨詢團(tuán)隊(duì),從前期的數(shù)據(jù)收集、數(shù)據(jù)清洗,再到數(shù)據(jù)管理、數(shù)據(jù)回流,可為企業(yè)提供全流程的咨詢服務(wù),幫助企業(yè)在智能化轉(zhuǎn)型過程中少走彎路。
百度自研的高效標(biāo)注系統(tǒng),則進(jìn)一步提升了數(shù)據(jù)標(biāo)注效率。
胡馳表示,為提高數(shù)據(jù)標(biāo)注的質(zhì)量和效率,百度智能云自主研發(fā)了業(yè)內(nèi)領(lǐng)先的大模型數(shù)據(jù)標(biāo)注平臺(tái),支持從大模型微調(diào)、強(qiáng)化學(xué)習(xí)到模型評估的數(shù)據(jù)生產(chǎn)閉環(huán)。在人工標(biāo)注之前,平臺(tái)會(huì)首先進(jìn)行自動(dòng)化的預(yù)審核,對數(shù)據(jù)的行業(yè)特征進(jìn)行分類,確保數(shù)據(jù)交到更合適的審核員手上。
結(jié)合平臺(tái)獨(dú)有的人機(jī)協(xié)同標(biāo)注、多輪智能審核等智能化工具,百度可大幅提升數(shù)據(jù)標(biāo)注的產(chǎn)能和質(zhì)量,同時(shí)幫助企業(yè)實(shí)現(xiàn)降本增效。
數(shù)據(jù)安全也始終是重中之重。胡馳表示,百度智能云不僅可提供高安全性的端到端數(shù)據(jù)服務(wù),標(biāo)注平臺(tái)還支持私有部署,通過與基地資源聯(lián)動(dòng),為客戶提供多樣化的數(shù)據(jù)安全方案。
"大模型標(biāo)注基地重點(diǎn)要評估三大指標(biāo):高效標(biāo)注工具、高端人才梯隊(duì)、高級別數(shù)據(jù)安全,只有三管齊下,才能為大模型提供好的數(shù)據(jù)。"胡馳說。
隨著數(shù)據(jù)標(biāo)注基地等"智能新基建"的建設(shè),百度"千帆大模型平臺(tái)"將更好地向社會(huì)提供服務(wù)。
據(jù)悉,百度智能云將在9月全面升級大模型服務(wù)。8月,百度智能云宣布,千帆大模型平臺(tái)升級,接入包括文心一言、Llama 2全系列、ChatGLM2-6B等在內(nèi)的33個(gè)國內(nèi)外最主流的大模型,成為國內(nèi)擁有大模型最多的平臺(tái)。
(文中劉小瑩為化名)
標(biāo)簽: