正在閱讀:

如何從海量招聘信息中破解出各職業收入變化密碼

掃一掃下載界面新聞APP

如何從海量招聘信息中破解出各職業收入變化密碼

招聘數據既容易獲得,又有非常大的信息量,回溯時間也比較長。但招聘數據也是非常難使用的數據。只通過簡單的處理,難以呈現出口徑一致、有代表性、有價值的信息。

2023年3月31日,鄭州,雙選招聘會在鄭州大學主校區舉辦,吸引數千名在校大學生到場求職。來源:視覺中國

文丨陳沁(脈策數據首席經濟學家,經濟學博士) 

本文首發于作者微信公眾號“城市數據團”,界面新聞獲授權刊發。授權事宜請聯系原著作權人。

寫在前面

這是城市數據團“職業生涯”系列推送的第一篇,這個系列的主題是打工人們的職業生涯發展,我們將會從現有的招聘數據出發,通過科學的數據處理手段,為讀者呈現當下不同職業在不同城市的職業收入成長曲線,同時也結合近期的輿論熱點,對AI可能產生的職業替代進行測算。

作為系列的第一篇推文,先從這個系列研究使用的數據和對“職業”的分組開始介紹,希望各位讀者了解完這些基本信息和方法后,對后續的職業薪酬和AI替代率等具體數據榜單有一個更準確的了解。

與中國互聯網同齡的招聘數據

如果要問,在各類互聯網數據上,什么類型的數據既容易獲得,又有非常大的信息量,回溯時間也比較長?我的回答就是——招聘數據。

時間回溯到20多年前。彼時大部分普通家庭都沒有自己的電腦,遑論網絡,而最吸引人的上網行為是什么呢?不是“上網沖浪”,也不是“聊天室聊天”。2000年9月13日,《科技日報》的一篇文章提到:

“隨著我國經濟的快速發展,網絡逐漸為大眾所接受。據調查統計,在目前上網的人群中,以求職為目的的上網者占上網人群的一半?!?/blockquote>

2000年10月9日,《互聯網周刊》的一篇文章《未來職業何處尋?招聘網站大比較》一文引用了CNNIC在2000年7月的調查,人們上網獲取的信息中,招聘求職信息占26.11%。

1997年,中華英才網(chinahr)、智聯招聘(zhaopin.com)成立;

1999年,前程無憂(51job)成立。

2005年,58同城、應屆生求職網(yingjiesheng)成立。

2010年后的移動互聯網時代,各類招聘網站和App如雨后春筍一般出現,獵聘、Boss直聘、拉勾……將招聘數據的維度再次擴張。

上至名校學子夢寐以求的高薪offer,下至家政服務、藍領工人的短期零工,招聘數據沉淀的,不僅是一代代打工人的故事,更是中國經濟這二十多年來的縮影。

招聘數據,從千禧年之初就與中國第一代互聯網用戶一起出現、成長,是一份與中國互聯網幾乎同齡的數據。

招聘數據:代表性問題與辛普森悖論

招聘數據也是非常難使用的數據。只通過簡單的處理,難以呈現出口徑一致、有代表性、有價值的信息。

代表性問題,一直是招聘數據的老大難。什么樣的企業上網招聘,什么樣的企業選擇從其他渠道招聘?一直以來,互聯網企業、外資企業等,使用招聘網站的頻率都要遠高于國有企業、制造業企業,這使得通過招聘數據匯總得到的總招聘量、總簡歷投遞量以及平均工資等指標,都與真實的全國平均值有不小的偏誤。不同招聘網站的招聘情況也有著極大差異。

例如下圖是BOSS直聘的熱招職位截圖:

下圖來自58同城的上海招聘熱搜職位截圖:

可以看到,兩個網站的招聘信息類型、方向完全不同,當我們僅使用其中一個,或者幾個招聘網站的信息時,難免掛一漏萬,無法輸出有效的結論。

除此之外,招聘數據的分類難度極高,也提高了它的使用門檻。當我們使用各類大數據時,常常需要將這份數據按照合適的分類標準和國家統計局的數據相匹配,得到類似口徑的數據,方便我們驗證數據的有效性。

但對于招聘數據來說,盡管在過去的八年中,我們通過數據合作伙伴從多個招聘網站來源,一共收錄了5億條招聘數據和12億個招聘空缺,但如果只是將這些招聘崗位匯總,無論按照企業、行業還是地域進行劃分,在與官方統計數據對比時都十分困難。

為什么海量的數據卻并不能得到有效的結論?

首先,這些數據的歷年獲取數量、來源、公司數量都有極大差異。從下圖可以看到,招聘數量最高的2019年,全國所有的招聘廣告的所有招聘崗位空缺總和共有3.4億人,但2022年下降到3400萬人,數量整整相差十倍。

但招聘網站上的招聘數量的變化,其實并不能完全和企業對勞動力的需求一一對應起來。在經濟景氣時,員工流轉更快,業務更多,企業對于未來的預期更好,甚至同一條招聘信息的多次調整重復,都會使得企業的招聘數量產生比真實勞動力需求更大的波動。

其次,招聘數據的工資也是一個混雜的變量。下圖呈現了從2015年至2022年的分年度平均工資??梢钥吹?,其中平均招聘工資最低的年份是2017年,約為4360元/月。2015年、2016到2017年,中國出現了招聘工資的連續兩年下降,隨后才重新回升。


但招聘工資真的在2015-2017年出現了下降嗎?并非如此。

造成招聘工資下降的第一個原因,是招聘結構中的社招、應屆生招聘的比重發生了變化。當應屆生招聘比例的網站數據量增加時,平均工資下降;對于有多年經驗的社會招聘職位數據量增加時,平均工資又會上升。

第二個原因,是招聘網站向二線、三線城市的下沉,以及對于之前招聘較少的工種人群的滲透——例如對于藍領工人、家政服務等工種,近年來越來越依靠網絡招聘。而這部分工種的工資,要比之前就主要通過網絡招聘的程序員等工種的工資要低得多,從而拉低了總體平均工資。

著名的辛普森悖論告訴我們一個結果:即便兩組均值都在上升,其加總的均值卻有可能下降。在下面的例子中,分開計算時大學A和大學B的男生錄取率都高于女生,但在錄取率較低的女性正在其錄取率更高的那一組人數更多,導致匯總后,男生錄取率卻低于女生。

一些招聘網站使用自己的數據定期發布薪酬報告,也囿于其網站數據結構,與國家統計局的標準行業、職業結構也存在較大差異,難以與其他招聘網站對照,也難以與統計數據結合,得到一個可比較的口徑。

因此,要從海量數據中識別出正確的趨勢,真正把十多億條招聘數據這一數據金礦用好,用足,關鍵在于我們能否對這組數據進行更正確、更標準化的分組,能否對每一條招聘數據,進行更細致的特征識別。

在過去的一個多月中,我們進行了一次嘗試。

破解辛普森悖論:如何標準地分組職業

我們先用ChatGPT的GPT4模型生成下面這樣一條典型的招聘廣告:

可以看到,職位本身從事的職能,以及其需要的學歷、經驗,與這個職位的工資有著極大關系。學歷與經驗相對來說更容易從文本中分離出來,即“計算機相關專業、本科、3年以上”但我們如何對于這個職業進行分類呢?我們怎么把一個Python工程師,與其他類型的崗位分開,從而控制住這個崗位的內在能力需求呢?

第一種方式是,使用招聘網站本身的職位分類。

以下的三張截圖,分別來自BOSS直聘、智聯招聘和58同城,其類別都包括了“人事/行政”??梢钥吹?,兩者的職業分類存在不少交叉和差異。BOSS直聘的“薪酬績效”,在智聯招聘被劃分為“薪資福利”與“績效考核”,在58同城中,不僅薪酬、績效是合并為一類的,“員工關系”也被包括在其中。

而當我們點擊進某一類職業時,某一個崗位又往往“身兼數職”,或者只存在著資歷的差別,并沒有職能的差異。不同招聘數據的劃分差異,使招聘數據的使用更為困難。

為了進行統一口徑的比較,自然需要更權威、更標準的職業劃分。我們使用了《中國職業大典》作為職業劃分的依據。

《中國職業大典》是國家統計局、人力資源和社會保障部等在統計各類職業時使用的職業劃分類目。

歷次中國人口普查、人口動態抽樣調查等,都使用《中國職業大典》作為每個被調查勞動者的職業劃分依據。最新的2022版本《中職業大典》包括了大類8個、中類79個、小類449個、細類(職業)1639個,是對于中國職業最完整、權威的劃分。

例如我們要從中找到“程序員”的分類,就可以通過下表這樣的層級來查找:

這樣的職業劃分,在最大程度上保證了職業之間的交集最少,而并集最大。我們將嘗試把所有的招聘數據映射到這1639個職業中。

但是,如何劃分和映射呢?光是“計算機程序設計員”這一個職位,在招聘網站上的職業名稱就可能包括JAVA、Python、Ruby、Golang、Node.js、C++……等一系列關鍵詞。這還是筆者相對熟悉的職業,我們可能還可以通過關鍵詞映射的方式來遍歷這一類職業。但一些相對不熟悉的職業,比如“課程顧問月入過萬上升空間大”,你還能夠將他準確地分類到標準職業代碼的“營銷員”的類別上嗎?

因此,我們使用了一種文本學習的方法,首先讓計算機學習每一種職業的具體工作,再通過每一個職位的職位描述進行匹配,見下圖:

通過前期標注,將每一個職業的具體工作與該職業名稱結合,計算職業-職能的高頻率詞對。再從招聘廣告描述的工作職能出發,使用貝葉斯概率計算對應的可能是哪一種具體職業,像完形填空一樣計算每一個職業的具體分類。

這樣的方法具有極高的準確性,下面是我們分類到“計算機程序設計員”的一組例子,可以看到,即便在職位的標題中沒有“程序員”的關鍵詞,我們可能也無法遍歷各種程序相關的關鍵詞,也可以通過其崗位職能,準確地對這個崗位進行分類。

通過這樣的方法,我們將從各類招聘網站獲取到5億條、包含12億個招聘人次的招聘數據,高達1800萬種職業,分配到了1500余種標準職業中,形成了一個從2015年到2022年全國各城市的標準職業數據庫。

職業密碼初窺,招聘數據“礦井”建成

有了標準職業數據庫,我們就可以控制住每一個崗位的招聘時間、地點、經驗要求、教育要求以及職位類型等信息了。當我們再使用這些數據時,已經不會再出現辛普森悖論類似的偏差問題。

舉個例子,在此基礎上當我們再次計算每一年的招聘工資時,便可得到下圖:

此時,我們便能看到一條穩定向上的工資增長曲線,并未出現突然的下降。同樣招聘時間、地點、經驗要求、教育要求以及職位類型的一份工作,2022年的招聘工資比2015年要高出2385元。

這也意味著,這個包含著數十億招聘數據的“金礦”,終于不再是一片混亂的露天野礦,而已經被建成為一個品質穩定可控的工業級礦井了。

接下來需要做的,就是從中挖掘冶煉出各種寶貴的足金信息了。

下篇預告

在這一篇推文,我們弄明白了怎樣把招聘廣告上的職位對應到更標準的職業分類中去,從而避免因為分類不正確導致的數據誤判。這只是完成了“招聘數據礦井”的建設工作。

在系列第二篇推送中,我們將會進入挖礦(數據分析)的主體部分,看看對于各個城市、各個職業類別的從業者們,在職業生涯中,收入是如何隨著時間和經驗的積累提升和變化的。對于希望親自操作的讀者,我們也會在數據團+小程序上同步更新本系列所有研究相關數據(包括大家關心的AI替代率)的查詢模塊,供讀者自行查詢探索。關于不同職業AI替代率的計算,則會在第三篇推送中詳細介紹。

 

(文章僅代表作者觀點。)

 

本文為轉載內容,授權事宜請聯系原著作權人。

58集團

3.1k
  • 智租換電完成數億元C輪融資
  • 58同城、安居客攜手華為啟動鴻蒙原生應用開發

BOSS直聘

1.1k
  • 新一批大模型產品通過備案, 國內大模型核心玩家進入應用端催化期
  • BOSS直聘合作伙伴大會:中小企業招人更主動,新興行業受求職者追捧

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

如何從海量招聘信息中破解出各職業收入變化密碼

招聘數據既容易獲得,又有非常大的信息量,回溯時間也比較長。但招聘數據也是非常難使用的數據。只通過簡單的處理,難以呈現出口徑一致、有代表性、有價值的信息。

2023年3月31日,鄭州,雙選招聘會在鄭州大學主校區舉辦,吸引數千名在校大學生到場求職。來源:視覺中國

文丨陳沁(脈策數據首席經濟學家,經濟學博士) 

本文首發于作者微信公眾號“城市數據團”,界面新聞獲授權刊發。授權事宜請聯系原著作權人。

寫在前面

這是城市數據團“職業生涯”系列推送的第一篇,這個系列的主題是打工人們的職業生涯發展,我們將會從現有的招聘數據出發,通過科學的數據處理手段,為讀者呈現當下不同職業在不同城市的職業收入成長曲線,同時也結合近期的輿論熱點,對AI可能產生的職業替代進行測算。

作為系列的第一篇推文,先從這個系列研究使用的數據和對“職業”的分組開始介紹,希望各位讀者了解完這些基本信息和方法后,對后續的職業薪酬和AI替代率等具體數據榜單有一個更準確的了解。

與中國互聯網同齡的招聘數據

如果要問,在各類互聯網數據上,什么類型的數據既容易獲得,又有非常大的信息量,回溯時間也比較長?我的回答就是——招聘數據。

時間回溯到20多年前。彼時大部分普通家庭都沒有自己的電腦,遑論網絡,而最吸引人的上網行為是什么呢?不是“上網沖浪”,也不是“聊天室聊天”。2000年9月13日,《科技日報》的一篇文章提到:

“隨著我國經濟的快速發展,網絡逐漸為大眾所接受。據調查統計,在目前上網的人群中,以求職為目的的上網者占上網人群的一半?!?/blockquote>

2000年10月9日,《互聯網周刊》的一篇文章《未來職業何處尋?招聘網站大比較》一文引用了CNNIC在2000年7月的調查,人們上網獲取的信息中,招聘求職信息占26.11%。

1997年,中華英才網(chinahr)、智聯招聘(zhaopin.com)成立;

1999年,前程無憂(51job)成立。

2005年,58同城、應屆生求職網(yingjiesheng)成立。

2010年后的移動互聯網時代,各類招聘網站和App如雨后春筍一般出現,獵聘、Boss直聘、拉勾……將招聘數據的維度再次擴張。

上至名校學子夢寐以求的高薪offer,下至家政服務、藍領工人的短期零工,招聘數據沉淀的,不僅是一代代打工人的故事,更是中國經濟這二十多年來的縮影。

招聘數據,從千禧年之初就與中國第一代互聯網用戶一起出現、成長,是一份與中國互聯網幾乎同齡的數據。

招聘數據:代表性問題與辛普森悖論

招聘數據也是非常難使用的數據。只通過簡單的處理,難以呈現出口徑一致、有代表性、有價值的信息。

代表性問題,一直是招聘數據的老大難。什么樣的企業上網招聘,什么樣的企業選擇從其他渠道招聘?一直以來,互聯網企業、外資企業等,使用招聘網站的頻率都要遠高于國有企業、制造業企業,這使得通過招聘數據匯總得到的總招聘量、總簡歷投遞量以及平均工資等指標,都與真實的全國平均值有不小的偏誤。不同招聘網站的招聘情況也有著極大差異。

例如下圖是BOSS直聘的熱招職位截圖:

下圖來自58同城的上海招聘熱搜職位截圖:

可以看到,兩個網站的招聘信息類型、方向完全不同,當我們僅使用其中一個,或者幾個招聘網站的信息時,難免掛一漏萬,無法輸出有效的結論。

除此之外,招聘數據的分類難度極高,也提高了它的使用門檻。當我們使用各類大數據時,常常需要將這份數據按照合適的分類標準和國家統計局的數據相匹配,得到類似口徑的數據,方便我們驗證數據的有效性。

但對于招聘數據來說,盡管在過去的八年中,我們通過數據合作伙伴從多個招聘網站來源,一共收錄了5億條招聘數據和12億個招聘空缺,但如果只是將這些招聘崗位匯總,無論按照企業、行業還是地域進行劃分,在與官方統計數據對比時都十分困難。

為什么海量的數據卻并不能得到有效的結論?

首先,這些數據的歷年獲取數量、來源、公司數量都有極大差異。從下圖可以看到,招聘數量最高的2019年,全國所有的招聘廣告的所有招聘崗位空缺總和共有3.4億人,但2022年下降到3400萬人,數量整整相差十倍。

但招聘網站上的招聘數量的變化,其實并不能完全和企業對勞動力的需求一一對應起來。在經濟景氣時,員工流轉更快,業務更多,企業對于未來的預期更好,甚至同一條招聘信息的多次調整重復,都會使得企業的招聘數量產生比真實勞動力需求更大的波動。

其次,招聘數據的工資也是一個混雜的變量。下圖呈現了從2015年至2022年的分年度平均工資??梢钥吹?,其中平均招聘工資最低的年份是2017年,約為4360元/月。2015年、2016到2017年,中國出現了招聘工資的連續兩年下降,隨后才重新回升。


但招聘工資真的在2015-2017年出現了下降嗎?并非如此。

造成招聘工資下降的第一個原因,是招聘結構中的社招、應屆生招聘的比重發生了變化。當應屆生招聘比例的網站數據量增加時,平均工資下降;對于有多年經驗的社會招聘職位數據量增加時,平均工資又會上升。

第二個原因,是招聘網站向二線、三線城市的下沉,以及對于之前招聘較少的工種人群的滲透——例如對于藍領工人、家政服務等工種,近年來越來越依靠網絡招聘。而這部分工種的工資,要比之前就主要通過網絡招聘的程序員等工種的工資要低得多,從而拉低了總體平均工資。

著名的辛普森悖論告訴我們一個結果:即便兩組均值都在上升,其加總的均值卻有可能下降。在下面的例子中,分開計算時大學A和大學B的男生錄取率都高于女生,但在錄取率較低的女性正在其錄取率更高的那一組人數更多,導致匯總后,男生錄取率卻低于女生。

一些招聘網站使用自己的數據定期發布薪酬報告,也囿于其網站數據結構,與國家統計局的標準行業、職業結構也存在較大差異,難以與其他招聘網站對照,也難以與統計數據結合,得到一個可比較的口徑。

因此,要從海量數據中識別出正確的趨勢,真正把十多億條招聘數據這一數據金礦用好,用足,關鍵在于我們能否對這組數據進行更正確、更標準化的分組,能否對每一條招聘數據,進行更細致的特征識別。

在過去的一個多月中,我們進行了一次嘗試。

破解辛普森悖論:如何標準地分組職業

我們先用ChatGPT的GPT4模型生成下面這樣一條典型的招聘廣告:

可以看到,職位本身從事的職能,以及其需要的學歷、經驗,與這個職位的工資有著極大關系。學歷與經驗相對來說更容易從文本中分離出來,即“計算機相關專業、本科、3年以上”但我們如何對于這個職業進行分類呢?我們怎么把一個Python工程師,與其他類型的崗位分開,從而控制住這個崗位的內在能力需求呢?

第一種方式是,使用招聘網站本身的職位分類。

以下的三張截圖,分別來自BOSS直聘、智聯招聘和58同城,其類別都包括了“人事/行政”??梢钥吹?,兩者的職業分類存在不少交叉和差異。BOSS直聘的“薪酬績效”,在智聯招聘被劃分為“薪資福利”與“績效考核”,在58同城中,不僅薪酬、績效是合并為一類的,“員工關系”也被包括在其中。

而當我們點擊進某一類職業時,某一個崗位又往往“身兼數職”,或者只存在著資歷的差別,并沒有職能的差異。不同招聘數據的劃分差異,使招聘數據的使用更為困難。

為了進行統一口徑的比較,自然需要更權威、更標準的職業劃分。我們使用了《中國職業大典》作為職業劃分的依據。

《中國職業大典》是國家統計局、人力資源和社會保障部等在統計各類職業時使用的職業劃分類目。

歷次中國人口普查、人口動態抽樣調查等,都使用《中國職業大典》作為每個被調查勞動者的職業劃分依據。最新的2022版本《中職業大典》包括了大類8個、中類79個、小類449個、細類(職業)1639個,是對于中國職業最完整、權威的劃分。

例如我們要從中找到“程序員”的分類,就可以通過下表這樣的層級來查找:

這樣的職業劃分,在最大程度上保證了職業之間的交集最少,而并集最大。我們將嘗試把所有的招聘數據映射到這1639個職業中。

但是,如何劃分和映射呢?光是“計算機程序設計員”這一個職位,在招聘網站上的職業名稱就可能包括JAVA、Python、Ruby、Golang、Node.js、C++……等一系列關鍵詞。這還是筆者相對熟悉的職業,我們可能還可以通過關鍵詞映射的方式來遍歷這一類職業。但一些相對不熟悉的職業,比如“課程顧問月入過萬上升空間大”,你還能夠將他準確地分類到標準職業代碼的“營銷員”的類別上嗎?

因此,我們使用了一種文本學習的方法,首先讓計算機學習每一種職業的具體工作,再通過每一個職位的職位描述進行匹配,見下圖:

通過前期標注,將每一個職業的具體工作與該職業名稱結合,計算職業-職能的高頻率詞對。再從招聘廣告描述的工作職能出發,使用貝葉斯概率計算對應的可能是哪一種具體職業,像完形填空一樣計算每一個職業的具體分類。

這樣的方法具有極高的準確性,下面是我們分類到“計算機程序設計員”的一組例子,可以看到,即便在職位的標題中沒有“程序員”的關鍵詞,我們可能也無法遍歷各種程序相關的關鍵詞,也可以通過其崗位職能,準確地對這個崗位進行分類。

通過這樣的方法,我們將從各類招聘網站獲取到5億條、包含12億個招聘人次的招聘數據,高達1800萬種職業,分配到了1500余種標準職業中,形成了一個從2015年到2022年全國各城市的標準職業數據庫。

職業密碼初窺,招聘數據“礦井”建成

有了標準職業數據庫,我們就可以控制住每一個崗位的招聘時間、地點、經驗要求、教育要求以及職位類型等信息了。當我們再使用這些數據時,已經不會再出現辛普森悖論類似的偏差問題。

舉個例子,在此基礎上當我們再次計算每一年的招聘工資時,便可得到下圖:

此時,我們便能看到一條穩定向上的工資增長曲線,并未出現突然的下降。同樣招聘時間、地點、經驗要求、教育要求以及職位類型的一份工作,2022年的招聘工資比2015年要高出2385元。

這也意味著,這個包含著數十億招聘數據的“金礦”,終于不再是一片混亂的露天野礦,而已經被建成為一個品質穩定可控的工業級礦井了。

接下來需要做的,就是從中挖掘冶煉出各種寶貴的足金信息了。

下篇預告

在這一篇推文,我們弄明白了怎樣把招聘廣告上的職位對應到更標準的職業分類中去,從而避免因為分類不正確導致的數據誤判。這只是完成了“招聘數據礦井”的建設工作。

在系列第二篇推送中,我們將會進入挖礦(數據分析)的主體部分,看看對于各個城市、各個職業類別的從業者們,在職業生涯中,收入是如何隨著時間和經驗的積累提升和變化的。對于希望親自操作的讀者,我們也會在數據團+小程序上同步更新本系列所有研究相關數據(包括大家關心的AI替代率)的查詢模塊,供讀者自行查詢探索。關于不同職業AI替代率的計算,則會在第三篇推送中詳細介紹。

 

(文章僅代表作者觀點。)

 

本文為轉載內容,授權事宜請聯系原著作權人。
av人摸人人人澡人|国产成人精品一区二区秒拍|99爱国产精品|一色桃花亚洲综合影院 亚洲女人被黑人巨大进入 向日葵视频下载ios 美味的人妻otxt 亚洲精品无码久久久影院相关 人人揉人人捏人人添 亚洲人成电影在线观看四虎 人人揉揉揉揉揉日日 91精品手机国产在线能下载 小东西好几天没弄你了视频