午夜伦,理片,亚洲av乱码一区二区三区香蕉

金融大模型，能讓普通人成為“投資之王”嗎？

2023-06-12 15:21

阿爾法工場(chǎng)

關(guān)注

最新的實(shí)驗(yàn)表明，人工智能選出的股票組合漲幅約為2%，基本與大盤(pán)持平，離所謂的“AI索羅斯”相去甚遠(yuǎn)。

自從ChatGPT問(wèn)世后，人類(lèi)就想到了用它來(lái)分析預(yù)測(cè)各種走勢(shì)。

天氣、流行病、股價(jià)走勢(shì)，都在被給予厚望的清單里……

上月，一個(gè)名為T(mén)he GPT Portfolio的賬號(hào)在推特迅速走紅。該賬號(hào)此前宣布，將借助ChatGPT進(jìn)行實(shí)盤(pán)投資。

根據(jù)他們的研究，ChatGPT 不僅能夠預(yù)測(cè)股市價(jià)格走勢(shì)，還能產(chǎn)生超過(guò) 500% 的回報(bào)！

而在5月26日，摩根大通也宣布正在研發(fā)名為“IndexGPT”的金融服務(wù)工具，利用云計(jì)算和人工智能進(jìn)行證券的分析和選擇，為客戶提供智能化和個(gè)性化的投資建議。

一時(shí)間，似乎所有人都嗅到了GPT所散發(fā)出的財(cái)富的味道……

那么，AI+金融的組合，真有那么強(qiáng)大么？

今天，讓我們不妨先將目光聚焦回國(guó)內(nèi)，分析度小滿最近發(fā)布的金融大模型——軒轅，看看是否能在該大模型身上，找到這些問(wèn)題的答案。

01 數(shù)據(jù)越大越好？

上月月底，度小滿正式發(fā)布基于BLOOM-176B研發(fā)的軒轅大模型，是一個(gè)通用+金融領(lǐng)域的千億級(jí)參數(shù)大模型。其數(shù)據(jù)集不但包含了各種通用內(nèi)容，還包含了諸如金融研報(bào)、股票、基金、銀行、保險(xiǎn)等方向的專(zhuān)業(yè)知識(shí)。

在金融場(chǎng)景中的任務(wù)評(píng)測(cè)中，效果相較于通用大模型大幅提升，表現(xiàn)出金融領(lǐng)域的獨(dú)特優(yōu)勢(shì)。

在這里，我們就試著從金融數(shù)據(jù)、金融新聞理解、市場(chǎng)輿情分析這三個(gè)方面，對(duì)軒轅大模型在金融領(lǐng)域的表現(xiàn)，進(jìn)行一番剖析。

首先來(lái)看金融數(shù)據(jù)方面。

眾所周知，對(duì)于垂直領(lǐng)域來(lái)說(shuō)，大模型所具有的專(zhuān)業(yè)數(shù)據(jù)越多、質(zhì)量越高，其模型表現(xiàn)就越好。

那么在這方面，軒轅是否積累了足夠的金融數(shù)據(jù)呢？

一個(gè)不可否認(rèn)的事實(shí)是：盡管百度這些年一直在盡力在金融領(lǐng)域布局，其麾下的度小滿涵蓋了消費(fèi)金融、支付、互聯(lián)網(wǎng)理財(cái)、互聯(lián)網(wǎng)保險(xiǎn)、互聯(lián)網(wǎng)證券等多個(gè)板塊，但從體量上來(lái)說(shuō)，其掌握的金融數(shù)據(jù)，仍舊很難以與國(guó)內(nèi)的一些龐大的金融集團(tuán)，例如中投相比。

中投在國(guó)內(nèi)控參股10多家金融機(jī)構(gòu)，掌控萬(wàn)億資產(chǎn)，其投資和涉及的行業(yè)包括了信息科技、金融、彈性消費(fèi)品、醫(yī)療健康等領(lǐng)域，其中信息科技占比最高，為22.76%。此外，在工業(yè)、通訊服務(wù)、非彈性消費(fèi)品、原材料等領(lǐng)域也有一定分布。

而相較之下，度小滿的金融服務(wù)，則更多地集中于互聯(lián)網(wǎng)金融領(lǐng)域。

既然沒(méi)有數(shù)據(jù)方面的絕對(duì)優(yōu)勢(shì)，度小滿又怎么有信心問(wèn)鼎國(guó)內(nèi)首個(gè)金融大模型呢？

原因就在于，在垂直領(lǐng)域，專(zhuān)有數(shù)據(jù)的運(yùn)用，其實(shí)遠(yuǎn)比追求“絕對(duì)數(shù)據(jù)”的優(yōu)勢(shì)要重要。

ARK（方舟基金）創(chuàng)投聯(lián)合負(fù)責(zé)人及分析師Will Summerlin在談到這點(diǎn)時(shí)，曾說(shuō)到：“對(duì)于想抓住這次AI革命的公司來(lái)說(shuō)，運(yùn)用好自身的專(zhuān)有數(shù)據(jù)集，能讓他們快速針對(duì)自己的領(lǐng)域來(lái)訓(xùn)練或微調(diào)模型。”

在此前百度搭建的金融生態(tài)中，出現(xiàn)了面向大眾的消費(fèi)信貸服務(wù)品牌---有錢(qián)花、理財(cái)平臺(tái)--度小滿理財(cái)，以及支付平臺(tái)——度小滿錢(qián)包。

這些APP中積累的信息，構(gòu)成了百度用來(lái)訓(xùn)練或調(diào)整模型的大量數(shù)據(jù)，基于這些數(shù)據(jù)，百度可以形成一套自身專(zhuān)有的反饋循環(huán)系統(tǒng)，進(jìn)而逐漸形成對(duì)產(chǎn)品的洞察力。從而使其能不斷針對(duì)客戶數(shù)據(jù)優(yōu)化模型，讓模型隨著時(shí)間推移越來(lái)越好。

更重要的是，除了擁有數(shù)據(jù)之外，將數(shù)據(jù)與AI相結(jié)合的能力，也是構(gòu)建金融大模型不可或缺的一步。

早在2018年，創(chuàng)立之初，度小滿就看到了“NLP+金融”的潛力，開(kāi)始進(jìn)行相應(yīng)的產(chǎn)業(yè)布局。

而當(dāng)時(shí)不僅全世界專(zhuān)注做NLP公司很少，成立專(zhuān)門(mén)的金融科技NLP團(tuán)隊(duì)的更是鮮見(jiàn)。

經(jīng)過(guò)數(shù)年的鉆研，2021年，在微軟舉辦的MS MARCO 比賽中的文檔排序Document Ranking（文檔排序）任務(wù)中，度小滿的AI-NLP團(tuán)隊(duì)排名第一并刷新紀(jì)錄。

2022年，軒轅 (XuanYuan) 預(yù)訓(xùn)練模型，也在中文語(yǔ)言理解領(lǐng)域最具權(quán)威性的測(cè)評(píng)基準(zhǔn)之一CLUE分類(lèi)任務(wù)中排名第一。

于是，放眼國(guó)內(nèi)，在金融領(lǐng)域擁有龐大數(shù)據(jù)的，在NLP上卻比不過(guò)度小滿；而在NPL上有所建樹(shù)的，卻又很少能搭建出度小滿那樣專(zhuān)有的金融生態(tài)。

如此一來(lái)，軒轅便確立了自身在“金融大模型”這一生態(tài)位中的獨(dú)特優(yōu)勢(shì)。

02 AI“索羅斯”？

除了金融數(shù)據(jù)外，軒轅大模型的另一個(gè)重要的能力，就是其對(duì)金融事件、新聞的解讀能力。

很多投資者，都希望借助大模型的能力，來(lái)分析金融時(shí)事背后的原因。

畢竟，索羅斯這樣的金融大鱷，90年代正是憑借對(duì)歐洲輿情、時(shí)局的準(zhǔn)確判斷，做出了做空英鎊，做多馬克的決定，并一舉戰(zhàn)勝了英格蘭銀行。

而這種閱讀并理解時(shí)事，乃至解讀市場(chǎng)輿情的能力，則主要是由大模型的自然語(yǔ)言處理能力（NLP）決定的。因?yàn)闀r(shí)事解讀，輿情分析的主要任務(wù)，是對(duì)大量的文本數(shù)據(jù)進(jìn)行語(yǔ)義分析和情感分析。

在NPL方面，軒轅大模型的一個(gè)最大特點(diǎn)，就是“化大為小”，“化通為專(zhuān)”。

具體來(lái)說(shuō)，軒轅通過(guò)將開(kāi)放領(lǐng)域?qū)W到的知識(shí)遷移到下游任務(wù)，不僅改善了低資源任務(wù)數(shù)據(jù)相對(duì)不足的問(wèn)題，也提高了自身的泛化能力和魯棒性。從而更好地適應(yīng)不同領(lǐng)域和場(chǎng)景的閱讀和分析需求。

然而，這種用大量通用數(shù)據(jù)預(yù)訓(xùn)練一個(gè)基礎(chǔ)模型，再用特定任務(wù)數(shù)據(jù)微調(diào)一個(gè)下游模型的做法，以往存在兩個(gè)缺點(diǎn)：

一是預(yù)訓(xùn)練和微調(diào)的數(shù)據(jù)可能存在不一致或不匹配的問(wèn)題，導(dǎo)致模型難以適應(yīng)新任務(wù)；

二是微調(diào)的數(shù)據(jù)可能存在不足或不平衡的問(wèn)題，導(dǎo)致模型難以學(xué)習(xí)到有效的特征。

對(duì)此，軒轅大模型在引入金融任務(wù)數(shù)據(jù)訓(xùn)練的同時(shí)，還融合了不同粒度不同層級(jí)的交互信息，從而改進(jìn)了傳統(tǒng)訓(xùn)練模式。

具體來(lái)說(shuō)，軒轅采用了多階段的訓(xùn)練策略，先從通用大規(guī)模的數(shù)據(jù)逐漸遷移到小規(guī)模的特定業(yè)務(wù)以及特定任務(wù)，然后通過(guò)不同的階段逐漸訓(xùn)練，直到滿足目標(biāo)任務(wù)。

這樣可以緩解預(yù)訓(xùn)練和微調(diào)之間的數(shù)據(jù)不一致或不匹配的問(wèn)題，提高模型的遷移能力和泛化能力。

同時(shí)，在預(yù)訓(xùn)練階段，軒轅還使用了多種自監(jiān)督學(xué)習(xí)任務(wù)，如掩碼語(yǔ)言模型、語(yǔ)句順序預(yù)測(cè)、語(yǔ)句內(nèi)部結(jié)構(gòu)預(yù)測(cè)，這樣可以從不同角度和層次學(xué)習(xí)語(yǔ)言知識(shí)和語(yǔ)義信息，提高模型的表達(dá)能力和理解能力。

基于這樣的能力，我們也不難理解，為何軒轅大模型曾在2022年，在中文語(yǔ)言理解領(lǐng)域的CLUE分類(lèi)任務(wù)中排名第一。并且距離人類(lèi)“表現(xiàn)”僅差3.38分。

實(shí)際上，金融行業(yè)因其與數(shù)據(jù)的高度相關(guān)性，成為了NLP最早賦能的行業(yè)之一。

通過(guò)NLP，人們可以在證券投資中為量化投資貢獻(xiàn)因子，如熱點(diǎn)挖掘、輿情分析、事件驅(qū)動(dòng)分析，或是在大數(shù)據(jù)風(fēng)控中，用Tag抽取技術(shù)為構(gòu)建用戶畫(huà)像提供技術(shù)支持。

例如事件驅(qū)動(dòng)分析這一功能，在應(yīng)用NLP技術(shù)前，很多金融從業(yè)人員真的是靠人盯新聞、公告，來(lái)獲取相關(guān)信息，然而，從一篇長(zhǎng)篇累牘的新聞或公告中，找出一些風(fēng)險(xiǎn)信號(hào)或營(yíng)銷(xiāo)機(jī)會(huì)真的是費(fèi)時(shí)費(fèi)力。

而NLP的應(yīng)用，無(wú)疑極大地提升了金融領(lǐng)域的工作效率。

那么，在具備了準(zhǔn)確識(shí)別和分析金融事件、市場(chǎng)輿情的能力后，金融大模型是否真的能帶眾多投資者一飛沖天，成為AI加持下的新一批“索羅斯”呢？

03 AI+投資，神話or噱頭？

還記得開(kāi)頭提到的那個(gè)借助ChatGPT進(jìn)行實(shí)盤(pán)投資，并聲稱(chēng)收益率超過(guò)500%的例子嗎？

截至5月底，已有2.5萬(wàn)名投資者被吸引，總共約押注1000多萬(wàn)美元的資金在ChatGPT選出的投資組合上。

然而，經(jīng)過(guò)近兩周的實(shí)踐后，人們發(fā)現(xiàn)這個(gè)“AI分析師”似乎并沒(méi)有像傳說(shuō)中的那么“神”。

人工智能選出的股票組合漲幅約為2%，基本與大盤(pán)持平，且按百分比計(jì)算，該組合中后五名股票的下跌幅度超過(guò)了前五名的漲幅。

針對(duì)這種情況，有文章分析稱(chēng)，這是因?yàn)锳utopilot實(shí)驗(yàn)項(xiàng)目中的投資組合，是命令ChatGPT分析1萬(wàn)條以上的新聞，并得到得分最高的前100只股票，再結(jié)合公司財(cái)報(bào)數(shù)據(jù)得到綜合打分，最終買(mǎi)入的前20只股票。

在失去空頭部分收益的情況下，實(shí)際的投資表現(xiàn)自然會(huì)與論文中的回測(cè)結(jié)果產(chǎn)生較大差異。

等一下，不是說(shuō)AI已經(jīng)可以通過(guò)NLP，準(zhǔn)確地識(shí)別并分析金融事件、市場(chǎng)輿情了嗎？那為什么在結(jié)合了1萬(wàn)條以上的新聞+公司財(cái)報(bào)的情況下，“AI分析師”的表現(xiàn)仍然不佳呢？

可能的原因之一，就在于AI也許很客觀，但人類(lèi)卻不總是如此。

在人類(lèi)構(gòu)筑的媒體世界里，雖然各類(lèi)的網(wǎng)站、平臺(tái)或社交媒體數(shù)不勝數(shù)，但在信息的傳播過(guò)程中，大部分普通人，卻往往會(huì)受到少數(shù)幾家頭部權(quán)威媒體的影響。

這些權(quán)威媒體、人士的傾向和態(tài)度，帶動(dòng)并影響了更多的網(wǎng)站、平臺(tái)。

于是在處理某些類(lèi)型的金融產(chǎn)品或市場(chǎng)時(shí)，大模型的數(shù)據(jù)源，可能會(huì)更偏向某些特定的網(wǎng)站或平臺(tái)，而忽略了其他來(lái)源的信息，進(jìn)而產(chǎn)生了“數(shù)據(jù)偏見(jiàn)”。

此外，在處理自然語(yǔ)言時(shí)，大模型可能會(huì)遇到一些語(yǔ)義歧義的情況，如果某些詞匯有多種含義，AI在處理時(shí)可能會(huì)選擇錯(cuò)誤的含義，導(dǎo)致信息的偏差和誤導(dǎo)。

這些部分，都是現(xiàn)階段AI無(wú)法獨(dú)自糾偏的。

不過(guò)，如果因?yàn)锳I不能讓人實(shí)現(xiàn)夢(mèng)想中的“投資神話”，就認(rèn)為金融大模型的存在，是一種錦上添花的技術(shù)，也未免太淺薄了。

因?yàn)樵诳深A(yù)見(jiàn)的未來(lái)，傳統(tǒng)風(fēng)控模式面臨效率低下、容易出錯(cuò)、難以面對(duì)大規(guī)模數(shù)據(jù)處理等挑戰(zhàn)。

類(lèi)似度小滿在內(nèi)的企業(yè)，通過(guò)大模型技術(shù)探索，讓企業(yè)可以自動(dòng)化地處理大量數(shù)據(jù)，快速、精準(zhǔn)、全面地分析和識(shí)別貸款潛在風(fēng)險(xiǎn)，進(jìn)而優(yōu)化風(fēng)險(xiǎn)模型，提高風(fēng)險(xiǎn)控制的準(zhǔn)確性和效率。

此外，軒轅大模型不僅能夠解釋授信額度、計(jì)算收益率、決策參考等金融專(zhuān)業(yè)問(wèn)題，還能夠結(jié)合資產(chǎn)狀況、收益目標(biāo)和風(fēng)險(xiǎn)偏好，以及外部的市場(chǎng)動(dòng)態(tài)，給出更符合用戶需求的答案和建議。

由此可見(jiàn)，在拋下了“通過(guò)AI投資暴富”的狂想后，金融大模型仍舊可以在風(fēng)險(xiǎn)防范、金融知識(shí)普及方面，讓更多群體受益。

而這種更務(wù)實(shí)的方向，才是AI+金融正確的打開(kāi)方式。

原文標(biāo)題 : 金融大模型，能讓普通人成為“投資之王”嗎？