天下文訊您現(xiàn)在的位置是:湖南作家網(wǎng)>新聞資訊>天下文訊

AI生成的文本,版權(quán)應(yīng)該屬于誰?

來源:澎湃新聞 | 董牧杭   時(shí)間 : 2025-02-20

 

分享到:

無限猴子與結(jié)構(gòu)蜘蛛

假設(shè)有一只猴子,它會(huì)一直隨機(jī)地在打字機(jī)上敲擊鍵盤。那么只要給它的足夠長(zhǎng)的時(shí)間,它就幾乎肯定可以敲出人類任何一本已有圖書的內(nèi)容,例如莎士比亞的全集。從數(shù)學(xué)上講,在無限次嘗試中,猴子可以敲打出任何一部作品的概率都無限趨近于1。

這就是著名的無限猴子定理,它是“荒誕”的。就像如果把一杯水倒入大海中,在之后的某個(gè)時(shí)刻,我們剛剛好可以打撈出一杯一模一樣的水一般。

但是現(xiàn)在我們已經(jīng)完全不需要暢想無限猴子了。在自然語(yǔ)言處理(NLP)和文本生成領(lǐng)域,要模仿特定的風(fēng)格生成文本,如果結(jié)合大規(guī)模預(yù)訓(xùn)練模型、風(fēng)格特征提取、文本生成調(diào)優(yōu)等技術(shù)方法,就可以做到“以假亂真”。


MAIN17400135508692B5U74EMRB.png


一種關(guān)于AI的新型自指羅素悖論:由AI寫作的一篇“我堅(jiān)決不看任何AI寫的東西”

這就是同樣基于概率的deepseek晚近“震驚人類”的創(chuàng)作,它生成的文本幾乎無法分辨是不是人寫的,并能夠模擬任何風(fēng)格與作者的文本。

AI眼中的“文學(xué)風(fēng)格”是什么樣的?

如果說類似網(wǎng)文、公文等因其程式化、商業(yè)化的文體特征,既沒有什么獨(dú)一無二的“作者性”,也沒有什么高明的文學(xué)性,很容易找到它們“批量生成方式”的話,那我們不妨直接擺上人類整個(gè)文學(xué)史上最高段的作家之一——三島由紀(jì)夫?yàn)槔孉I生成一段三島式的文段:

暴雨中的劍道場(chǎng)彌漫著鐵銹與朽木的氣息,汗水順著少年繃緊的脊梁滑落,在榻榻米上洇出深色圖騰。竹刀相擊的脆響里,他看見師父眼角的皺紋藏著江戶時(shí)代某場(chǎng)未竟的復(fù)仇。當(dāng)狂風(fēng)掀開紙門,攜來山茶花的殘瓣黏在汗?jié)竦男靥艜r(shí),他恍然領(lǐng)悟肉體不過是盛裝恥辱的陶器,唯有在徹底粉碎的瞬間,方能窺見永恒澄明的月光。

三島的文風(fēng)“汪洋恣肆,波云詭譎”,比喻驚世駭俗,往往“語(yǔ)不驚人死不休”,令人拍案叫絕,難以名狀。而Deepseek交出的答卷,即使還不能說已經(jīng)足夠“以假亂真”,但文風(fēng)的確已經(jīng)相當(dāng)有極具辨識(shí)度的三島韻味了。那么AI是怎么做到的呢?

當(dāng)我們說“三島由紀(jì)夫式的段落”時(shí),我們首先在表達(dá)的,是一種極度抽象、模糊的文本特征,亦即一種經(jīng)過后人總結(jié)與概括出的美學(xué)風(fēng)格。

相信很少有人可以否認(rèn),三島由紀(jì)夫的核心風(fēng)格至少是包括以下幾個(gè)方面的:

極端美學(xué):三島強(qiáng)調(diào)死亡之美、肉體之美、秩序與毀滅的共存。他的文字往往冷峻、華麗,帶有儀式感。

日本傳統(tǒng)與西方現(xiàn)代性的交融:他擅長(zhǎng)描繪日本傳統(tǒng)武士道精神、神道教意象,同時(shí)又深受西方文學(xué)影響(如尼采、波德萊爾)。

強(qiáng)烈的視覺意象:他的描寫極富畫面感,常用光影、色彩、質(zhì)感等細(xì)節(jié)來增強(qiáng)感官刺激。

短促有力的句子與復(fù)雜華美的句群交替:他能夠在冷靜、簡(jiǎn)潔的描述和繁復(fù)的抒情段落之間切換自如。

有美與毀滅的共存、個(gè)人意志與時(shí)代洪流、武士道精神的絕對(duì)化等思想沖突:“唯有被烈焰吞噬的建筑,才能顯現(xiàn)其真正的輪廓”“他寧愿讓自己的信仰碎裂成光輝四濺的玻璃,也不愿在時(shí)代的塵埃中沉默”“肉體不過是意志的器皿,若器皿已破,則意志亦得解放”等。

不僅如此,嗜讀三島的人們也很容易就可以總結(jié)出三島有以下這些鮮明的修辭風(fēng)格,甚至可以說風(fēng)格鮮明到了若是不如此,就根本“不像”三島作品的程度:

對(duì)自然的高度擬人化:如“秋日的陽(yáng)光像一柄銳利的匕首,斜斜地刺入庭院,那金色的光芒在枯葉上燃燒,宛如即將自焚的舞姬?!?/p>

對(duì)肉體的極端關(guān)注:如“他脫下襯衫,背肌繃緊,皮膚因寒冷而泛起淡淡的青白色,像是刀刃輕撫過的瓷器?!?/p>

華麗的比喻與象征:“在夜色中,寺廟的影子倒映在水面,仿佛一匹黑色的戰(zhàn)馬正在湖心飲水?!?/p>

而以上三島核心美學(xué)特點(diǎn)與修辭特點(diǎn)的描述正是 AI 自己的“體會(huì)”,已經(jīng)非常準(zhǔn)確與出色了,與專家精心編撰的文學(xué)史教材中對(duì)三島風(fēng)格的概括可以說具有幾乎同樣準(zhǔn)確的知識(shí)深度。

上述這些在人類看來是美學(xué)風(fēng)格的東西,在進(jìn)行過語(yǔ)料庫(kù)構(gòu)建與風(fēng)格學(xué)習(xí)的機(jī)器眼中,卻全然是另一番景象。

機(jī)器在收集足夠的三島由紀(jì)夫文本后,會(huì)首先進(jìn)行預(yù)處理。三島由紀(jì)夫的作品會(huì)被機(jī)器進(jìn)行分句、分詞,處理日語(yǔ)/中文/翻譯英文版本等,并“確保數(shù)據(jù)格式一致”。此后,機(jī)器會(huì)采用TF-IDF、BERTembeddings等方法分析三島文本的常見詞匯與獨(dú)特短語(yǔ),比如他偏好使用的比喻、色彩詞、身體意象等。有了上述準(zhǔn)備工作,機(jī)器就可以對(duì)文本進(jìn)行句法分析,從而識(shí)別出三島句子的結(jié)構(gòu)模式,比如:

·修飾性強(qiáng)的長(zhǎng)句(多層定語(yǔ)、隱喻、插入語(yǔ))

·簡(jiǎn)短有力的斷句(刀鋒般的短句,強(qiáng)調(diào)死亡、決絕)。

其后,機(jī)器就可以訓(xùn)練風(fēng)格分類器(Style Classifier),用以區(qū)分三島文本與其他作家的文本,并讓模型學(xué)習(xí)他的詞匯分布、句法模式、修辭風(fēng)格,從中提取獨(dú)特的風(fēng)格特征了。

AI是怎么生成特定風(fēng)格的文本的?

當(dāng)模型根據(jù)人類給定的條件來調(diào)整輸出,并生成特定風(fēng)格、主題或情感的文字時(shí),比如生成三島由紀(jì)夫風(fēng)格的文字,就叫做“受控文本生成”。

大模型會(huì)限制輸出自己句子的平均長(zhǎng)度、從句嵌套深度、比喻使用率等,使其符合三島的句法特點(diǎn),并優(yōu)先使用“死亡、美、毀滅、身體、宗教”等高頻詞,以保持風(fēng)格一致性。

而且如果降低溫度(Temperature),就可以控制詞匯分布、減少生成隨機(jī)性,使生成文本更符合訓(xùn)練數(shù)據(jù)風(fēng)格,并更具連貫性,不至于過于發(fā)散。

人類也很容易訓(xùn)練一個(gè)句法轉(zhuǎn)換模型(Syntax Transfer Model)和比喻生成器(Metaphor Generator),用以將普通文本轉(zhuǎn)換成三島風(fēng)格,比如:

·普通句子:“落葉在風(fēng)中飄零”“他的手指微微顫抖”

·三島風(fēng)格:“秋風(fēng)撕裂枝頭,枯葉如燒盡的詩(shī)篇,沉默地墜落”“他的指尖如風(fēng)中殘燭,顫抖著,仿佛即將熄滅”

甚至還可以結(jié)合情感分析模型(Sentiment Analysis),調(diào)整文本的情緒參數(shù),讓生成更具三島式的“悲壯美感”或“壓抑感”。

最后是大模型的評(píng)估與優(yōu)化環(huán)節(jié),機(jī)器可以自己計(jì)算三島文本與生成文本的困惑度。(Perplexity),評(píng)估其可讀性與風(fēng)格一致性,并使用BERTScore(計(jì)算生成文本與參考文本之間單詞片段的重復(fù)率)、BLEU(衡量生成文本覆蓋了多少原文的關(guān)鍵內(nèi)容)、ROUGE(將文本轉(zhuǎn)化為上下文語(yǔ)義向量,計(jì)算生成文本與原文在深層語(yǔ)義上的相似度)等方式,衡量生成文本與三島原文的相似度。

再加上人類“專家”的最后的評(píng)估與調(diào)優(yōu),機(jī)器就可以把文學(xué)、美學(xué)風(fēng)格轉(zhuǎn)化為數(shù)據(jù)、概率,并由此模擬任何人的寫作風(fēng)格。

作者應(yīng)該是AI本身,還是“原作者”,亦或是問問題的用戶?

卡夫卡在臨終前給了好友布洛德一份遺囑,要求他死后銷毀所有未發(fā)表的手稿,其中包括《城堡》、《審判》等公認(rèn)最偉大的文學(xué)作品??ǚ蚩ù饲熬投啻伪磉_(dá)過類似的意愿,并甚至親手銷毀過自己的手稿,但布洛德選擇了"背叛"他最好朋友的遺愿。他不但沒有銷毀這些手稿,反而傾盡畢生精力整理、編輯并出版了它們。

米蘭·昆德拉正是以這個(gè)故事展開他的著名的文論作品《被背叛的遺囑》的,而且恐怕沒有人會(huì)對(duì)此抱有異議:布洛德救贖了文學(xué),即使他背叛了作家本人的意愿與友誼,他還是干得漂亮,他做得太對(duì)了!

然而如果我們思考昆德拉在這本書中提出的另一個(gè)有趣的問題,答案似乎就不如此黑白鮮明了。斯特拉文斯基堅(jiān)持認(rèn)為,演奏者必須嚴(yán)格按照自己樂譜演奏,他反對(duì)任何形式的擅自改動(dòng)。即使在有些時(shí)候,經(jīng)過改動(dòng)后的樂譜演出效果更好。那么這種有悖于作曲家或藝術(shù)家原意的“更好”的改動(dòng),是可以被允許的嗎?昆德拉借題發(fā)揮道:

毫無疑問,人們完全可能把《追憶逝水年華》中的某個(gè)句子寫得更好些。但上哪兒去找這么個(gè)愿意讀一本修改后的普魯斯特作品的瘋子呢?

即使在實(shí)質(zhì)意義上,被改動(dòng)后的文本是比原來的文本“更好”的,這種改動(dòng)也是不被允許的。這個(gè)問題在昆德拉這里之所以是不證自明的,根本原因在于他認(rèn)為作者的作品是一個(gè)有機(jī)的整體,任何改動(dòng)都可能破壞其內(nèi)在的邏輯和意義。后人首先應(yīng)該尊重作者的創(chuàng)作意圖,并盡量理解和還原作者想要表達(dá)的思想和情感。

所以昆德拉并沒有在這個(gè)問題上更進(jìn)一步,這個(gè)被改動(dòng)了個(gè)別詞句的,甚至已經(jīng)改變了作者原意的“文本”,他的作者,到底應(yīng)該是普魯斯特,還是應(yīng)該是普魯斯特以及改動(dòng)了這段文本的那個(gè)人兩人合著呢?

而昆德拉之所以沒有考慮這個(gè)問題,主因或許是印刷時(shí)代的紙質(zhì)圖書生成方式,被其他人改動(dòng)了個(gè)別字句的《追憶似水年華》因?yàn)闆]有人愿意看的“市場(chǎng)性”原因根本沒有被印出來的價(jià)值,而且著作權(quán)也不允許這樣的著作被印出來。

所以文本的作者是普魯斯特與一個(gè)沒有經(jīng)過普魯斯特允許的改寫者的情況是不可能發(fā)生的。在信息的生產(chǎn)與流通并不依賴紙質(zhì)圖書的印刷、出版的數(shù)字時(shí)代,一般出現(xiàn)這種偷偷改動(dòng)原文個(gè)別字句并據(jù)為己用的情況,自然會(huì)被判定為洗稿。

但如果這段文本的創(chuàng)作者是具有生成能力的大語(yǔ)言模型呢?尤其是大語(yǔ)言模型生成的文本是在它學(xué)習(xí)了原作者的大量文本后,利用上述手段生成了在人類可以識(shí)別的“風(fēng)格”上完全相同的新的文本。如果AI生成文本的風(fēng)格與原作還有差距,那也只是AI“還”不能出色地完成仿寫任務(wù),而不是AI“不能”完成這個(gè)任務(wù)。

那么AI通過仿寫生成的文本,他的“作者”到底應(yīng)該是AI本身,是原始文本數(shù)據(jù)的提供者“原作者”,還是那個(gè)通過提問詞一步步引導(dǎo)AI生產(chǎn)出了這段文本的用戶?

很多人認(rèn)為AI生成的內(nèi)容應(yīng)視為“委托作品”,著作權(quán)歸屬于終端用戶。但另一種觀點(diǎn)認(rèn)為,AI生成的內(nèi)容缺乏人類創(chuàng)作者的直接參與,不應(yīng)視為作品,因而不受著作權(quán)法保護(hù)。純粹由AI生成的藝術(shù)作品不應(yīng)該獲得版權(quán)保護(hù),因?yàn)锳I提示本身不足以使用戶成為作品的作者。

而AI在生成內(nèi)容時(shí),未經(jīng)授權(quán)使用他人作品進(jìn)行訓(xùn)練,已經(jīng)出現(xiàn)過實(shí)際的侵權(quán)案例。例如,Thomson Reuters在與Ross Intelligence的訴訟中,法院裁定Ross未經(jīng)授權(quán)復(fù)制其內(nèi)容用于AI訓(xùn)練,侵犯了其版權(quán)。

不過美國(guó)的版權(quán)所有者態(tài)度與法律尺度比其他國(guó)家更為嚴(yán)苛。據(jù)傳,幾乎所有的著名AI公司都曾向數(shù)字圖書館安娜的檔案提出過合作邀約,但最后美國(guó)公司都因?yàn)閷?duì)于版權(quán)問題的擔(dān)憂而最終放棄了合作。

隨著AI技術(shù)的不斷進(jìn)步,AI生成內(nèi)容的著作權(quán)歸屬和相關(guān)法律倫理問題只會(huì)更加復(fù)雜。具有推理與文本生成能力的AI技術(shù)將為人類社會(huì)的方方面面的格局都帶來無比重大的改變,版權(quán)的概念與相關(guān)的法律條文概莫能外。


湖南省作家協(xié)會(huì) | 版權(quán)所有 : 湘ICP備05001310號(hào)
Copyright ? 2005 - 2012 Frguo. All Rights Reserved