上一周大部分時(shí)間都花在了折騰小語(yǔ)種上,利用近一周的時(shí)間,總算是將這塊內(nèi)容折騰明白了。所以這篇文章就簡(jiǎn)單總結(jié)一下,我在做小語(yǔ)種翻譯過(guò)程中涉及到的一些流程與思路。
首先要說(shuō)明兩個(gè)問(wèn)題,其一是為什么不用自動(dòng)化翻譯的問(wèn)題,其二是為什么不用相關(guān)翻譯軟件 API 的問(wèn)題。
第一,自動(dòng)化翻譯出來(lái)的質(zhì)量不高,會(huì)導(dǎo)致后續(xù)不斷掉收錄,甚至可能會(huì)拉低全站質(zhì)量。所以思來(lái)想去,干脆放棄了類似于谷歌翻譯這樣的功能,轉(zhuǎn)而使用 OpenAI 訓(xùn)練身份設(shè)定,將對(duì)應(yīng)詞條轉(zhuǎn)述為對(duì)應(yīng)小語(yǔ)種版本。
第二,不使用 API 主要還是因?yàn)樾詢r(jià)比的問(wèn)題。像 DeepL API 這種質(zhì)量還不錯(cuò)的方案,開通會(huì)員版后,25 美金只能翻譯一百萬(wàn)字符,基本就是 30 個(gè)頁(yè)面左右。
而我的網(wǎng)站目前就有一千三百多個(gè)頁(yè)面,使用這種方案的話真的有點(diǎn)扛不住。即便去買免費(fèi)版的 DeepL API,每個(gè)月也需要花費(fèi)近千元了。
當(dāng)然,這周也陸陸續(xù)續(xù)試了一些朋友的推薦(比如有朋友推薦的 Deeplx 方案),總結(jié)起來(lái)就是「好貨不便宜,便宜無(wú)好貨」。所以,最后也就決定直接使用 OpenAI 訓(xùn)練身份設(shè)定來(lái)翻譯詞條了。
整體方案確定了,下一步要做的就是執(zhí)行細(xì)則。目前我的做法是,手工整理頁(yè)面詞條信息,然后交由 OpenAI 轉(zhuǎn)述成對(duì)應(yīng)小語(yǔ)種,然后利用工具將英語(yǔ)版本與小語(yǔ)種版本的詞條一一對(duì)應(yīng)起來(lái),存儲(chǔ)到表格中。
這個(gè)過(guò)程,最基本也是最重要的要求,就是英語(yǔ)與小語(yǔ)種的詞條對(duì)應(yīng)順序不能錯(cuò),否則就亂套了,好在這塊我直接寫了一個(gè) Python 腳本協(xié)助處理,直接將「人」這個(gè)不確定因素剔除出去。
到這一步,基本不費(fèi)什么人工,唯一需要手動(dòng)操作的地方,就是手動(dòng)去整理頁(yè)面的詞條。我簡(jiǎn)單統(tǒng)計(jì)了一下,平均整理一個(gè)頁(yè)面耗時(shí)在一分鐘左右,還能接受。且目前我的 OpenAI 都是使用的第三方工具提供的,也沒花錢。
下一步就需要將這一個(gè)一個(gè)小語(yǔ)種的詞條,填充到小語(yǔ)種的頁(yè)面中去了,可能這也是整個(gè)流程比較讓人頭痛的一點(diǎn)。
目前,我網(wǎng)站小語(yǔ)種插件使用的是 TranslatePress 開發(fā)版,支持自定義頁(yè)面編輯。假如使用人工一條一條去處理的話,可能猴年馬月都干不完。
所以我就嘗試著去找一些翻譯詞條批量上傳的工具,試了幾個(gè)效果都不理想。所以這也是我最煩 TranslatePress 的一個(gè)點(diǎn),為什么不提供一個(gè)翻譯詞條批量上傳的功能(有這個(gè)功能能省事不少)。
可能人家出于商業(yè)變現(xiàn)的考量,閹割了這個(gè)需求。那干脆我就只能自己動(dòng)手寫了,主要也就是兩個(gè)方案。一是寫專門的上傳插件,去對(duì)接 TranslatePress 數(shù)據(jù)庫(kù),從根上解決問(wèn)題。二是寫 RPA 自動(dòng)執(zhí)行腳本(或者自動(dòng)化流程),直接將「人工」從詞條更新這個(gè)環(huán)節(jié)抽離出去。
焦慮了一個(gè)上午,最后決定還是采用 RPA 方案。畢竟節(jié)省時(shí)間,節(jié)省成本,因?yàn)槲艺娴臎]有時(shí)間去深入了解 TranslatePress 的表結(jié)構(gòu)設(shè)計(jì)。
上圖便是昨天下午寫出來(lái)的自動(dòng)化流程,200 多行代碼,整體上寫出來(lái)不難。比較耗時(shí)間的就是測(cè)試、微調(diào),好在這個(gè)部分工作今天也做完了。簡(jiǎn)單試驗(yàn)了十幾個(gè)頁(yè)面,效果還不錯(cuò),畢竟這種「復(fù)制粘貼」的工作,我是真的不愿做。
上面就是我的一些流程,有興趣或者有疑問(wèn),歡迎交流。
文章為作者獨(dú)立觀點(diǎn),不代表DLZ123立場(chǎng)。如有侵權(quán),請(qǐng)聯(lián)系我們。( 版權(quán)為作者所有,如需轉(zhuǎn)載,請(qǐng)聯(lián)系作者 )

網(wǎng)站運(yùn)營(yíng)至今,離不開小伙伴們的支持。 為了給小伙伴們提供一個(gè)互相交流的平臺(tái)和資源的對(duì)接,特地開通了獨(dú)立站交流群。
群里有不少運(yùn)營(yíng)大神,不時(shí)會(huì)分享一些運(yùn)營(yíng)技巧,更有一些資源收藏愛好者不時(shí)分享一些優(yōu)質(zhì)的學(xué)習(xí)資料。
現(xiàn)在可以掃碼進(jìn)群,備注【加群】。 ( 群完全免費(fèi),不廣告不賣課!)