如何利用Whisper與ChatGPT打破語言障礙，掌握全球電子技術(shù)知識(shí)

MATLAB畫圖 · 發(fā)表于 2024-9-12 20:24:00

在當(dāng)今這個(gè)信息爆炸的時(shí)代，全球電子行業(yè)的技術(shù)知識(shí)正以前所未有的速度增長，特別是有了像YouTube、Linkedin、EDI CON Online、ZOOM這樣的網(wǎng)絡(luò)平臺(tái)之后，人們可以很方便地跨越地理位置限制進(jìn)行知識(shí)的傳播分享。除了我們中國地區(qū)，世界各地的電子技術(shù)愛好者和行業(yè)專家每天也都在通過視頻分享他們的發(fā)現(xiàn)和創(chuàng)新以及工作上的心得。
互聯(lián)網(wǎng)打破了地域上的限制，然而，語言的障礙則成了一個(gè)巨大的挑戰(zhàn)。比如老wu所關(guān)注的Keysight、Zuken、Rohde&Schwarz等原廠的賬號(hào)，他們都是跨國性的公司，所以他們的技術(shù)分享視頻或者網(wǎng)絡(luò)研討會(huì)的回放錄像，就包括了多種語言、有英語、德語、日語或者韓語等等。
在以前，對(duì)于非中文及英文的視頻，老wu也就只能通過視頻里的PPT看圖猜意

。而現(xiàn)在，隨著AI技術(shù)的發(fā)展，我們可以使用先進(jìn)的技術(shù)工具來幫助我們跨越語言障礙。Whisper，由OpenAI開發(fā)的一款強(qiáng)大的語音識(shí)別系統(tǒng)，能夠?qū)⑦@些視頻的語音內(nèi)容轉(zhuǎn)換成文字，并且支持多達(dá)99種語言的識(shí)別和翻譯。這意味著，無論視頻的原始語言是什么，我們都能夠通過Whisper生成準(zhǔn)確的字幕。
生成字幕后，我們可以進(jìn)一步利用像ChatGPT這樣的人工智能翻譯服務(wù)，將這些多語言的字幕翻譯成中文。這樣，我們就能夠跨越語言上的障礙，更容易地理解外語視頻中的內(nèi)容，從而學(xué)習(xí)到全球的電子技術(shù)分享知識(shí)。
在ChatGPT進(jìn)化到ChatGPT 4o大語言模型之后，對(duì)于視頻里給出的PPT或者其他信息，我們也可以直接截屏，然后把截圖直接扔給ChatGPT 4o提取其中的文字并整理翻譯為中文。甚至還可以更懶一點(diǎn)，可以先讓ChatGPT去YouTube里對(duì)視頻做中文的總結(jié)，如果覺得視頻內(nèi)容合適，再進(jìn)行全面的字幕提取并進(jìn)行字幕的翻譯和回放，有了中文字幕，甚至可以將視頻和中文字幕扔到剪映軟件里，再選一個(gè)你喜歡的蘿莉音進(jìn)行中文配音，轉(zhuǎn)換成中文蘿莉音視頻內(nèi)容

。
如果你有一塊性能不錯(cuò)的CUDA顯卡，Whisper結(jié)合GPU進(jìn)行實(shí)時(shí)字幕轉(zhuǎn)譯也是可以的，這樣即使是參加國外的實(shí)時(shí)網(wǎng)絡(luò)研討會(huì)或者在線課程也不成問題了。
什么是 WhisperWhisper 是由 OpenAI 開發(fā)的一款先進(jìn)的語音識(shí)別系統(tǒng)，它不僅能夠進(jìn)行語音轉(zhuǎn)寫，還能在多種語言之間進(jìn)行翻譯。這款模型以其高準(zhǔn)確率和多語言支持而著稱，特別擅長處理不同口音和復(fù)雜嘈雜的音頻環(huán)境。Whisper 模型采用了編碼器-解碼器結(jié)構(gòu)的 Transformer 模型，通過大量多語言和多任務(wù)的監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練，使其在英語語音識(shí)別上達(dá)到了接近人類水平的魯棒性和準(zhǔn)確性。
Whisper 模型的訓(xùn)練數(shù)據(jù)集非常龐大，包含了68萬小時(shí)的多語言音頻，涵蓋了98種不同的語言。這種大規(guī)模的訓(xùn)練數(shù)據(jù)使得 Whisper 能夠很好地應(yīng)對(duì)口音、背景噪音和技術(shù)術(shù)語等挑戰(zhàn)。此外，Whisper 還具備多任務(wù)處理能力，除了語音識(shí)別，還能執(zhí)行語音翻譯和語言識(shí)別等任務(wù)。
如何在 Windows 上安裝并使用 GPU加速的 WhisperWhisper 模型是基于深度神經(jīng)網(wǎng)絡(luò)的，而深度學(xué)習(xí)模型訓(xùn)練和推理需要處理大量的矩陣計(jì)算。GPU 擅長進(jìn)行大規(guī)模的并行計(jì)算，能夠同時(shí)處理大量的計(jì)算任務(wù)，相比于 CPU 的串行處理方式，GPU 可以大幅加速模型的推理速度。在使用Whisper 的大型模型（如 Whisper 的 large 語言模型）時(shí)，這種并行計(jì)算優(yōu)勢尤為明顯。
在老wu的I9 9900K+A4000顯卡配置的電腦上，同一份視頻，使用Whisper 的 Large V3模型的情況下，GPU會(huì)比使用CPU快上5倍左右。所以，如果你有一張顯存在12GB（ Large V3需要10GB左右的顯存）以上的N卡，建議使用GPU來加速Whisper。
如果你已經(jīng)可以訪問ChatGPT 4o大語言模型了，那你就直接問ChatGPT：“如何在windows系統(tǒng)中安裝Whisper并啟用CUDA GPU進(jìn)行語音識(shí)別”，老wu下邊的安裝方法也是在ChatGPT 4o上問來的(￣▽￣)”，老wu在自己的電腦上親測過沒有問題，下邊附上相關(guān)操作步驟：
1. 安裝Python環(huán)境確保你的系統(tǒng)上安裝了Python 3.8或更高版本。如果沒有，請(qǐng)從Python官方網(wǎng)站：https://www.python.org/downloads/下載安裝。
安裝后在命令行中運(yùn)行以下命令檢查是否正確安裝了Python：
python --version
2. 創(chuàng)建虛擬環(huán)境建議為Whisper創(chuàng)建一個(gè)虛擬環(huán)境，方便管理依賴庫。
打開命令提示符，運(yùn)行以下命令來創(chuàng)建并激活虛擬環(huán)境：
python -m venv whisper_env
whisper_env\Scripts\activate
3. 安裝CUDA和cuDNN要啟用GPU支持，你需要確保系統(tǒng)已安裝NVIDIA的CUDA Toolkit和cuDNN庫。
3.1 安裝CUDA Toolkit從NVIDIA官方CUDA下載頁面 https://developer.nvidia.com/cuda-downloads下載并安裝與您的GPU和系統(tǒng)版本匹配的CUDA Toolkit（建議使用11.7或更高版本）。
3.2 安裝cuDNN從NVIDIA cuDNN頁面 https://developer.nvidia.com/cudnn下載cuDNN庫，解壓后將 bin, include, lib 文件夾的內(nèi)容復(fù)制到CUDA安裝目錄中（通常在 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.x）。
4. 安裝PyTorchWhisper使用PyTorch作為其深度學(xué)習(xí)框架。要啟用CUDA加速，你需要安裝支持GPU的PyTorch版本。
在虛擬環(huán)境中運(yùn)行以下命令來安裝PyTorch（包括CUDA支持）：
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
這個(gè)命令假設(shè)你安裝了CUDA 11.7。如果使用其他版本的CUDA，請(qǐng)根據(jù)PyTorch的官方安裝頁面選擇相應(yīng)的命令。
5. 安裝Whisper在虛擬環(huán)境中運(yùn)行以下命令來安裝Whisper：
pip install git+https://github.com/openai/whisper.git
ps：如果以上的pip命令執(zhí)行失敗，提示網(wǎng)絡(luò)連接的問題，需要先為windows的控制臺(tái)設(shè)置一下代理，參見老wu博客里的這篇文章：
https://www.mr-wu.cn/windows-cmd-set-http-proxy/
6.安裝FFMPEG在Windows系統(tǒng)中安裝FFmpeg可以通過以下步驟來完成：
6.1. 下載FFmpeg首先，從FFmpeg的官方網(wǎng)站下載FFmpeg的Windows版本：
訪問FFmpeg的官方網(wǎng)站：https://ffmpeg.org/download.html
選擇“Windows”部分，點(diǎn)擊其中的鏈接進(jìn)入FFmpeg Builds頁面。
在該頁面下，找到“Release builds”部分，下載最新的ffmpeg-release-essentials.zip壓縮包。
6.2. 解壓FFmpeg下載完成后，將ffmpeg-release-essentials.zip解壓縮到你想要存儲(chǔ)的目錄。推薦將其解壓到C:\ffmpeg文件夾中，以方便管理。
6.3. 配置系統(tǒng)環(huán)境變量為了在命令行或腳本中全局使用FFmpeg，需要將FFmpeg的路徑添加到系統(tǒng)環(huán)境變量中。
6.3.1 打開環(huán)境變量設(shè)置右鍵單擊“此電腦”或“我的電腦”，選擇“屬性”。
在左側(cè)菜單中選擇“高級(jí)系統(tǒng)設(shè)置”。
點(diǎn)擊“環(huán)境變量”按鈕。
6.3.2 添加FFmpeg到系統(tǒng)路徑在“系統(tǒng)變量”部分找到并選擇Path，然后點(diǎn)擊“編輯”。
在彈出的對(duì)話框中點(diǎn)擊“新建”，然后添加FFmpeg的bin目錄路徑。例如：
C:\ffmpeg\bin
6.3.3 保存設(shè)置點(diǎn)擊“確定”保存所有更改，關(guān)閉所有窗口。
6.3.4. 驗(yàn)證安裝完成環(huán)境變量配置后，打開命令提示符（cmd），并輸入以下命令來驗(yàn)證FFmpeg是否已成功安裝：
ffmpeg -version
如果安裝成功，你將看到FFmpeg的版本信息。
6.3.5. 配合Python使用如果你打算在Python項(xiàng)目中使用FFmpeg，建議安裝一個(gè)庫來方便與FFmpeg進(jìn)行交互，比如ffmpeg-python。可以使用以下命令安裝：
pip install ffmpeg-python
7. 測試CUDA是否工作你可以通過如下代碼確認(rèn)PyTorch是否成功使用了GPU：
打開命令提示符（cmd），然后輸入whisper_env\Scripts\activate切換到Whisper虛擬環(huán)境，接著輸入python，進(jìn)入python環(huán)境
在python環(huán)境中輸入以下代碼：
import torch
import whisper
# 檢查CUDA是否可用
device = "cuda" if torch.cuda.is_available() else"cpu"
print(f"Using device: {device}")

如果輸出為True，則表明CUDA已成功啟用。
通過這些步驟，你應(yīng)該能夠在Windows系統(tǒng)上安裝并使用Whisper，同時(shí)啟用CUDA GPU來加速語音識(shí)別任務(wù)。
如果你沒有合適的N卡，只能用CPU運(yùn)算的話，可以直接安裝使用整個(gè)buzz項(xiàng)目的安裝包，無需手動(dòng)配置python環(huán)境，對(duì)新手更為友好些：
https://github.com/chidiwilliams/buzz/releases
使用ChatGPT翻譯為中文字幕Whisper本身是可以將非英文語音內(nèi)容直接翻譯為英文字幕的，但對(duì)直接翻譯輸出為中文語言的字幕支持得不夠好，老wu一般都是在Whisper里先生成視頻語言對(duì)應(yīng)的字幕，然后再扔給ChatGPT 4o整理翻譯為中文字幕。
當(dāng)然，ChatGPT 4o還可以翻譯外文文檔資料，使用了一段時(shí)間了，老wu覺得對(duì)英文、德文、日文、韓文的翻譯質(zhì)量都挺高的。
如何使用ChatGPT可以參考老wu之前的這篇文檔：
https://www.mr-wu.cn/how-to-register-for-chatgpt/
ps：距離老wu寫的《如何注冊(cè)O(shè)penAI賬號(hào)體驗(yàn)ChatGPT》也有一段時(shí)間了，目前ChatGPT的ChatGPT 4o mini模型已經(jīng)可以免費(fèi)使用，而且不需要境外的手機(jī)賬號(hào)接收短信驗(yàn)證碼進(jìn)行驗(yàn)證了，只需搞定網(wǎng)絡(luò)訪問的問題即可。如果需要ChatGPT 4o 的付費(fèi)模型，目前國內(nèi)也有一些不錯(cuò)的ChatGPT Plus共享賬戶的購買平臺(tái)，10個(gè)人共享一個(gè)賬號(hào)，只需19.99元每月，如果使用頻率不高的情況下可以考慮購買這種共享的賬號(hào)，老wu也用了一段時(shí)間了，還是挺穩(wěn)的，缺點(diǎn)就是多人共享，你的提問會(huì)被其他人看到，還有就是會(huì)話次數(shù)會(huì)被別人消耗完而需要等待一個(gè)小時(shí)的冷卻時(shí)間。

如何利用Whisper與ChatGPT打破語言障礙，掌握全球電子技術(shù)知識(shí)

發(fā)表回復(fù)

精選推薦

站長推薦 /1