如何利用Whisper與ChatGPT打破語言障礙，掌握全球電子技術知識

MATLAB畫圖 · 發(fā)表于 2024-9-12 20:24:00

在當今這個信息爆炸的時代，全球電子行業(yè)的技術知識正以前所未有的速度增長，特別是有了像YouTube、Linkedin、EDI CON Online、ZOOM這樣的網(wǎng)絡平臺之后，人們可以很方便地跨越地理位置限制進行知識的傳播分享。除了我們中國地區(qū)，世界各地的電子技術愛好者和行業(yè)專家每天也都在通過視頻分享他們的發(fā)現(xiàn)和創(chuàng)新以及工作上的心得。
互聯(lián)網(wǎng)打破了地域上的限制，然而，語言的障礙則成了一個巨大的挑戰(zhàn)。比如老wu所關注的Keysight、Zuken、Rohde&Schwarz等原廠的賬號，他們都是跨國性的公司，所以他們的技術分享視頻或者網(wǎng)絡研討會的回放錄像，就包括了多種語言、有英語、德語、日語或者韓語等等。
在以前，對于非中文及英文的視頻，老wu也就只能通過視頻里的PPT看圖猜意

。而現(xiàn)在，隨著AI技術的發(fā)展，我們可以使用先進的技術工具來幫助我們跨越語言障礙。Whisper，由OpenAI開發(fā)的一款強大的語音識別系統(tǒng)，能夠將這些視頻的語音內(nèi)容轉換成文字，并且支持多達99種語言的識別和翻譯。這意味著，無論視頻的原始語言是什么，我們都能夠通過Whisper生成準確的字幕。
生成字幕后，我們可以進一步利用像ChatGPT這樣的人工智能翻譯服務，將這些多語言的字幕翻譯成中文。這樣，我們就能夠跨越語言上的障礙，更容易地理解外語視頻中的內(nèi)容，從而學習到全球的電子技術分享知識。
在ChatGPT進化到ChatGPT 4o大語言模型之后，對于視頻里給出的PPT或者其他信息，我們也可以直接截屏，然后把截圖直接扔給ChatGPT 4o提取其中的文字并整理翻譯為中文。甚至還可以更懶一點，可以先讓ChatGPT去YouTube里對視頻做中文的總結，如果覺得視頻內(nèi)容合適，再進行全面的字幕提取并進行字幕的翻譯和回放，有了中文字幕，甚至可以將視頻和中文字幕扔到剪映軟件里，再選一個你喜歡的蘿莉音進行中文配音，轉換成中文蘿莉音視頻內(nèi)容

。
如果你有一塊性能不錯的CUDA顯卡，Whisper結合GPU進行實時字幕轉譯也是可以的，這樣即使是參加國外的實時網(wǎng)絡研討會或者在線課程也不成問題了。
什么是 WhisperWhisper 是由 OpenAI 開發(fā)的一款先進的語音識別系統(tǒng)，它不僅能夠進行語音轉寫，還能在多種語言之間進行翻譯。這款模型以其高準確率和多語言支持而著稱，特別擅長處理不同口音和復雜嘈雜的音頻環(huán)境。Whisper 模型采用了編碼器-解碼器結構的 Transformer 模型，通過大量多語言和多任務的監(jiān)督數(shù)據(jù)進行訓練，使其在英語語音識別上達到了接近人類水平的魯棒性和準確性。
Whisper 模型的訓練數(shù)據(jù)集非常龐大，包含了68萬小時的多語言音頻，涵蓋了98種不同的語言。這種大規(guī)模的訓練數(shù)據(jù)使得 Whisper 能夠很好地應對口音、背景噪音和技術術語等挑戰(zhàn)。此外，Whisper 還具備多任務處理能力，除了語音識別，還能執(zhí)行語音翻譯和語言識別等任務。
如何在 Windows 上安裝并使用 GPU加速的 WhisperWhisper 模型是基于深度神經(jīng)網(wǎng)絡的，而深度學習模型訓練和推理需要處理大量的矩陣計算。GPU 擅長進行大規(guī)模的并行計算，能夠同時處理大量的計算任務，相比于 CPU 的串行處理方式，GPU 可以大幅加速模型的推理速度。在使用Whisper 的大型模型（如 Whisper 的 large 語言模型）時，這種并行計算優(yōu)勢尤為明顯。
在老wu的I9 9900K+A4000顯卡配置的電腦上，同一份視頻，使用Whisper 的 Large V3模型的情況下，GPU會比使用CPU快上5倍左右。所以，如果你有一張顯存在12GB（ Large V3需要10GB左右的顯存）以上的N卡，建議使用GPU來加速Whisper。
如果你已經(jīng)可以訪問ChatGPT 4o大語言模型了，那你就直接問ChatGPT：“如何在windows系統(tǒng)中安裝Whisper并啟用CUDA GPU進行語音識別”，老wu下邊的安裝方法也是在ChatGPT 4o上問來的(￣▽￣)”，老wu在自己的電腦上親測過沒有問題，下邊附上相關操作步驟：
1. 安裝Python環(huán)境確保你的系統(tǒng)上安裝了Python 3.8或更高版本。如果沒有，請從Python官方網(wǎng)站：https://www.python.org/downloads/下載安裝。
安裝后在命令行中運行以下命令檢查是否正確安裝了Python：
python --version
2. 創(chuàng)建虛擬環(huán)境建議為Whisper創(chuàng)建一個虛擬環(huán)境，方便管理依賴庫。
打開命令提示符，運行以下命令來創(chuàng)建并激活虛擬環(huán)境：
python -m venv whisper_env
whisper_env\Scripts\activate
3. 安裝CUDA和cuDNN要啟用GPU支持，你需要確保系統(tǒng)已安裝NVIDIA的CUDA Toolkit和cuDNN庫。
3.1 安裝CUDA Toolkit從NVIDIA官方CUDA下載頁面 https://developer.nvidia.com/cuda-downloads下載并安裝與您的GPU和系統(tǒng)版本匹配的CUDA Toolkit（建議使用11.7或更高版本）。
3.2 安裝cuDNN從NVIDIA cuDNN頁面 https://developer.nvidia.com/cudnn下載cuDNN庫，解壓后將 bin, include, lib 文件夾的內(nèi)容復制到CUDA安裝目錄中（通常在 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.x）。
4. 安裝PyTorchWhisper使用PyTorch作為其深度學習框架。要啟用CUDA加速，你需要安裝支持GPU的PyTorch版本。
在虛擬環(huán)境中運行以下命令來安裝PyTorch（包括CUDA支持）：
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
這個命令假設你安裝了CUDA 11.7。如果使用其他版本的CUDA，請根據(jù)PyTorch的官方安裝頁面選擇相應的命令。
5. 安裝Whisper在虛擬環(huán)境中運行以下命令來安裝Whisper：
pip install git+https://github.com/openai/whisper.git
ps：如果以上的pip命令執(zhí)行失敗，提示網(wǎng)絡連接的問題，需要先為windows的控制臺設置一下代理，參見老wu博客里的這篇文章：
https://www.mr-wu.cn/windows-cmd-set-http-proxy/
6.安裝FFMPEG在Windows系統(tǒng)中安裝FFmpeg可以通過以下步驟來完成：
6.1. 下載FFmpeg首先，從FFmpeg的官方網(wǎng)站下載FFmpeg的Windows版本：
訪問FFmpeg的官方網(wǎng)站：https://ffmpeg.org/download.html
選擇“Windows”部分，點擊其中的鏈接進入FFmpeg Builds頁面。
在該頁面下，找到“Release builds”部分，下載最新的ffmpeg-release-essentials.zip壓縮包。
6.2. 解壓FFmpeg下載完成后，將ffmpeg-release-essentials.zip解壓縮到你想要存儲的目錄。推薦將其解壓到C:\ffmpeg文件夾中，以方便管理。
6.3. 配置系統(tǒng)環(huán)境變量為了在命令行或腳本中全局使用FFmpeg，需要將FFmpeg的路徑添加到系統(tǒng)環(huán)境變量中。
6.3.1 打開環(huán)境變量設置右鍵單擊“此電腦”或“我的電腦”，選擇“屬性”。
在左側菜單中選擇“高級系統(tǒng)設置”。
點擊“環(huán)境變量”按鈕。
6.3.2 添加FFmpeg到系統(tǒng)路徑在“系統(tǒng)變量”部分找到并選擇Path，然后點擊“編輯”。
在彈出的對話框中點擊“新建”，然后添加FFmpeg的bin目錄路徑。例如：
C:\ffmpeg\bin
6.3.3 保存設置點擊“確定”保存所有更改，關閉所有窗口。
6.3.4. 驗證安裝完成環(huán)境變量配置后，打開命令提示符（cmd），并輸入以下命令來驗證FFmpeg是否已成功安裝：
ffmpeg -version
如果安裝成功，你將看到FFmpeg的版本信息。
6.3.5. 配合Python使用如果你打算在Python項目中使用FFmpeg，建議安裝一個庫來方便與FFmpeg進行交互，比如ffmpeg-python。可以使用以下命令安裝：
pip install ffmpeg-python
7. 測試CUDA是否工作你可以通過如下代碼確認PyTorch是否成功使用了GPU：
打開命令提示符（cmd），然后輸入whisper_env\Scripts\activate切換到Whisper虛擬環(huán)境，接著輸入python，進入python環(huán)境
在python環(huán)境中輸入以下代碼：
import torch
import whisper
# 檢查CUDA是否可用
device = "cuda" if torch.cuda.is_available() else"cpu"
print(f"Using device: {device}")

如果輸出為True，則表明CUDA已成功啟用。
通過這些步驟，你應該能夠在Windows系統(tǒng)上安裝并使用Whisper，同時啟用CUDA GPU來加速語音識別任務。
如果你沒有合適的N卡，只能用CPU運算的話，可以直接安裝使用整個buzz項目的安裝包，無需手動配置python環(huán)境，對新手更為友好些：
https://github.com/chidiwilliams/buzz/releases
使用ChatGPT翻譯為中文字幕Whisper本身是可以將非英文語音內(nèi)容直接翻譯為英文字幕的，但對直接翻譯輸出為中文語言的字幕支持得不夠好，老wu一般都是在Whisper里先生成視頻語言對應的字幕，然后再扔給ChatGPT 4o整理翻譯為中文字幕。
當然，ChatGPT 4o還可以翻譯外文文檔資料，使用了一段時間了，老wu覺得對英文、德文、日文、韓文的翻譯質量都挺高的。
如何使用ChatGPT可以參考老wu之前的這篇文檔：
https://www.mr-wu.cn/how-to-register-for-chatgpt/
ps：距離老wu寫的《如何注冊OpenAI賬號體驗ChatGPT》也有一段時間了，目前ChatGPT的ChatGPT 4o mini模型已經(jīng)可以免費使用，而且不需要境外的手機賬號接收短信驗證碼進行驗證了，只需搞定網(wǎng)絡訪問的問題即可。如果需要ChatGPT 4o 的付費模型，目前國內(nèi)也有一些不錯的ChatGPT Plus共享賬戶的購買平臺，10個人共享一個賬號，只需19.99元每月，如果使用頻率不高的情況下可以考慮購買這種共享的賬號，老wu也用了一段時間了，還是挺穩(wěn)的，缺點就是多人共享，你的提問會被其他人看到，還有就是會話次數(shù)會被別人消耗完而需要等待一個小時的冷卻時間。