So verwandeln Sie Ihre Stimme mit Whisper von OpenAI für Windows in Text

So verwandeln Sie Ihre Stimme mit Whisper von OpenAI für Windows in Text

Whisper von OpenAI ist eine neue KI-gestützte Lösung, die Ihre Stimme in Text umwandeln kann. Das Beste daran ist, dass es zum Nulltarif kommt.

Es gibt jedoch einen Haken: Es ist schwieriger zu installieren und zu verwenden als ein durchschnittliches Windows-Dienstprogramm. Vor allem, wenn Sie die Tensor-Kerne Ihrer Nvidia-GPU verwenden möchten, um ihr einen schönen Schub zu geben.

Aber ärgere dich nicht. Deshalb sind wir hier! Lesen Sie weiter, um herauszufinden, wie Sie es installieren und verwenden, aber auch, wenn Sie eines besitzen, um Whisper Ihre Nvidia-GPU nutzen zu lassen.

Was ist OpenAIs Whisper?

ChatGPT ist heutzutage der letzte Schrei, und wir haben bereits gesehen, wie Sie ChatGPT von OpenAI verwenden können. Und doch ist es nicht das einzige interessante Projekt von OpenAI.

Angetrieben von Deep Learning und neuronalen Netzen ist Whisper ein natürliches Sprachverarbeitungssystem, das Sprache „verstehen“ und in Text umwandeln kann. Aber es ist auch eine eigene Sache, die zwischen allen ähnlichen Lösungen an einem Platz sitzt:

  • Whisper ist eine KI-Lösung, die auf natürliche Sprache „trainiert“ ist. Es versteht also „normale“ menschliche Sprache besser als ältere Lösungen.
  • Whisper verfügt weder über eine Schnittstelle noch kann es Audio aufnehmen. Es kann nur vorhandene Audiodateien nehmen und Textdateien ausgeben.
  • Da es gut darin ist, „Sprache zu verstehen“, hat Whisper auch die Superkraft der automatischen Übersetzung in einem einzigen Schritt.
  • Whisper ist kein Onlinedienst und kann vollständig offline arbeiten.
  • Wenn Sie eine relativ moderne Nvidia-GPU (GTX970 oder neuer) haben, kann Whisper im „hardwarebeschleunigten Modus“ laufen, um seine Geschwindigkeit zu erhöhen.
  • Es ist nicht erforderlich, sich zu registrieren, eine Lizenz zu erwerben oder ein Abonnement zu erwerben.

Warum werden AMD-GPUs nicht unterstützt?

Damit GPUs nicht nur für Grafiken nützlich sind, müssen sie als voll programmierbare Prozessoren fungieren. Aus diesem Grund hat Nvidia CUDA entwickelt, das offiziell als „Parallel-Computing-Plattform und Programmiermodell“ gilt. Um mehr über CUDA und verwandte Hardware („CUDA-Kerne“) zu erfahren, lesen Sie unseren Artikel darüber, was CUDA-Kerne sind und wie sie PC-Spiele verbessern.

CUDA ist eine proprietäre Nvidia-Technologie, die nur mit Nvidia-GPUs kompatibel ist. Die nächsten Alternativen für AMDs Hardware sind OpenCL und Radeon Compute Platform. Um mehr darüber zu erfahren, wie die Lösungen der einzelnen Unternehmen im Vergleich abschneiden, lesen Sie unseren Artikel über AMD Compute Units vs. Nvidia CUDA Cores.

Im Vergleich zu den Alternativen gilt CUDA als ausgereifter, performanter und benutzerfreundlicher. Daher zielen die meisten Entwickler nur auf CUDA ab, was wiederum bedeutet, dass ihre Software nur die Hardwarefunktionen auf Nvidia-GPUs nutzt. Und dazu gehört Whisper.

So laden Sie Whisper herunter und installieren es

Leider ist Whisper keine eigenständige App, die Sie herunterladen, installieren und ausführen können. Es ist auf andere Software angewiesen, die ebenfalls installiert werden muss.

Um diese Anleitung für Windows einfach zu halten, verwenden wir Chocolatey ausgiebig, um die meisten erforderlichen Softwareteile zu installieren. Weitere Informationen zu Chocolatey finden Sie in unserem Leitfaden zur schnellsten Installation von Windows-Software.

Für Linux und Macs sollte der Installationsprozess (mit Ausnahme der Windows-Pfadvariablen und der benutzerfreundlichen Stapeldateien, die wir erstellen) ähnlich sein.

  1. Um Whisper zu installieren und zu verwenden, müssen Sie Python und sein PIP- Tool installiert und zur Windows-Variable „Path“ hinzugefügt haben. Informationen dazu finden Sie in unserem Artikel zur Installation von Python PIP unter Windows, Mac und Linux.
  2. Installieren Sie FFMPEG über Chocolatey mit diesem Befehl: Installieren Sie auch die Python-Version mit: choco install ffmpeg pip3 install python-ffmpeg
    pip installiere python ffmpeg
  3. Schließlich installieren Sie Whisper von seiner Github-Seite mit: pip3 install git+https://github.com/openai/whisper.git

Die CUDA-fähige Version von Whisper erhalten

Obwohl Whisper keine Nvidia-GPUs verwendet, bietet das Fackelpaket, auf das es sich stützt, eine CUDA-beschleunigte Version. Die Verwendung dieser anstelle der „einfachen“ Version kann Whisper helfen, seine Transkriptionen mit Hilfe Ihrer Nvidia-GPU viel schneller fertigzustellen.

Damit Whisper die CUDA-Kerne Ihrer Nvidia-GPU verwendet:

  1. Wenn Sie bereits die „Vanilla“-Version von Torch installiert haben, deinstallieren und entfernen Sie Reste davon mit: Sobald es fertig ist, folgen Sie ihm: pip3 uninstall torch pip cache purge
  2. Installieren Sie die CUDA-fähige Version von Torch mit: pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
    pip3 installieren Torch Vision Torchaudio
  3. Um zu überprüfen, ob Whisper Ihre Nvidia-GPU verwenden kann, verwenden Sie: Sie sollten (Standard: cuda) anstelle von (Standard: cpu) sehen . whisper --help | findstr -i pytorch

Was tun, wenn Torch nicht installiert werden kann

Wenn Sie während der Installation von Torch auf den Fehler „keine Version gefunden“ stoßen, müssen Sie möglicherweise eine ältere Version von Python parallel zu Ihrer aktuellen installieren.

Verwenden Sie dazu diesen Befehl:

choco install python --version OLDER_VERSION --side-by-side

Ersetzen Sie „OLDER_VERSION“ durch eine Version wie 3.10.

choco install python alternative version

Verwenden Sie dann den Pfad der sekundären Version für alle „generischen“ Whisper-Befehle (z. B. „c:\Python310\Scripts\pip.exe“ statt nur „pip“).

So nehmen Sie Ihre Stimme auf

Sie können jede Tonaufnahme-App verwenden, um Ihre Stimme in eine WAV- oder MP3-Datei umzuwandeln. Windows enthält eine solche App – weitere Informationen dazu finden Sie unter So verwenden Sie die Windows 10 Voice Recorder-App.

Probieren Sie für eine Option mit mehr Funktionen Audacity aus . Erfahren Sie, wie das geht, mit unserem Leitfaden zur Verwendung von Audacity zum Aufnehmen von Audio unter Windows und Mac.

Stimme aufnehmen mit Audacity

So starten Sie die Transkription mit Whisper

Obwohl Whisper nicht mit einer benutzerfreundlichen GUI ausgestattet ist, ist seine Verwendung extrem einfach.

Nehmen wir an, wir haben die Datei LatestNote.mp3 , die Sprache auf Griechisch enthält, im Ordner c:\MyAudioFiles , und möchten sie ins Englische übersetzen und in eine Textdatei transkribieren.

  1. Wir beginnen mit dem Ausführen von Command Prompt oder PowerShell .
  2. Wir „wechseln das Verzeichnis“, in dem die Audiodatei gespeichert ist, mit diesem Befehl: cd C:\MyAudioFiles
  3. Wir setzen Whisper auf die Datei los mit: whisper --model base --language gr --task translate LatestNote.mp3
    Flüstern übersetzen gr

Nach der Verarbeitung erscheint die Textdatei (mit dem Namen „LatestNote.mp3.txt“) im selben Ordner. Öffnen Sie es in einem Texteditor wie Notepad , um den übersetzten Text anzuzeigen.

Wir haben ein Übersetzungsbeispiel verwendet, weil die englische Transkription noch einfacher ist: Sie müssen nur die Flags „–language“ und „-task“ „verlieren“. Für eine einfache Transkription wäre der obige Befehl also:

whisper --model base LatestNote.mp3

Das „model“-Flag ist erforderlich, da Whisper eine von mehreren Optionen verwendet. Lassen Sie uns sie erweitern, um Ihnen bei der Auswahl der besten für Ihre Bedürfnisse zu helfen.

Welches Modell wählen?

Whisper bietet verschiedene Sprachmodelle an. Je größer das Modell, desto besser die Genauigkeit, aber auch die Anforderungen an die Hardware. Sie sind:

  1. Winzig.
  2. Base.
  3. Klein.
  4. Mittel.
  5. Groß.

Die meisten englischen Muttersprachler sollten mit den winzigen oder Basismodellen zurechtkommen. Nicht-englische Muttersprachler sehen möglicherweise bessere Ergebnisse mit größeren Modellen, z. B. klein und mittel .

Beachten Sie jedoch, dass die mittleren und großen Modelle über 8 GB VRAM (d. h. „Ihren GPU-Speicher“) benötigen.

Flüstermodell klein

Um eines davon auszuwählen, geben Sie das Modell nach dem „–model“-Schalter im Befehl an:

whisper --model tiny/small/medium/large [file]

Zum Beispiel:

whisper --model small My_Voice_Note.mp3

So optimieren Sie Ihre Transkription

Jedes Mal, wenn Sie etwas Audio transkribieren möchten, den gesamten Whisper-Befehl eingeben zu müssen, kann schnell langweilig werden. Lassen Sie uns eine global zugängliche Batchdatei erstellen, um den Prozess zu optimieren.

  1. Führen Sie Windows Explorer aus und besuchen Sie Ihr Laufwerk C:.
  2. Erstellen Sie einen Ordner für Ihre Skripts und kopieren Sie seinen Pfad in die Zwischenablage.
  3. Suchen Sie im Windows-Startmenü nach „Pfad“ und wählen Sie Systemumgebungsvariablen bearbeiten aus .
    Windows Start Bearbeiten Sie die Systemumgebungsvariablen
  4. Suchen Sie die Path – Variable unter Benutzervariablen für YOUR_USERNAME . Doppelklicken Sie darauf, um es zu bearbeiten. Klicken Sie auf Neu und fügen Sie den Pfad zu Ihrem Skriptordner ein. Klicken Sie auf OK , um die Änderungen zu übernehmen.
    Umgebungsvariablen Benutzerkontopfad
  5. Kehren Sie im Windows Explorer zu Ihrem Skriptordner zurück. Erstellen Sie dort eine neue Batch-Datei mit dem Namen „wht.bat“. Platzieren Sie diesen Befehl „darin“: whisper --model tiny --language en %1
    WHT-Stapeldatei erstellen
  6. Erstellen Sie zwei weitere Batchdateien, „whs“ und „whm“.
  7. Fügen Sie dies in das erste Skript ein: whisper --model small --language en %1
  8. Platzieren Sie dies in der zweiten: whisper --model medium --language en %1

Herzlichen Glückwunsch, Sie haben jetzt drei Skripte zur einfachen Verwendung der kleinen, kleinen und mittleren Modelle von Whisper mit Ihren Audiodateien! So transkribieren Sie eine beliebige Audiodatei in Text:

  1. Suchen Sie die Datei mit dem Windows-Datei-Explorer .
  2. Klicken Sie mit der rechten Maustaste auf eine leere Stelle und wählen Sie In Terminal öffnen .
  3. Geben Sie diesen Befehl ein und ersetzen Sie „wht“ durch „whs“ oder „whm“, um die kleinen oder mittleren Sprachmodelle zu verwenden: wht YOUR_AUDIO_FILE.mp3

Mit Whisper in Schallgeschwindigkeit tippen

Selbst die schnellsten Zehnfachschreiber können nicht mit der Geschwindigkeit mithalten, mit der wir sprechen. Doch bis vor kurzem war Sprechen statt Tippen nicht optimal für die Erstellung von Dokumenten.

Die meisten Voice-to-Text-Lösungen lieferten mittelmäßige Ergebnisse. Sie könnten einige Lösungen finden, die es wert sind, ausprobiert zu werden, aber sie waren kompliziert in der Anwendung oder kostspielig. Zum Glück hat Whisper das alles geändert.

Nach den obigen Schritten sollten Sie in der Lage sein, Ihre Stimme mit nur einem einzigen Befehl mit hoher Genauigkeit zu transkribieren oder zu übersetzen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert