Ecoute: Ein Echtzeit-Kommunikationstranskriptions-Tool, unterstützt von OpenAI GPT-3.5

Name: Omar C. Williams

Published on 4.6.2023

Die Magie hinter Ecoute entdecken

Ecoute ist mehr als nur ein Live-Transkriptions-Tool. Es transkribiert in Echtzeit sowohl die Mikrofoneingabe des Benutzers als auch den Lautsprecherausgang und ermöglicht somit den einfachen Zugriff auf beide Teile eines Gesprächs. Darüber hinaus verwendet Ecoute OpenAI's GPT-3.5, um kontextuell relevante Antworten basierend auf der Live-Transkription des Gesprächs zu generieren, eine bahnbrechende Funktion, die es auszeichnet.

Stell dir zum Beispiel vor, du führst eine komplexe technische Diskussion mit einem Kollegen. Ecoute transkribiert deinen Dialog und bietet mögliche Antworten an, um dein Gespräch zu erleichtern. Diese Funktion kann die Effizienz erheblich steigern, insbesondere bei komplexen Debatten, bei denen das Formulieren geeigneter Antworten zusätzliche Zeit und Mühe erfordern kann.

Besuche die Escote GitHub-Seite hier (opens in a new tab).

Die Voraussetzungen für die Einrichtung von Ecoute

Bevor du Ecoute auf deinem lokalen Rechner einrichtest, musst du folgende Voraussetzungen erfüllen:

Python >=3.8.0
Ein OpenAI API-Schlüssel
Windows-Betriebssystem (nicht auf anderen Systemen getestet)
FFmpeg

Wenn FFmpeg noch nicht auf deinem System installiert ist, kannst du es mit Chocolatey installieren, einem Paketmanager für Windows.

Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
choco install ffmpeg

Bitte denke daran, diese Befehle in einem PowerShell-Fenster mit Administratorrechten auszuführen.

Die Einrichtung von Ecoute durchführen

Sobald die Voraussetzungen erfüllt sind, befolge diese Schritte, um Ecoute zu installieren und auszuführen:

Klonen das Repository mit dem Befehl: git clone https://github.com/SevaSk/ecoute
Navigieren in den ecoute Ordner mit: cd ecoute
Installiere die benötigten Pakete mit: pip install -r requirements.txt

Als nächstes musst du eine keys.py Datei im Ecoute-Verzeichnis erstellen und deinen OpenAI API-Schlüssel hinzufügen. Hier sind zwei Methoden, um dies zu erreichen:

Methode 1: Verwenden der Eingabeaufforderung

Führe den folgenden Befehl aus und ersetze "API KEY" durch deinen tatsächlichen OpenAI API-Schlüssel:

python -c "with open('keys.py', 'w', encoding='utf-8') as f: f.write('OPENAI_API_KEY=\"API KEY\"')"

Methode 2: Manuelles Erstellen der Datei

Öffne einen Texteditor und gib den folgenden Inhalt ein:

OPENAI_API_KEY="API KEY"

Ersetze "API KEY" durch deinen tatsächlichen OpenAI API-Schlüssel. Speichere diese Datei als keys.py im Ecoute-Verzeichnis.

Ecoute starten

Du kannst Ecoute ausführen, indem du das Hauptskript ausführst: python main.py.

Für eine schnellere und erweiterte Version, die die meisten Sprachen unterstützt, nutze: python main.py --api

Dieser Befehl verwendet die Whisper API für Transkriptionen und bietet verbesserte Geschwindigkeit und Genauigkeit. Beachte, dass es einige Sekunden dauern kann, bis das System aufgewärmt ist und die Transkription in Echtzeit erfolgt.

Wichtige Überlegungen: Einschränkungen und zukünftige Perspektiven

Obwohl Ecoute Echtzeit-Transkription und Antwortvorschläge bietet, sind bestimmte Einschränkungen zu beachten:

Standardmäßiges Mikrofon und Lautsprecher: Ecoute hört nur auf das standardmäßige Mikrofon und den standardmäßigen Lautsprecher in deinem System. Um ein anderes Mikrofon oder einen anderen Lautsprecher zu verwenden, lege es als Standardgerät in den Systemeinstellungen fest.
Whisper-Modell: Ohne die --api Flag verwendet Ecoute die "tiny"-Version des Whisper ASR-Modells aufgrund ihres geringen Ressourcenverbrauchs und ihrer schnellen Reaktionszeiten. Dieses Modell könnte jedoch bestimmte Arten von Sprache möglicherweise nicht so genau transkribieren wie größere Modelle.
Sprache: Ohne die --api Flag ist das verwendete Whisper-Modell auf Englisch eingestellt. Es könnte nicht-genau non-englische Sprachen oder Dialekte transkribieren.

Aktive Bemühungen sind im Gange, um diese Einschränkungen zu beheben und in zukünftigen Versionen Unterstützung für mehrere Sprachen hinzuzufügen.

Fazit

Ecoute ist ein innovatives Tool mit dem Potenzial, die Kommunikation zu revolutionieren. Die Echtzeit-Transkriptionsfunktion in Kombination mit Antwortvorschlägen macht es zu einem unschätzbaren Asset für die persönliche und berufliche Kommunikation. Trotz seiner Einschränkungen ist das Ecoute-Projekt ein aufregender Schritt nach vorn und deutet auf die grenzenlosen Möglichkeiten hin, die die KI für die Zukunft der Kommunikation bietet.

Ecoute: An OpenAI GPT-3.5 Powered Real-time Communication Transcription Tool Ein fortgeschrittener Leitfaden: Wie man die ChatGPT-API in Python benutzt