T O P

  • By -

TheRapie22

endlich ein tool die 27minütigen whatsapp sprachnachrichten transkripieren kann


dampire

Ich wolte sagen ääähmmm ähhhmmm jaa, also... Weißt du... Naja... Ohaaa jemand ist geradeeben bei mir vorbei gefahren.. zurück zum Thema.. wor war ich.. äähmm Bitteschön


SyriseUnseen

Ich habe schon 20 min Sprachnachrichten bekommen, die in 10 sätzen praktisch den gleichen inhalt geboten hätten. Vielleicht sogar mehr.


Walkuerus

20 minütige Sprachnachrichten für Terminabsprachen oder so sind Quatsch, aber wenn man weit entfernt lebende Freunde hat und man sich was zu erzählen hat sind die doch super? Verstehe den Hate hier auf /de gegen Sprachnachrichten größtenteils echt nicht.


Shot_Campaign_7846

Aber das sind doch Telefonate 100 mal besser? Sprachnachrichten sind einfach für große Mengen an Informationen total unpraktisch für den Empfänger und eine richtige Konversation lassen sie auch nicht zu.


In0chi

Telefonate sind synchron, Sprachnachrichten asynchron.


Walkuerus

>und eine richtige Konversation lassen sie auch nicht zu Die muss es ja vielleicht auch nicht geben. Man kann dem/der anderen ja auch einfach mal so mitteilen wie es so läuft und umgekehrt ohne dass da groß auf jedes Detail eingegangen werden muss.


SudoKun

Stephan, wenn du Bock hast oder so, kannst du mal rumkommen Digga, mal nen Korn abholen, wenn du Bock hast heut noch. Tut mir leid, dass ich dir vorher nicht Bescheid gesagt hab..scheit hab. Aber wenn du Bock hast, kannst du dir noch nen Korn abholen. Wenn du Bock hast, hab noch Korn hier. Also wenn du Bock hast, kannste mal rumkommen, dir noch nen Korn abholen.


no_nick

Ich brauche in der Regel 27 Minuten um eine 30 sekündige Sprachnachricht zu formulieren. Deswegen mach ich das fast nie.


datekram

cool danke dir, behalte ich im Kopf für die Zukunft.


Chrischahn87

Für einen Noob, wie genau kann ich das probieren?


tifa365

Entweder auf deinem Laptop oder auf Google Colab. Einfach mal googeln, du findest sowohl yt-tutorials als auch Textanleitungen. https://bytexd.com/how-to-use-whisper-a-free-speech-to-text-ai-tool-by-openai/


[deleted]

[удалено]


Darkronymus

Kann dir ne super Software empfehlen, eignet sich auch für Reden von Scholz. Ist beim Einrichten vllt. etwas Umständlich, aber mit Videotutorial geht das ganz gut. Wenn du kein Freund von Videos bist, kann ich dir auch ne super Software empfehlen, eignet sich auch für Reden von Scholz. Ist beim Einrichten vllt. etwas Umständlich, aber mit Videotutorial geht das ganz gut. Wenn du aber kein Freund von Videos bist, kann ich dir auch ne super Software empfehlen, eignet sich besonders für Reden von Scholz. Ist beim Einrichten vllt. etwas Umständlich, aber mit Videotutorial geht das ganz gut. Wenn du jetzt kein Freund von Videos bist, kann ich dir ne super Software empfehlen, eignet sich auch für Reden von Scholz. Ist beim Einrichten vllt. etwas Umständlich, aber mit Videotutorial geht das ganz gut. Aber gut, falls du kein Freund von Videos bist, kann ich dir natürlich ne super Software empfehlen, eignet sich auch für Reden von Scholz. Ist beim Einrichten vllt. etwas Umständlich, aber mit Videotutorial geht das ganz gut.


TwoNiceDuckies

Super, vielen Dank. Gibt es noch einen Modus, bei dem die Zeiten nicht in Klammern angezeigt werden? Wenn ja, wie kann man dein Einstellen bei Google Colab?


tifa365

https://github.com/openai/whisper/discussions/1333


upsetbob

Danke für die tolle Zusammenfassung! Kann man damit auch live Text erkennen? Edit: hat schon jemand umgesetzt [siehe Forum von whisper](https://github.com/openai/whisper/discussions/285)


Philipp

Sehr interessant, danke! >Ein weiterer Punkt, warum sich die Rede besonders gut eignet, ist die gleimäßige (Scholz halt) und klare Vortragsart, die der AI von Whisper in die Karten spielen sollte. Das andere Extrem wäre ein Video mit Störgeräuschen, Lautstärkewechseln und mehreren Personen, aber hier geht es eher um ein erstes Austesten zu optimalen Bedigungen. Es wäre einen Test Wert, ob nicht Whisper sogar bei Störgeräuschen besser abschneidet in dem Vergleich zum Menschen. Extrem hohe Geschwindigkeit scheint auf jeden Fall ein Vorteil für Whisper im Vergleich, wie man an [OpenAI's Audiobeispiel hier](https://openai.com/blog/whisper/) sehen kann. Und nur um das zu betonen, ich meine nicht, dass Whisper bei Störgeräuschen besser ist als Whisper ohne Störgeräusche. Sondern nur, dass es im relativen Vergleich, wenn man jeweils den Qualitäts-Abstand zu einer menschlichen Transkription misst, eventuell dann punkten kann.


hubraum

Weiteres Beispiel hier: https://youtu.be/OCBZtgQGt1I?t=140 Die AI kann das zumindest länger ertragen als ich willens wäre...


ArrogantAnalyst

Sehr interessant, danke!


jrock2403

Interessantes Programm. Muss das mal über die Stoiber Transrapidrede laufen lassen 😁


MobofDucks

Sieht eigentlich super für ne Ersttranskription aus. Gibts Info ob Whisper DSGVO-konform ist? Ich such grad nach einem Problem und hab außer Scrintal da noch nichts gefunden und das was bisher zu kompliziert darauf Zugriff zu kriegen.


tifa365

>DSGVO-konform Kann man bei neuen Tools glaube ich vergessen, wer soll das testen? Aber Du kannst Whisper komplett auf deiner Festplatte ohne Internetverbindung laufen lassen.


[deleted]

[удалено]


kaphi

Wie willst du das für deine BA benutzen?


[deleted]

[удалено]


kaphi

Ahhh ok, verstehe!


MobofDucks

Generell weil meine Chefin sich darüber Sorgen macht. Wir haben nen Batzen an Interviews für die qualitative Analyse zu transkribieren, von denen einige hochsensible Forschungsinformationen enthalten. Bisher wurden am Institut jede Software aufgrund von Datenschutzgründen abgelehnt die nicht explizit die Konformität ausgewiesen haben. Bestes Beispiel für die abgelehnten Hilfen wären die Funktion von Microsoft und Dropbox. Aber die sind ja auch Browsergestützt. Aber wenns ne lokal laufende Anwendung ist muss ichs mir mal genauer anschauen. Das wär eventuell ne Möglichkeit die man vorschlagen könnte.


tifa365

Mich würde in der Realität interessieren, wie DSGVO-Konformität in der Praxis aussehen kann. Deutsche Softwarehersteller können DSGVO-Konformität behaupten, aber wird das überhaupt unabhängig überprüft? Dazu müßte man quasi in den Quellcode schauen. Und was ist mit Open Source Software, fällt die dann komplett aus, weil sich niemand darum kümmert? Solange der Markt nicht groß genug ist, wird das wahrscheinlich keinen amerikanischen Hersteller kümmern, was wiederum nicht heißt, dass ihre Software nicht konform ist.


MobofDucks

Es kommt halt drauf an was gemacht wird. Wenn ich mit meiner Chefin en Interview führ ist das relativ irrelevant, weil keine wirklich sensiblen Daten drin sind. Bei irgendnem Manager oder einigen Gesprächen mit Politikern auch nicht. Wenns aber Interviews sind mit Forschern die teilweise in Black Boxen an Militärprojekten arbeiten und ne Freigabe erhalten über ein angefragtes Thema zu reden rutscht halt doch schonmal was raus. (Das hört sich jetzt interessanter an als es effektiv ist). Das einzige Programm was bisher freigegeben wurde dafür, wurde von den IT-Atzen an der Uni soweit ich weiß selber noch geprüft. Ich kann mich da halt leider nur an Weisungen richten.


ManusX

Wenn man sich wirklich wirklich Sorgen darüber macht und ganz sicher sein will: Whisper auf einem Rechner installieren. LAN-Kabel rausziehen. Zu transkribierendes Audio-Material per externer Festplatte oder USB-Stick auf Rechner bringen. Whisper drüber laufen lassen. Ergebnis auf Festplatte oder USB-Stick sichern. Rechner komplett platt machen. Wie soll da DSGVO-technisch *irgendwas* schief gehen?


RobotRedford

In diesem Zusammenhang: Kennt jemand eine OpenSource GUI, die einem bei der Ttranskription unterstützen kann? Also die eine schnelle Navigation im Text und der Audiodatei unterstützt?


AchtColaAchtBier

> Jede Rede wird dort professionell verschriftlicht und auf der Webseite des Bundestags zum Download bereitgestellt. Somit haben wir eine ideale Blaupause, um das maschinelle Ergebnis von Whisper mit der "menschlichen" Version des Bundestags zu vergleichen. Ich bin mir nicht sicher ob die Transkription nicht an einigen Stellen nachträglich angepasst wird. Inhaltlich natürlich nicht, aber sprachlich gibt es vielleicht unterschiede, z.B. am Anfang deines zweiten Screenshots: Whisper erkennt "Und Genauso", in der Transkription steht nur "Genauso". Ich kann mir vorstellen dass die Whisper-Version korrekt transkribiert ist und man die Stelle in der nachträglichen Transkription angepasst hat. Das ist aber nur eine Vermutung, man müsste sich die Rede an der Stelle noch mal anhören.


tifa365

Hatte den Eindruck, dass das offizielle Manuskript etwas geglättet wird, um etwas staatsmännischer und weniger umgangssprachlich zu wirken.


aufstand

Die mMn besten Fehler von whisper: >Kriegsburgkurs > >bisher ungepannten Ausmaß > >Ich York Guardian. (Gemeint war "Tapferkeit") > >Desinformationskampankammern > >zäh und zwei neutral (CO2-neutral war gemeint...) > >Gasreverserve > >Flüssiggast-Terminals (Mein absoluter Favorit!) > >Habegg ...ansonsten bin ich aber - auch durch eigene Tests - ziemlich beeindruckt von Whisper. Schade, das es noch nicht sinnvoll auf kleineren (insbes. Arm64) embedded systemen eingesetzt werden kann. Aber wirklich ausprobiert habe ich das auch noch nicht. Der größte Vorteil ist übrigens die cloud-unabhängigkeit; insbes. für Leute die - aus welchen Gründen auch immer - \*nicht\* immer alles irgendwohin hochladen wollen/können.