Hey Leute,
ich bräuchte einen Algorithmus der möglichst effizient eine Stimmanalyse durchführen kann. Mich interessiert nur, mit welcher Wahrscheinlichkeit die Stimme von Audiospur 1 (Stimmaufzeichnung) mit der Stimme von Audiospur 2 (ebenfalls Stimmaufzeichnung) übereinstimmt.
Ich habe bereits auf deutsch und englisch gegoogelt, aber leider nichts Gescheites gefunden. Wisst ihr vielleicht wie man an sowas ran geht?
Man könnte ja z.B. Spur 1 und Spur 2 mit einer Korrelationsfunktion prüfen.
Oder macht man erst eine Fourier-Analyse und prüft die Korrelation dann?
Sollte halt möglichst das korrekte Ergebnis rauskommen, bei angenehmer Laufzeit...
Danke schonmal im Voraus
Gruß Technipion
MfG (Mit feinem Grübeln) Wir unterstützen dich bei deinen Projekten, aber wir entwickeln sie nicht für dich. (radbruch) "Irgendwas" geht "irgendwie" immer...(Rabenauge) Machs - und berichte.(oberallgeier) Man weißt wie, aber nie warum. Gut zu wissen, was man nicht weiß. Zuerst messen, danach fragen. Was heute geht, wurde gestern gebastelt. http://www.youtube.com/watch?v=qOAnVO3y2u8 Danke!
Also vorweg: ich habe keine Ahnung von dem Thema, ich phantasiere nur mal kurz. Ich könnte mir vorstellen, dass du mit einer Fourier-Analyse als erstem Schritt ganz gut bedient bist. Ich vermute, dass du auch verschiedene Sätze, die von einer Person gesprochen worden sind, dieser Person zuordnen können möchtest. Insofern interessiert dich die Zeitdömane im Detail eher nicht, sondern die spektrale Zusammensetzung der jeweiligen Audiospur. Das Spektrum könnte so eine Art "Fingerabdruck" für eine Person bilden. Über die gewonnenen Spektren müsste man jetzt Statisktik machen und sie irgendwie Clustern bzw. Klassifizieren - im Grunde irgendeine Art Pattern-Matching. Vielleicht funktioniert das sogar mit einem einfachen Perzeptron.
Du weißt doch wie ich es meine
Ich habe nunmal leider keine Ahnung wie man eine Stimmanalyse realisieren kann , und das 'tolle Internet' spuckt auch nichts aus!
Wie kann ein Computer die Attribute die eine Stimme ausmachen analysieren und vergleichen?
Ich bedanke mich schonmal für jede Hilfe! Übrigens auch danke an dich PICture.
Gruß Technipion
EDIT: Ich wollte eigentlich vor malthy posten. Danke malthy!
Ich kann Menschen anhand ihrer Stimme einwandfrei erkennen, habe aber leider k.A. wie mein CPU im Kopf das macht._.
MfG (Mit feinem Grübeln) Wir unterstützen dich bei deinen Projekten, aber wir entwickeln sie nicht für dich. (radbruch) "Irgendwas" geht "irgendwie" immer...(Rabenauge) Machs - und berichte.(oberallgeier) Man weißt wie, aber nie warum. Gut zu wissen, was man nicht weiß. Zuerst messen, danach fragen. Was heute geht, wurde gestern gebastelt. http://www.youtube.com/watch?v=qOAnVO3y2u8 Danke!
Nur mal kurz am Rande, man hat das vor einiger Zeit noch Sprechererkennung genannt. Aber das hast Du vielleicht schon erkannt.
Die Fourieranalyse ist schon mal ein erster Möglicher Ansatz, aber man verschenkt dabei relativ viel Information. Wirklich hilfreich wäre es wenn jeweils der gleiche Text gesprochen wird. Sonst müsste man wohl noch erst die Laute / Worte identifizieren und die einzeln vergleichen - das Wäre ggf. auch bei gleichem Text noch aufschlussreicher.
Nur n Gedanke: Was ist mit unterschiedlichen Stimmungen? Dabei verändert sich die Stimme doch ebenfalls oder nicht?
Hey Leute,
danke für eure Antworten!
Nur damit ihr bescheid wisst: Ich arbeite noch dran. Ich versuche es jetzt mit einer abgewandelten Form der Kreuzkorrelation.
Wenn/Falls ich fertig bin poste ich natürlich meine Resultate!
Gruß Technipion
1234567890
Geändert von i_make_it (02.02.2015 um 20:12 Uhr)
Lesezeichen