Was ist stabile Audio-KI und wie wird sie verwendet?

Künstliche Intelligenz ist allgegenwärtig und wird für eine Vielzahl von Zwecken eingesetzt, darunter die Erzeugung von Bildern, textbasierten Inhalten und sogar die Produktion von Ton und Musik. Und Stable Audio AI ist eines der besten derzeit verfügbaren KI-Modelle für die Audioproduktion.

In diesem Leitfaden schauen wir uns an, was diese KI-Plattform ist und wie Sie damit Original-Audio erstellen können, ohne dass Sie Musikinstrumente benötigen.

Was ist stabile Audio-KI?

Stable Audio AI ist ein von Stability AI entwickeltes KI-Modell, das vor allem für seine Stable Diffusion AI bekannt ist, die Bilder basierend auf vom Benutzer bereitgestellten Eingabeaufforderungen generieren kann.

Stable Audio verwendet fortschrittliche Techniken der künstlichen Intelligenz (insbesondere Diffusionsmodelle), um Audio aus Textbeschreibungen zu erstellen. Sie geben ein, welche Art von Musik oder Sounds Sie möchten, und diese werden innerhalb von Sekunden generiert.

Die Stable Audio AI wurde von Harmonai, dem Audioforschungslabor von Stability AI, entwickelt und ermöglicht es Benutzern, anhand von Eingabeaufforderungen Original-Audio zu generieren.

Was dieses KI-Modell für die Audioerzeugung so beeindruckend macht, ist, dass es auf 19.500 Stunden Audiodaten der führenden digitalen Musikbibliothek AudioSparx trainiert wurde. Für das Training wurden über 800.000 Audiodateien verwendet, wodurch die KI in der Lage war, mit einer Nvidia A100-GPU in weniger als einer Sekunde 95 Sekunden Audio in Stereoqualität mit 44,1 kHz zu erzeugen.

Dies gelingt mithilfe einer latenten Diffusionstechnologie, die der Stable Diffusion AI des Unternehmens zur Bilderzeugung ähnelt. Und im Gegensatz zu anderen KI-Modellen zur Audioerzeugung kann Stability Audio AI zum Erzeugen von Klängen unterschiedlicher Länge verwendet werden.

Mit Stable Audio AI können Sie Klänge einzelner Instrumente, Umgebungsgeräusche oder sogar eines kompletten Ensembles erzeugen. Lassen Sie uns nun verstehen, wie man damit Audio generiert.

Beginnen Sie mit Stable Audio AI

Sie können Stable Audio AI kostenlos ausprobieren, um Audio mithilfe künstlicher Intelligenz zu generieren. Dazu ist jedoch die Erstellung eines Kontos auf der Stable Audio-Website erforderlich. Das kostenlose Konto unterliegt auch bestimmten Einschränkungen.

Starten Sie Ihren Browser und gehen Sie zur Stable Audio-Website . Klicken Sie dort oben rechts auf die blaue kapselförmige Schaltfläche mit der Aufschrift „Kostenlos testen“.

Durch Klicken auf die Schaltfläche gelangen Sie zu einer neuen Seite, auf der Sie ein Konto erstellen können, das für die Verwendung von Stable Audio AI erforderlich ist. Sie können entweder ein neues Konto einrichten, indem Sie Ihre E-Mail-Adresse und ein Passwort eingeben oder sich über Ihr Google-Konto anmelden.

Wenn Sie sich mit Ihrem Google-Konto anmelden möchten, müssen Sie Google die Genehmigung erteilen, Ihre Kontodaten an die Website weiterzugeben. Nachdem Sie den Benutzernamen und das Passwort Ihres Google-Kontos eingegeben haben, klicken Sie auf die Schaltfläche „Weiter“, um die erforderliche Autorisierung bereitzustellen.

Sobald Sie angemeldet sind, werden Sie von der Startseite der Stable Audio AI-Plattform begrüßt. Darin finden Sie die Allgemeinen Geschäftsbedingungen, die Sie akzeptieren müssen, um fortfahren zu können. Sie können sich hier auch für den Stable Audio-Newsletter anmelden. Klicken Sie auf die Schaltfläche neben „Ich habe die Allgemeinen Geschäftsbedingungen gelesen und akzeptiere sie“ und, wenn Sie möchten, auf die Schaltfläche unten, um den Newsletter zu abonnieren. Klicken Sie dann unten auf die Schaltfläche „Weiter“.

Wenn Sie die Allgemeinen Geschäftsbedingungen akzeptieren, gelangen Sie zum Stable Audio-Dashboard, mit dem Sie mithilfe von Eingabeaufforderungen Original-Audio generieren können.

Verwendung von stabiler Audio-KI

Im oberen linken Bereich der Seite können Sie Eingabeaufforderungen für die Audiogenerierung eingeben.

Sie können eine Eingabeaufforderung wie folgt Hard rock, concert promotion, metal, 180 bpmin das Feld eingeben. Klicken Sie dann unten auf die Schaltfläche „Generieren“, um mit der Audioerstellung zu beginnen.

Eine andere Möglichkeit, Audio zu generieren, besteht darin, vorgefertigte Ansagen aus der „Ansage-Bibliothek“ zu verwenden, die sich unterhalb des Ansagen-Bereichs befindet. Dort können Sie auf verschiedene Stile von Audio-Ansagen zugreifen. Klicken Sie dazu auf die kapselförmige Schaltfläche mit der Aufschrift „Keine“. Dadurch wird die Bibliothek geöffnet, die verschiedene Stile enthält, aus denen Sie auswählen können, um sie Ihrem Audio hinzuzufügen.

Um einen der Audioaufforderungsstile aus der Bibliothek auszuwählen, klicken Sie einfach darauf. Der Eingabeaufforderungsbereich über der Bibliothek zeigt Ihnen die Eingabeaufforderungen, die der Stil enthält. Der ausgewählte Stil erhält ein Wiedergabesymbol und die Beschriftung der Schaltfläche der Eingabeaufforderungsbibliothek ändert sich ebenfalls, um den ausgewählten Stil widerzuspiegeln.

Unter der „Prompt-Bibliothek“ sehen Sie das KI-Modell, das für den Audiogenerierungsprozess verwendet wird. Durch Klicken auf den Modellnamen, in diesem Fall „Stable-audio-audiosparx-v1-0“, werden alle verfügbaren Modelle angezeigt. Derzeit ist nur ein weiteres Modell verfügbar, das sich in der Betaphase befindet. Sie müssen auf den Pro-Plan upgraden, um das Beta-AI-Modell nutzen zu können.

Als nächstes kommt der Abschnitt „Dauer“, in dem Sie die Dauer des erzeugten Audios steuern können. Durch Klicken auf den nach unten zeigenden Pfeil wird die Dauer verkürzt, durch Klicken auf den nach oben zeigenden Pfeil wird sie erhöht. Mit der kostenlosen Version von Stable Audio können Sie Audio mit einer Länge von 45 Sekunden generieren. Wenn Sie auf die Pro-Version upgraden, können Sie Audio mit einer Länge von einer Minute und 30 Sekunden generieren.

Das letzte Element auf der linken Seite ist die Option „Extras hinzufügen“, mit der Sie Ihr Audio anpassen können. Klicken Sie auf die Schaltfläche „+“, um die verfügbaren Optionen anzuzeigen, zu denen derzeit „Schritte“, „Anzahl der Ergebnisse“, „Startwert“ und „Promptstärke“ gehören.

Jede dieser zusätzlichen Optionen verfügt über Einstellungen, die angepasst werden können. Wenn Sie beispielsweise auf die Option „Schritte“ klicken, können Sie die Anzahl der Schritte erhöhen, die die KI zum Generieren von Audio durchführt. Standardmäßig werden 50 Schritte hinzugefügt, und Sie können sie auf 100 erhöhen, indem Sie die Anzahl der Schritte in das dafür vorgesehene Feld eingeben.

Sie können zum Standardwert zurückkehren, indem Sie unten auf die Schaltfläche „Zurücksetzen“ klicken. Wenn Sie die Extras ganz entfernen möchten, klicken Sie auf die Schaltfläche „X“ neben dem Feld, in das die Anzahl der Schritte eingegeben werden muss.

Wenn Sie fertig sind, klicken Sie auf die Schaltfläche „Generieren“ und Stable Audio beginnt mit der Generierung Ihres Audios. Alternativ können Sie die Schritte entfernen und ein anderes Extra verwenden, beispielsweise die Option „Seed“, die die Zufälligkeit der Audioerzeugung steuert. Standardmäßig ist die Option auf „Zufällig“ eingestellt, was bedeutet, dass das KI-Modell unterschiedliche Audioanordnungen zur Audioerzeugung verwendet. Sie können einen anderen Wert eingeben, indem Sie auf die Beschriftung „Zufällig“ klicken und einen Wert wie „222222“ eingeben, damit die KI jedes Mal die gleiche Anordnung verwendet.

Weitere Extras sind „Anzahl der Ergebnisse“ und „Prompt Strength“. Ersteres ist eine Pro-Funktion, mit der Sie die Anzahl der Titel steuern können, die die KI für die Eingabeaufforderung zurückgibt (maximal 5), und ist in der kostenlosen Version nicht verwendbar. Sie können jedoch die Option „Prompt Strength“ ausprobieren, indem Sie darauf klicken. Dadurch wird ein Schieberegler angezeigt, der steuert, wie nah das generierte Audio an der bereitgestellten Eingabeaufforderung sein wird. Standardmäßig ist sie auf 80 % eingestellt, Sie können den Schieberegler jedoch nach links oder rechts ziehen, um die Stärke je nach Bedarf zu verringern oder zu erhöhen.

Nachdem Sie die Stärke der Aufforderung angepasst haben, klicken Sie auf die Schaltfläche „Generieren“, um der KI mitzuteilen, mit der Erstellung des Audios zu beginnen. Die obere rechte Seite der Stability Audio AI-Seite enthält ebenfalls einige Elemente. Das erste davon ist ein Musiknotensymbol, das die Anzahl der Credits angibt, über die kostenlose Benutzer verfügen. Sie können Audio nur erstellen, solange Sie Credits haben, und Sie erhalten jeden Monat 20 Credits. Dann gibt es eine Schaltfläche, mit der Sie auf die Pro-Version upgraden können, eine Option zum Überprüfen der Details Ihres Kontos und ein Hamburger-Menü mit zusätzlichen Optionen.

Wenn Sie auf die Schaltfläche „Upgrade auf Pro“ klicken, werden Ihnen die verfügbaren Preispläne angezeigt. Neben dem kostenlosen Plan können Sie zwischen den Plänen Pro, Studio und Max wählen, die jeweils 11,99 $/Monat, 29,99 $/Monat und 89,99 $/Monat kosten. Mit dem „Free“-Plan können Sie 20 Tracks pro Monat erstellen, während der „Pro“-Plan 500 Tracks zulässt. Mit dem „Studio“-Plan sind es bis zu 1.350 und mit dem „Max“-Plan 4.500. Darüber hinaus beträgt die Titeldauer im „Free“-Plan 45 Sekunden, in allen anderen Plänen 90 Sekunden. Der „Free“-Plan beinhaltet eine persönliche Lizenz, während Sie bei den anderen Optionen eine Creator-Lizenz erhalten.

Die Option neben der Upgrade-Schaltfläche zeigt Details zu Ihrem Konto auf der Stable Audio AI-Plattform an. Wenn Sie darauf klicken, werden Sie über Ihren aktuellen Plan und dessen Angebote informiert.

Verfeinern Sie Ihre Eingabeaufforderungen

Durch die Verfeinerung Ihrer Ansagen können Sie die von Stability Audio bereitgestellte Ausgabe optimieren. Wenn Sie mit generativer KI arbeiten, ist die Ausgabe umso besser, je besser Ihre Eingabeaufforderungen sind. Hier sind einige Möglichkeiten, wie Sie Ihre Eingabeaufforderungen verbessern können.

Wenn die Ausgabe zu elektronisch oder digital klingt, sollten Sie für die Eingabeaufforderung Wörter wie „Band“ oder „Live“ verwenden.
Möglicherweise können Sie die Qualität der erzeugten Ausgabe verbessern, indem Sie Wörter wie „44,1 kHz“, „hohe Qualität“ und „Stereo“ in die Eingabeaufforderung einfügen.
Verwenden Sie das Wort „Solo“ nach dem Namen des führenden Instruments im Track, um die Ausgabe zu verbessern. Wenn das Hauptinstrument beispielsweise eine Geige ist, können Sie in der Eingabeaufforderung „Solo-Violine“ verwenden.

Mit Stability Audio AI können Sie ganz einfach beeindruckende Audiospuren erstellen, indem Sie einfach Eingabeaufforderungen verwenden. Wenn Sie ein Anfänger sind, ist der kostenlose Plan eine hervorragende Möglichkeit, das Modell auszuprobieren, während professionelle Musiker auf die kostenpflichtigen Pläne upgraden und die erweiterten Funktionen der Plattform ausprobieren können.

Was ist stabile Audio-KI und wie wird sie verwendet?

Was ist stabile Audio-KI?

Beginnen Sie mit Stable Audio AI

Verwendung von stabiler Audio-KI

Verfeinern Sie Ihre Eingabeaufforderungen

Ähnliche Artikel:

Der neueste Leak zu Nothing Phone 2a gibt uns endlich einen genauen Einblick, wie der vermeintliche Budget-König aussehen wird

Der Schöpfer von Devil May Cry würde gerne den ersten Teil der Serie, Viewtiful Joe und Bayonetta, neu verfilmen

Schreibe einen Kommentar Antworten abbrechen