Tuesday, December 10th, 2024

„Moshi” – Nowy konkurent GPT-4o z zaawansowanym trybem głosowym

Wygląda na to, że po wprowadzeniu GPT-4o, francuska firma Kyutai opracowała nowego chatbota zasilanego sztuczną inteligencją o nazwie „Moshi”. Francuski deweloper sztucznej inteligencji Kyutai wprowadził na rynek asystenta głosowego działającego w czasie rzeczywistym, nazwanego Moshi.

Po wielu kontrowersjach związanych z ChatGPT od OpenAI, Kyutai Labs przedstawiło nowatorskie podejście do chatbotów AI. Moshi jest zapowiadany jako rywal dla GPT-4o od OpenAI. Wstępne raporty sugerują, że wielu użytkowników nie było zadowolonych z „trybu głosowego” GPT-4o. W obliczu tego, Kyutai wydaje się wprowadzać lepszy tryb głosowy z chatbotem Moshi.

Nazwa Moshi pochodzi od japońskiego zwrotu używanego przy odbieraniu telefonu. Firma chwali się swoimi możliwościami. Francuska firma twierdzi, że ich tryb głosowy jest lepszy niż wyczekiwany Advanced Voice Mode GPT-4o od OpenAI.

Jak podaje Kyutai, Moshi potrafi mówić w różnych akcentach. Ponadto, Moshi ma mieć około 70 różnych stylów emocjonalnych i mówienia. AI potrafi nawet obsługiwać dwa strumienie audio jednocześnie, co oznacza, że można oczekiwać „ludzkiej” rozmowy z chatbotem.

Kluczowe cechy „Moshi”

Jakie są kluczowe cechy chatbota Moshi? Oto najważniejsze funkcje, których można oczekiwać od chatbota AI Moshi:

  1. Moshi potrafi interpretować ton głosu użytkownika. Dodatkowo, dodaje warstwę inteligencji emocjonalnej do interakcji.
  2. Podobnie jak inne asystenty AI, Moshi można przerwać w trakcie odpowiedzi, co naśladuje naturalny przepływ rozmowy.
  3. Firma twierdzi, że Moshi może odpowiedzieć w czasie zaledwie 200 milisekund, przewyższając zgłaszany czas reakcji GPT-4o, wynoszący 232-320 milisekund.
  4. Chatbot AI może działać bez połączenia z internetem, co ma na celu zwiększenie prywatności i dostępności.
  5. Moshi potrafi mówić w różnych akcentach i naśladować 70 różnych stylów emocjonalnych i mówienia.

Inne aktualizacje

Kyutai poinformowało, że rozwój Moshi obejmował dostrajanie ponad 100,000 syntetycznych dialogów stworzonych przy użyciu technologii Text-to-Speech (TTS). Firma planuje również nauczyć Moshi niuansów i tonów ludzkiej komunikacji. Współpracowano także z profesjonalnym artystą głosowym, aby poprawić jakość głosu Moshi.

Moshi został zaprojektowany, aby zapewnić realistyczne rozmowy z użytkownikami poprzez głos, podobnie jak Alexa czy Google Assistant. Moshi jest jednak zasilany modelem Helium 7B. Podczas demonstracyjnego wideo Kyutai pokazało możliwości Moshi. W trakcie prezentacji zespół Kyutai wchodził w interakcje z Moshi, ilustrując jego zdolności jako trenera lub towarzysza. Demonstracja pokazała również jego kreatywność poprzez wcielanie się w różne postacie w ramach odgrywania ról.

Wygląda na to, że Moshi może być nowym, silnym konkurentem na rynku chatbotów AI, zwłaszcza dzięki zaawansowanemu trybowi głosowemu i zdolności do prowadzenia naturalnych, ludzkich rozmów.