Erkek siri sesi nasıl etkinleştirilir? Apple'ın Siri sesli asistanı

Siri- sadık yardımcı her elmacı. Bu harika sistemle hava durumunu arayabilir, arkadaşlarınızı arayabilir, müzik dinleyebilir vb. İşlev, ihtiyacınız olan her şeyi bulma sürecini hızlandırır. Diyelim ki Siri'den bugün St. Petersburg'daki hava durumunu göstermesini istiyorsunuz ve o da size memnuniyetle yardımcı oluyor. Pek çok kişi ona sorunlarından sık sık şikayet ettiği için çok yakında insanları dinleyebileceğini ve yalnızca en yakın psikolojik hizmetin numarasını ruhsuzca sunduğunu söylüyorlar.

Peki onun sesinden sıkıldığınızı ve değiştirmek istediğinizi düşünelim. Birçok kişi bunun imkansız olduğunu düşünüyor ama aslında buradaki iş sadece yirmi saniye kadar sürüyor.

Birinci adım.

Ayarlara gidelim. Simge genellikle masaüstünün ilk sayfasında veya "Yardımcı Programlar" klasöründe bulunur.

İkinci adım

Uygulamayı bulduktan sonra Siri sütununu arıyoruz. Bildiğiniz gibi bu öğe programın üçüncü bölümünde yer alıyor.

Üçüncü adım.

Siri yazısının yanında düğmenin konumunu açık moda getirin. Bu zaten olmuşsa, bu adımı atlayın.

Dördüncü adım

“Ses” bölümüne gidin ve en çok beğendiğiniz seçeneği seçin. Burada farklı aksanları öğrenebilir ve konuşmacının cinsiyetini değiştirebilirsiniz. Her dilin aksanı yoktur ama çoğunda vardır. Genel olarak asıl mesele bu değil, çünkü bir süre sonra uygulamanın kendisi size uyum sağlamaya başlıyor.

iPhone ve iPad kullanıcıları artık Siri için metin sorguları ve komutları girebiliyor. Ancak burada bir nokta var. İOS 11'in beta sürümlerinde metin ve sesle yazma arasında seçim yapmanız gerekiyor. Siri Yazma etkinse Siri sesli komutları kabul etmez. Siri'nin bu seçenekler arasında otomatik olarak geçiş yapabilmesi çok daha kullanışlı olurdu. Belki üretici gelecek sürümlerde bunu dikkate alacaktır.

Siri metin komutları nasıl kullanılır:

İOS 11'de Siri için metin komutlarını etkinleştirmek için aşağıdakileri yapın:

Adım 1: Siri ve Arama bölümünü açın ve “Hey Siri”yi Dinle seçeneğini etkinleştirin.

Adım 2: Ayarlar > Genel > Erişilebilirlik > Siri'ye gidin.

3. Adım. “Siri için metin girişi” seçeneğinin yanındaki anahtarı etkinleştirin.

Adım 4: Giriş düğmesini basılı tutun. Artık ekranda alışılagelmiş ses sinyali yerine “Nasıl yardımcı olabilirim” sorusu ve standart bir klavye görünecek.

Adım 5: Sorgunuzu veya komutunuzu girip Bitir'e tıklamanız yeterlidir.

Siri'nin yanıtı metin olarak görüntülenecektir. Sanal asistan görevi anlamıyorsa isteğe tıklayıp düzenleyebilirsiniz.

Harici klavye

Siri'ye yapılan sesli istekler de aşağıdakilerle çalışır: harici klavye iPad'de. Ana Sayfa düğmesinin varlığı (Logitech K811'de olduğu gibi) giriş sürecini daha da kolay hale getirir. Kullanıcı, bir tuşa basarak ve Siri için bir komut belirterek aşağıdaki işlemleri gerçekleştirebilir: basit görevler mesaj gönderme, müzik çalma veya not oluşturma gibi.

Bu işlevsellik, Apple'ın iPad Pro'yu bilgisayarın yerine geçecek ürün olarak konumlandırması nedeniyle özellikle önemlidir. iOS yavaş yavaş işletim sistemi profesyonel seviye Donanımla yakından alakalı olan bilgisayar her zaman internete bağlı ve sürekli olarak kişinin cebinde bulunuyor.

iPhone'unuzda kişisel asistanınızın olmasını ister misiniz? Örneğin, gününüzü, haftanızı ve hatta ayınızı ve birisini planlayabilmeniz için hoş bir şekilde hatırlattı önemli konular Doğrudan akıllı telefonunuzdan toplantılarınızı planlayın, etkinliklerinizi yönlendirin, arama yapın veya e-posta gönderin. Böyle akıllı bir ses arayüzü programı iPhone'da Siri Rusya'da geliştirildi proje ekibi SiriPort.

Siri sesli asistanının bireysel özellikleri, günümüzün yaratıcı yaratma gereksinimlerini karşılıyor yapay zeka. Uygulama süper akıllıdır ve tüm cihazlardan sesli komutları tam olarak yerine getirebilir. olası eylemler akıllı telefonda: kişi listenizdeki kişileri arayın, mesaj gönderin, bulun gerekli bilgiler, akıllı telefon klavyesini kullanmadan, yalnızca ses arayüzünü kullanarak yer imleri ve görev metinleri oluşturun. Bu makale size Siri'yi iPhone 4 veya iPhone 5 veya 6 nesillere nasıl yükleyeceğinizi anlatacaktır.

Yeni lisanslı kişisel asistan uygulaması bir ses tanıma programıdır ve tüm Apple cihazlarında yüklüdür. Sesli asistanın iPhone 4S cihazlarda Siri, iPhone 5'te Siri, iPhone 5S, iPhone 6, iPhone 6S, iPhone 7 jenerasyonunda iOS 7 tabanlı çalıştığını da eklemek gerekir. Ayrıca asistan da görev yapabilir. iPad Mini, Mini 2 ve Mini 3, şu adreste de mevcuttur: iPod Touch 5. nesil, Apple cihazları Watcha, ayrıca 3. nesil ve üzeri iPad'lerde de çalışır.

İOS 8.3'ün piyasaya sürülmesinden sonra Siri iPhone Rusça olarak yapılandırılabilir. iOS sistemi Yeni nesil cihazlarda 10'u da dikkate alıyor harika fırsatlar sesli asistan. Bu, kişisel bilgileri bulmayı ve hatırlamayı çok daha kolay hale getirir, dedikleri gibi zamandan ve paradan tasarruf sağlar.

iPhone'da Siri'nin nasıl etkinleştirileceğini bilmek ister misiniz?

Örneğin iPhone 4 – 7’de Siri’yi nasıl açacağınızı bilmiyorsanız veya Siri’yi nasıl kapatacağınızı anlamadıysanız o zaman adım adım ilerleyeceğiz. Sesli asistanı kullanarak iPhone 4S veya iPhone 6S'de sesli asistanı kullanmayı düşünün. Öncelikle uygulamanın iPhone 4'te mi yoksa iPhone 6S'de mi yüklü olduğunu ve Siri'nin iPhone'da neden çalışmadığını öğrenmelisiniz. Asistan programının iPhone'da çalıştırılamadığı ortaya çıkarsa, umutsuzluğa kapılmayın, örneğin Nuance Şirketi tarafından geliştirilen ve erişebilecek olan “Dragon Go!” programı gibi oldukça benzer alternatif programlar yükleyebilirsiniz. iPhone'da yüklü olan Google, Netflix, Yelp ve diğerleri gibi diğer programlar.

Sesli asistan satış sırasında iPhone'a yüklendiyse, büyük olasılıkla aktif durum varsayılan. Bunu kontrol etmek için iPhone'unuzdaki Ana Sayfa düğmesini basılı tutun. Siri kullanıma hazır olduğunda bip sesi çıkaracaktır. Sesle bir komut verebilirsiniz: örneğin, yüksek sesle açıkça söyleyin: "Postanızı kontrol edin!"

Siri gerektiği gibi etkinleştirilmemişse bunu aşağıdaki şekilde kendiniz yapabilirsiniz. Telefonunuzun ana ekranını açın ve "Ayarlar"a tıklayın, "Temel" klasörünü bulun ve nasıl kullanılacağını bilerek "Siri" uygulamasını başlatın. Ancak akıllı bir programla çalışırken, bir asistana yüksek sesle iletişim kurarak bir düzine görev verebilirsiniz. "Hey!" gibi bir selamlamayı deneyin. veya “Hey Siri!” veya “Hava nasıl, Siri?” deyin. Ayrıca ayarlar kısmından asistanınızın cinsiyetini seçerek belirleyebilirsiniz.

Siri sesi veya dili nasıl değiştirilir?

Sesli asistan sizinle anlamadığınız bir dilde iletişim kuruyorsa dilini değiştirebilirsiniz. Bunu yapmak için iPhone'un "ayarlar" menüsünde Siri'yi bulun, "Siri Dili" komutunu seçin. Önünüzde bir dil seçenekleri listesi açılacak ve kaydırdıktan sonra, asistanın gelecekte sizinle iletişim kuracağı yardımıyla ihtiyacınız olanı seçin.

Bireysel asistanın iletişim tarzını programlamak istiyorsanız, sadece sesini değil, yerleşik hitap tarzını, duymaktan memnun olacağınız çeşitli cümleleri de yapılandırın. “Siri” programını başlatın, “Sesli geri bildirim” komut satırını bulun ve buna göre size uygun iletişim seçeneğini etkinleştirin.

Bu arada, bunu geliştiriciler yazılım ürünü Sesli asistanın bilincine sesleri, tonlamayı, aksanı ve hatta lehçeyi tanıma yeteneğini ihtiyatlı bir şekilde ekledik;

Arabada Siri modu

Siri uygulamasını açmak, bir harita seçerek görevlerinizi çok daha kolay hale getirebilir doğru yön araba kullanırken. Bunu yapmak için arabanın desteklemesi gerekir yazılım CarPlay'i kullanın veya bu programda bulunan "bakmama" işlevini kullanın. Asistanın hizmetlerinden yararlanmak için doğrudan arabanın direksiyonunda bulunan sesli komut düğmesine basarak onu aramanız ve Siri'ye uygun komutu vermeniz gerekiyor.

Arabanızda CarPlay özellikli bir dokunmatik ekran varsa ekran menüsünden Ana Sayfa düğmesine erişerek Siri'yi etkinleştirin. Bir komutu seslendirirseniz asistan, yürütmeye başlamadan önce konuşmanın duraklamasını bekler. Ancak araç çok gürültülüyse, ekranda bulunan ve ileten bir düğmeyle yanıt vermek daha iyidir. ses dalgası ve ardından Siri, işinizin bittiğini tahmin edecek ve atanan görevi tamamlamaya başlayacak. Gerekirse iPhone ayarlarınıza girerek Siri'yi nasıl devre dışı bırakacağınızı da okuyabilirsiniz.

Asistanı kaynağa Bluetooth kulaklık ve USB kablosuyla da bağlayabilirsiniz. Bu durumda tüm eylemleri aynı sırayla gerçekleştirin.

Siri, ilk kez 2011 yılında iOS 5 ile birlikte tanıtılan bir sesli asistandır. Tabii o zamandan beri ciddi şekilde gelişti: konuşmayı öğrendi farklı diller(Rusça dahil), Mac bilgisayarlara geldi, programlarla etkileşime girmeyi öğrendi üçüncü taraf geliştiriciler vb., ancak yalnızca iOS 10'un duyurulmasıyla niteliksel bir sıçrama yaptı - artık sesi derin öğrenmeye dayanıyor ve bu da onun daha doğal ve pürüzsüz ses çıkarmasını sağlıyor. Ne oldu derin öğrenme ve Siri'nin sesinin nasıl sentezlendiği - bu makalede bunun hakkında konuşacağız.

giriiş

Konuşma sentezi - yapay üreme insan konuşması- yaygın olarak kullanılır çeşitli alanlar sesli asistanlardan oyunlara kadar. Son zamanlarda konuşma tanımayla birlikte konuşma sentezi, Siri gibi sanal kişisel asistanların ayrılmaz bir parçası haline geldi.

Ses endüstrisinde kullanılan iki konuşma sentezi teknolojisi vardır: seçim ses üniteleri ve parametrik sentez. Birim seçim sentezi sağlar en yüksek kalite en yeterli miktar yüksek kalite konuşma kayıtları ve dolayısıyla ticari ürünlerde en yaygın kullanılan konuşma sentezi yöntemidir. Öte yandan parametrik sentez çok net ve akıcı bir konuşma sağlar ancak daha düşük bir performansa sahiptir. genel kalite. Modern ses birimi seçim sistemleri, iki yaklaşımın bazı avantajlarını birleştirir ve bu nedenle hibrit sistemler olarak adlandırılır. Hibrit birimleri seçme yöntemleri aşağıdakilere benzer: klasik seleksiyon ancak hangi ses birimlerinin seçilmesi gerektiğini tahmin etmek için parametrik bir yaklaşım kullanırlar.

İÇİNDE son zamanlarda Derin öğrenme bu alanda ivme kazanıyor konuşma teknolojileri ve büyük ölçüde üstündür geleneksel yöntemler prensibi çözmek olan gizli Markov modelleri (HMM) gibi bilinmeyen parametreler gözlemlenenlere dayalıdır ve elde edilen parametreler örneğin örüntü tanıma gibi ileri analizlerde kullanılabilir. Tamamen sağlanan derin öğrenme yeni yaklaşım adı verilen konuşma sentezine doğrudan modelleme dalga formları. Her ikisini de sağlayabilir yüksek kalite birim seçiminin sentezi ve parametrik sentezin esnekliği. Ancak son derece yüksek hesaplama maliyetleri göz önüne alındığında, bunu tüketici cihazlarına uygulamak henüz mümkün olmayacaktır.

Konuşma sentezi nasıl çalışır?

Kişisel asistan için yüksek kaliteli bir metin-konuşma (TTS) sistemi oluşturmak kolay bir iş değildir. İlk adım, kulağa hoş gelen, anlaşılması kolay ve Siri'nin kişiliğine uygun profesyonel bir ses bulmaktır. İnsan konuşmasının geniş çeşitliliğindeki bazı farklılıkları yakalamak için, konuşmanın profesyonel bir stüdyoda kaydedilmesi 10-20 saat sürer. Kayıt komut dosyaları, sesli kitaplardan gezinme talimatlarına, ipuçlarından yanıtlara ve esprili şakalara kadar çeşitlilik gösterir. Tipik olarak bu doğal konuşma, bir sesli asistanda kullanılamaz çünkü asistanın konuşabileceği tüm olası ifadeleri kaydetmek imkansızdır. Bu nedenle, TTS'deki ses birimlerinin seçimi, kayıtlı konuşmayı fonemler gibi temel bileşenlerine ayırmaya ve daha sonra bunları giriş metnine göre tamamen oluşturmak için yeniden birleştirmeye dayanır. yeni konuşma. Pratikte uygun konuşma bölümlerini seçmek ve bunları birbirleriyle birleştirmek kolay bir iş değildir, çünkü her bir ses biriminin akustik özellikleri komşu olanlara ve konuşmanın tonlamasına bağlıdır; konuşma üniteleri birbiriyle uyumsuz. Aşağıdaki şekil, fonemlere bölünmüş bir konuşma veritabanı kullanılarak konuşmanın nasıl sentezlenebileceğini göstermektedir:

Şeklin üst kısmı sentezlenmiş “Birim Seçim Sentezi” ifadesini ve bunun fonemler kullanılarak fonetik transkripsiyonunu göstermektedir. Karşılık gelen sentetik sinyal ve spektrogramı aşağıda gösterilmiştir. Çizgilerle ayrılmış konuşma bölümleri, bir veya daha fazla fonem içerebilen veri tabanındaki sürekli konuşma bölümleridir.

TTS'de ses birimlerini seçmenin temel sorunu, duyulabilir aksaklıklar olmadan bir araya getirilebilmeleri koşuluyla, girdi metnini ve tahmin edilen tonlamayı karşılayan bir dizi birim (örneğin ses birimleri) bulmaktır. Geleneksel olarak süreç iki bölümden oluşur: ön uç ve arka uç (gelen ve giden veriler), ancak modern sistemler sınır bazen belirsiz olabilir. Ön ucun amacı şunları sağlamaktır: fonetik transkripsiyon ve tonlama bilgilerine dayalı kaynak metin. Bu aynı zamanda sayılar, kısaltmalar vb. içerebilen kaynak metnin normalleştirilmesini de içerir:

Tonlama oluşturma modülü, metin analiz modülü tarafından oluşturulan sembolik dilsel gösterimi kullanarak cümle süresi ve tonlama gibi akustik özelliklere ilişkin değerleri tahmin eder. Bu değerler uygun ses birimlerini seçmek için kullanılır. Birim seçimi probleminin yüksek karmaşıklık modern sentezleyicilerin yöntemleri kullanmasının nedeni budur makine öğrenimi metin ve konuşma arasındaki yazışmayı öğrenebilen ve ardından alt metnin anlamlarından konuşma özelliklerinin anlamlarını tahmin edebilen. Bu model sentezleyicinin eğitim aşamasında öğrenilmelidir. büyük miktar metin ve konuşma verileri. Bu modelin girdisi, kullanılabilir bir sayısal forma dönüştürülen ses birimi, kelime veya ifade tanımlaması gibi sayısal dilsel işlevlerdir. Modelin çıktısı, spektrum, temel frekans ve cümle süresi gibi konuşmanın sayısal akustik özelliklerinden oluşur. Sentez sırasında, girdi metni özelliklerini eşlemek için eğitilmiş bir istatistiksel model kullanılır. konuşma fonksiyonları Bunlar daha sonra uygun tonlama ve sürenin önemli olduğu ses birimi seçiminin arka uç sürecini kontrol etmek için kullanılır.

Ön uçtan farklı olarak arka uç büyük ölçüde dilden bağımsızdır. İstenilen ses birimlerinin seçilmesi ve bunların bir cümle halinde birleştirilmesinden (yani birbirine yapıştırılmasından) oluşur. Sistem eğitildiğinde, kaydedilen konuşma verileri, kaydedilen konuşma ile kayıt metni arasında zorunlu hizalama kullanılarak (akustik konuşma tanıma modelleri kullanılarak) ayrı konuşma bölümlerine bölünür. Parçalara ayrılmış konuşma daha sonra ses birimlerinden oluşan bir veritabanı oluşturmak için kullanılır. Veritabanı daha da güncelleniyor önemli bilgi Her birimin dilsel bağlamı ve akustik özellikleri gibi. Oluşturulan cihaz veri tabanı ve seçim sürecini belirleyen tahmin edilen tonlama fonksiyonları kullanılarak bir Viterbi araması gerçekleştirilir (en üstte hedef ses birimleri, aşağıda olası ses blokları yer alır, kırmızı çizgi bunların en iyi kombinasyonudur):

Seçim iki kritere dayanmaktadır: birincisi, ses birimleri aynı (hedef) tonlamaya sahip olmalıdır ve ikinci olarak, birimler mümkünse sınırlarda duyulabilir aksaklıklar olmadan birleştirilmelidir. Bu iki kritere sırasıyla hedef ve birleştirme maliyetleri adı verilmektedir. Hedef maliyet, tahmin edilen hedefler arasındaki farktır akustik özellikler ve her bloktan çıkarılan akustik özellikler; birleştirme maliyeti ise sonraki birimler arasındaki akustik farktır:

Birimlerin optimal sırasını belirledikten sonra birey ses sinyalleri sürekli sentetik konuşma oluşturmak için birleştirildi.

Gizli Markov modelleri (HMM'ler), akustik parametrelerin dağılımlarını doğrudan modellemeleri ve dolayısıyla hedef maliyeti hesaplamak için kolayca kullanılabilmeleri nedeniyle hedef tahminleri için istatistiksel bir model olarak yaygın olarak kullanılır. Bununla birlikte, derin öğrenmeye dayalı yaklaşımlar genellikle parametrik konuşma sentezinde HMM'lerden daha iyi performans gösterir.

Siri'nin TTS sisteminin amacı, veritabanındaki ses birimleri için hem hedef hem de birleştirme maliyetlerini otomatik ve doğru bir şekilde tahmin edebilen tek bir derin öğrenme tabanlı model yetiştirmektir. Bu nedenle, belirli karakteristiklere yönelik dağılımları tahmin etmek için HMM yerine bir karışım yoğunluk ağı (MDN) kullanır. SPN'ler geleneksel derin sinir ağlarını (DNN'ler) Gauss modelleriyle birleştirir.

Geleneksel bir GNS yapay bir sinir ağı Giriş ve çıkış katmanları arasında birkaç gizli nöron katmanı bulunur. Böylece bir DNN, giriş ve çıkış özellikleri arasındaki karmaşık ve doğrusal olmayan ilişkiyi modelleyebilir. Buna karşılık, bir HMM, bir dizi Gauss dağılımını kullanarak girdi verilen çıktının olasılık dağılımını modeller ve genellikle beklenti maksimizasyon yöntemi kullanılarak eğitilir. SPS, girdi ve çıktı verileri arasındaki karmaşık ilişkiyi modellemek için DNN'yi kullanarak ancak çıktıda bir olasılık dağılımı sağlayarak DNN ve HMM'nin avantajlarını birleştirir:

Siri, hem hedef konuşma özelliklerinin (spektrum, perde ve süre) dağılımını hem de ses birimleri arasındaki birleştirme maliyetlerini tahmin edebilen SPS'yi temel alan birleşik hedef ve birleştirme modellerini kullanır. Bazen konuşma özellikleri ekler gibi oldukça sabittir ve yavaş gelişir - örneğin sesli harfler durumunda. Başka yerlerde konuşma oldukça hızlı değişebilir; örneğin sesli ve sessiz konuşma sesleri arasında geçiş yaparken. Bu değişkenliği hesaba katmak için modelin, parametrelerini yukarıda belirtilen değişkenliğe göre ayarlayabilmesi gerekir. ATP bunu modelde yerleşik önyargıları kullanarak yapar. Mevcut bağlama özel hedef ve birleştirme maliyetlerini hesaplamak istediğimiz için bu, sentezin kalitesini artırmak açısından önemlidir.

ATP kullanılarak toplam maliyete göre birimler sayıldıktan sonra, en iyi ses birimi kombinasyonunu bulmak için geleneksel Viterbi araması yapılır. Bunlar daha sonra düzgün ve sürekli sentetik konuşma üretmek amacıyla en uygun birleştirme sürelerini bulmak için dalga biçimi örtüşme eşleştirmesi kullanılarak birleştirilir.

Sonuçlar

Siri'de SPS'yi kullanmak için 48 kHz frekansında minimum 15 saatlik yüksek kaliteli konuşma kaydı kaydedildi. Konuşma, zorunlu hizalama kullanılarak fonemlere bölündü, yani giriş ses dizisini konuşma sinyalinden çıkarılan akustik özelliklerle hizalamak için otomatik konuşma tanıma uygulandı. Bu bölümleme süreci yaklaşık 1-2 milyon ses biriminin oluşturulmasıyla sonuçlandı.

SPS'ye dayalı olarak ses birimlerinin seçilmesi sürecini gerçekleştirmek için tek bir hedef ve birleştirme modeli oluşturuldu. SPS'ye giriş verileri öncelikle bazı ikili değerlerden oluşur. ek işlevler, bağlam hakkındaki bilgileri temsil eder (iki önceki ve sonraki fonem).

Kalite yeni sistem TTS Siri öncekinden daha üstündür - bu, aşağıdaki resimde yapılan çok sayıda testle doğrulanmıştır (ilginçtir ki, en iyi puanı alan Siri'nin yeni Rusça sesiydi):

En iyi ses kalitesi tam olarak ATP'ye dayalı veri tabanıyla ilişkilendirilir; bu, en iyi seçim ve ses bloklarının birleştirilmesi, daha fazlası yüksek frekansörnekleme (22 kHz - 48 kHz) ve geliştirilmiş ses sıkıştırma.

Orijinal makaleyi okuyun (gerekli) iyi bilgiİngilizce ve fizik) ayrıca iOS 9, 10 ve 11'de Siri'nin sesinin nasıl değiştiğini de dinleyebilirsiniz.