Różnice

Różnice między wybraną wersją a wersją aktualną.

pl:resources:korpusemo [2015/09/02 19:34]
Bartosz Ziółko
pl:resources:korpusemo [2019/04/11 08:30] (aktualna)
Bartosz Ziółko
Linia 5: Linia 5:
 Korpus zawiera nagrania wyrażające pięć spośród emocji podstawowych (radość, smutek, złość, strach, zdziwienie),  ironię oraz stan neutralny/obojętny jako sygnał referencyjny. Ironia/sarkazm/drwina nie jest emocją w rozumieniu teorii emocji podstawowych, można uznawać ją za emocję złożoną, postawę emocjonalną bądź środek wyrazu świadczący o nastawieniu emocjonalnym. W aspekcie zawartości informacji w sygnale mowy - ton ironiczny jest dodatkową informacją niesioną przez sygnał mowy – reprezentującą postawę emocjonalną wobec wypowiadanej treści.  Korpus zawiera nagrania wyrażające pięć spośród emocji podstawowych (radość, smutek, złość, strach, zdziwienie),  ironię oraz stan neutralny/obojętny jako sygnał referencyjny. Ironia/sarkazm/drwina nie jest emocją w rozumieniu teorii emocji podstawowych, można uznawać ją za emocję złożoną, postawę emocjonalną bądź środek wyrazu świadczący o nastawieniu emocjonalnym. W aspekcie zawartości informacji w sygnale mowy - ton ironiczny jest dodatkową informacją niesioną przez sygnał mowy – reprezentującą postawę emocjonalną wobec wypowiadanej treści. 
   * **Mówcy i treść**   * **Mówcy i treść**
-W nagraniach wzięło udział 12 mówców (6 kobiet, 6 mężczyzn) w wieku 20-30 lat. Część z nich to profesjonalni aktorzy lub amatorzy, a część - studenci wolontariusze.+W nagraniach wzięło udział mówców w wieku 20-30 lat. Część z nich to profesjonalni aktorzy lub amatorzy, a część - studenci wolontariusze.
 Po uprzednim zapoznaniu się z tekstami, mówcy zostali poproszeni o przeczytanie ich kolejno w sposób wyrażający poszczególne emocje. Dla każdego mówcy zarejestrowano nagrania o tej samej treści (około 10 minut dla każdego mówcy). Treść nagrań stanowią pojedyncze słowa (cyfry, polecenia sterujące), zdania dialogowe (46 zdań z naturalnych codziennych rozmów) oraz jeden tekst ciągły. Treść dobrano tak, żeby była możliwie neutralna i nie indukowała konkretnej emocji. Treść zaprojektowano pod kątem użycia w interfejsach człowiek-komputer oraz różnorodności typów wypowiedzi. Łącznie dla każdego mówcy zarejestrowano 282 słowa, każde w 6 stanach emocjonalnych. Po uprzednim zapoznaniu się z tekstami, mówcy zostali poproszeni o przeczytanie ich kolejno w sposób wyrażający poszczególne emocje. Dla każdego mówcy zarejestrowano nagrania o tej samej treści (około 10 minut dla każdego mówcy). Treść nagrań stanowią pojedyncze słowa (cyfry, polecenia sterujące), zdania dialogowe (46 zdań z naturalnych codziennych rozmów) oraz jeden tekst ciągły. Treść dobrano tak, żeby była możliwie neutralna i nie indukowała konkretnej emocji. Treść zaprojektowano pod kątem użycia w interfejsach człowiek-komputer oraz różnorodności typów wypowiedzi. Łącznie dla każdego mówcy zarejestrowano 282 słowa, każde w 6 stanach emocjonalnych.
   * **Parametry audio**   * **Parametry audio**
 Wypowiedzi nagrywano przy pomocy rejestratora Zoom H4N oraz mikrofonu pojemnościowego AKG C5 Vocal i dynamicznego AKG Shotgun C568.  Uzyskane nagrania mają postać plików PCM .wav o parametrach: częstotliwość próbkowania 44 100 Hz, rozdzielczość 16 bit, SNR średnio ok. 40 dB. Wypowiedzi nagrywano przy pomocy rejestratora Zoom H4N oraz mikrofonu pojemnościowego AKG C5 Vocal i dynamicznego AKG Shotgun C568.  Uzyskane nagrania mają postać plików PCM .wav o parametrach: częstotliwość próbkowania 44 100 Hz, rozdzielczość 16 bit, SNR średnio ok. 40 dB.
   * **Struktura i rozmiar bazy**   * **Struktura i rozmiar bazy**
-Nagranie każdego mówcy zostało podzielone na części tematyczne (osobno: zdania, tekst ciągły, cyfry, polecenia) znajdujące się w osobnych plikach. Łączna wielkość zarchiwizowanych danych (całego korpusu) to 1.5 GB. +Nagranie każdego mówcy zostało podzielone na części tematyczne (osobno: zdania, tekst ciągły, cyfry, polecenia) znajdujące się w osobnych plikach.  
   * **Metadane**   * **Metadane**
 W warstwie metadanych nagrania oznaczone są akronimem mówcy, informacją, czy mówca jest aktorem oraz nazwą emocji.  W warstwie metadanych nagrania oznaczone są akronimem mówcy, informacją, czy mówca jest aktorem oraz nazwą emocji. 
Linia 20: Linia 20:
 {{ http://www.youtube.com/v/7y6DdURf5X8?.swf?500x305 }} {{ http://www.youtube.com/v/7y6DdURf5X8?.swf?500x305 }}
  
-Korpus emocji w mowie został zlicencjonowany Uniwersytetowi Adama Mickiewicza w Poznaniu, [[http://www.techmo.pl|Techmo sp. z o.o.]],  Krakowskiej Akademii imAndrzeja Frycza Modrzewskiego oraz UMCS.+ 
 +Twórcy zapraszają do skorzystania z oferty [[http://techmo.pl|techmo.pl]]. Techmo jest spółką spin-off która specjalizuje się w przetwarzaniu mowy i audio. 
Copyright © Zespół Przetwarzania Sygnałów AGH 2011-2014