InfoM: Casopis za IT i multimedijalne tehnologije

Волумен 2 / 2002
Абстракти

UDC: 659.443:681.3.06

Оптимизација мултимодалне комуникације у тактилним аудио апликацијама

Optimization Of Multimodal Communication For Tactical Audio Applications

Жељко Обреновић, Душан Старчевић, Емил Јованов

Апстракт: Временски критичне апликације као и апликације које кориснику у реалном времену приказују велику количину информација захтевају пажљив дизајн корисничког интерфејса. Као типичне примере можемо издвојити апликације за помоћ при навигацији у условима лоше видљивости, апликације за оријентацију на непријатељској територији, апликације за оријентацију приликом летења, као и разне медицинске апликације. Додатни канали за критичне ситуационе информације могу да обезбеде бољу комуникацију човека и рачунара симултаним коришћењем визуелне и звучне презентације. У овом раду приказујемо мултимодални симулациони систем као отворено окружење за експерименталну процену звучних и визуелних парадигми за мултимодалне рачунарске системе. Ово окружење је реализовано као виртуелна аудио-визуелна сцена коришћењем Java3D пакета. У раду приказујемо резултате експеримента реализованог у предложеном окружењу у коме је задатак корисника био праћење кретања објекта. У раду описујемо и примену испитиваних парадигми сонификације у медицинским апликацијама за анализу електроенцефалографског (EEG) сигнала.

Кључне речи: Рачунарство. Комуникације. Мултимедија

Abstract: Mission critical and information overwhelming applications require careful design of human computer interface. Typical applications include night vision or low visibility mission navigation, guidance through a hostile territory, and flight navigation and orientation. Additional channels of situation critical information can be better perceived using simultaneous audio and visual presentation. In this paper we present a multimodal simulation system as an open development environment for evaluation of sonification and visualization paradigms in augmented reality systems. The environment is implemented as a virtual audio-visual scene using Java3D package, and used for performance measurements in tactical guidance applications. The paper also presents the usage of sound modes in telemedical electroencephalograph (EEG) applications.

Key Words: Computing. Communications. Multimedia

Жељко Обреновић
Центар за командно-информационе Системе и информатичку подршку, ВЈ Београд

Проф.др Душан Старчевић
Факултет организационих наука
Београд, Јове Илића 154

Dr Emil Jovanov
The University of Alabama in Huntsville, USA

UDC: 659.443: 65.01

Управљање квалитетом сервиса у мултимедијалним комуникацијама

Quality Of Service Management In Multimedia Communications

Драгорад Миловановић, Зоран Бојковић

Апстракт – Технологије и стандарди за мултимедију и мултимедија комуникацију се развијају брзо и према томе, посебан изазов је пратити широк спектар ових напредних технологија. Овај рад је један могући преглед фундаменталних и критичних аспеката управљања квалитетом сервиса QoS (Quality of Service) у мултимедијалним комуникацијама. Имплементација квалитета је есенцијална са развојем Internet/ATM технологија као универзалне платформе за глобалну мултисервисну комуникацију. У постојећим мрежама неопходна је резервација ресурса и механизми скалирања/филтрирања. Рутирање и систем цена су активне истраживачке област. У овом раду је наглашена је анализа Интернет сервиса, квалитета сервиса и основних архитектура управљања.

Кључне речи: Мултимедија. Комуникације

Abstract – The technology and standards for multimedia and multimedia communication are evolving quickly and, therefore, it is challenging to keep pace with wide spectrum of this rapidly advancing technologies. This paper is an overview of the fundamental and critical aspects of quality of service (QoS) management in multimedia communications. Implementing QoS is essential if the Internet/ATM is to become a universal platform for global multiservice communications. In existing networks, resource reservation and scaling/filtration mechanism are necessary. Routing and pricing are active research areas. In this paper, the emphasis is on the following analysis: Internet services, quality of services and basic architecture of quality of service management.

Key Words: Multimedia. Communication

мр Драгорад Миловановић
Електротехнички факултет,
Београд
dragoradm@kiklop.etf.bg.ac.yu

проф.др ЗоранБојковић
Саобраћајни факултет,
Београд.Вој.Степе 307
e-mail: bojkovicz@stac.bg.ac.yu

UDC: 681.3.06

Програмски пакет AlfaNumCASR - систем за препознавање континуалног говора

Program Package AlfaNumCASR - For Continuous Speech Recognition

Дарко Пекар, Радован Обрадовић, Владо Делић

Апстракт: У раду је представљен програмски пакет за препознавање континуалног говора који за сада успешно функционише на малим и средњим речницима. Представљени су модули за обуку и препознавање, а на крају је дат и кратак преглед модула који су још увек у фази испитивања.

Кључне речи: Комуникације. Говор

Abstract: This paper shortly presents a program package for continuous speech recognition, named AlfaNumCASR. This HMM-based phoneme in context recognizer is successful with small and medium dictionaries. AlfaNumCASR is a product of several years of R&D in ASR topic, starting from isolated words recognition, over connected words, to continuous speech recognition. AlfaNumCASR employs some unique procedures described in this paper. The whole program is written in C++ programming language, and is fully developed by the authors. Software is in its largest part independent of the platform or the operating system. It includes two libraries developed in last two years by the same authors. Those are slib library for digital signal processing and general-purpose an_misc library.

Key Words: Communicaton. Speech.

Дарко Пекар
Факултет техничких наука
Трг Д.Обрадовића 6,
Нови Сад
e-mail:pekard@

Радован Обрадовић
Факултет техничких наука Трг Д.Обрадовића 6,
Нови Сад

Др Владо Делић
Факултет техничких наука
Трг Д.Обрадовића 6,
Нови Сад

UDC: 681.3.06 : 612.78

Синтеза говора на српском језику повезивањем сегмената одабраних у реалном времену

The Synthesis Of The Speech In Serbian Language By Connecting Chosen Segments In Реал Тиме

Милан Сечујски, Радован Обрадовић, Дарко Пекар, Љубомир Јованов

Апстракт: У овом раду приказани су основни принципи и критеријуми за пројектовање и реализацију првог синтетизатора говора на српском језику оријентисаног на спајање говорних сегмената одабраних у реалном времену. Детаљно је описан генератор прозодијских обележја који је у оквиру овог система коришћен, с освртом на одређене специфичности српског језика које су утицале на његову реализацију. У раду је, осим тога, дат и преглед критеријума за online селекцију одговарајућих сегмената из обимне базе спонтаног говора.

Кључне речи: Српски језик. Говор

Abstract: This paper presents some basic criteria for conception of a concatenate TTS synthesizer in Serbian language. The paper describes the prosody generator which was used, and reflects upon several peculiarities of Serbian language which led to its adoption. The paper also describes the method of online selection of appropriate segments from a large speech corpus.

Key Words: Serbian Language. Speech

Милан Сечујски Факултет техничких наука, Нови Сад	Радован Обрадовић, Факултет техничких наука, Нови Сад
Дарко Пекар, Факултет техничких наука, Нови Сад	Љубомир Јованов Факултет техничких наука, Нови Сад

UDC: 681.3.06:51.01.012.78

Blind Speech Separation For Solving The Cocktail Party Problem In Real Room Environments Problem

Алгоритми за ”слепо” раздвајање сигнала у решавању ˝Cocktail Party˝ проблема

Athanasios Koutras, Evangelos Dermatas

Апстракт: У овом раду, разматра се робусност Blind Signal Separation (BSS у даљем тексту) у временском као и у фреквентном домену, за одабирање говорника који најбоље одговара пристиглом сигналу. Алгоритам за обучавање мреже за селекцију говорника заснива се на максимизацији веродостојности (Maximum Likelihood) и тестиран је у реалним условима у соби са реверберацијом и без шума. Побољшање односа сигнал/сметња (која потиче од других говорника) у окружењу са два говорника која причају истовремено износило је 30 dB за оба говорника. Такође оба предложена алгоритма могу значајно побољшати тачност фонетског препознавача говора за више од 20%, посебно у случају велике интереференције. Предложени алгоритам могуће је користити у front-end процесирању при сепарацији више говорника у реалним условима при решавању ˝cocktail party˝ проблема.

Кључне речи: Раздвајање сигналa. BSS

Abstract: In this paper, we examine the robustness of Blind Signal Separation (BSS) in the time as well as the frequency domain, for separating competing speakers in real reverberant environments. The separation network’s learning rule is based on the Maximum Likelihood Estimation criterion and was tested in real room situations in a noise-free reverberant environment. The Signal to Interference Ratio improvement (SIR) in a two-simultaneous speaker environment was 30 dB for both speakers. Furthermore, both separation methods can significantly improve the accuracy of an automatic phoneme decoder, more than 20% especially in highly adverse environments. Therefore, it can be used as a front-end processor for separating multiple speakers in real room situations towards solving the cocktail party problem.

Key Words: Bind Signal Separation. BSS

Athanasios Koutras

Electrical & ComputerEngineeringDept, University of Patras, Hellas

E-mail: koutra@giapi.wcl2.ee.upatras

Evangelos Dermatas

Electrical & Computer EngineeringDept, University of Patras, Hellas

UDC: 681.3:612.78

Спектралне карактеристике вибрација костију главе изазваних процесом говора

Spectral Characteristic Of Head Bones Vibration Produced By Speech Process

Милан Војновић

Апстракт: Истраживања вибрација костију главе показују да се оне могу користити у говорним комуникацијама. Посебно је интересантна њихова примена у бучним срединама због мале осетљивости акцелерометра на амбијенталну буку. У раду су приказани резултати експерименталних мерења вибрација костију главе изазваних процесом говора. Експериментом су обухваћене четири кости главе говорника: темена (лат. оs parietalе), чеона (лат. оs frontale), јагодична (лат. os zigomaticum) и носна (лат. ос насале). Анализирана је динамика и 1/3-октавни спектри вибрација костију у поређењу са природним говором снимљеним на растојању 50 цм од уста говорника.

Кључне речи: Вибрације, кости главе. Говорне комуникације.

Abstract: In this paper the spectral characteristics of head bones vibration, inducted by speaker’s voice, are reported. Low-pass filtering is a main characteristic of speech signal based on head bones vibration. Dynamic range is reduced, too. Spectrographic analysis of head bones vibration shows that some unvoiced phonemes are missing. Unvoiced phonemes have insufficient energy to exit vocal tract surrounding tissue and bones to vibrations. In order to achieve suitable intelligibility of unvoiced phonemes the vibration sensor has to be placed as close as possible to the end of vocal tract, i.e. oral cavity.

Key Words: Vibrations, head bones. Speech communication.

Милан Војновић
ИНСТИТУТ БЕЗБЕДНОСТИ
Краљице Ане бб.,Београд
E-mail: milanv@eunet.yu

UDC: 681.3.06:51(084.1)

Lempel-ZIV компресија слике са оштећењем

Lempel-ZIV Lossy Image Compression

Владимир Црнојевић, Војин Шенк, Жељен Трповски

Апстракт: У овом раду представљена је модификација Lempel-Ziv алгоритма која омогућава вишеструко повећање степена компресије уз извесна оштећења слике. На основу активности слике која се мери локалном варијансом омогућено је маскирање грешке. У регијама са великом варијансом дозвољена су велика оштећења и обратно. Оваквим поступком остварује се велика компресија слике уз оштећења која минимално иритирају посматрача.

Кључне речи: Компресија. Слика

Abstract: In this paper a modification of Lempel-Ziv algorithm for lossy image compression is presented. With minor image distortion, much higher compression ratio can be achieved. Based on the local image activity, measured through local variance, criterion for error-masking is designed. In image areas with higher variance, a higher image distortion is allowed, and vice versa. By applying this method, minimal observers irritation with high compression ratio can be achieved.

Key Words: Compression. Image.

мр Владимир Црнојевић
Факултет техничких наука, Нови Сад
Институт за енергетику, електронику и
телекомуникације.

др Војин Шенк
Факултет техничких наука,
Нови Сад
Институт за енергетику, електронику и
телекомуникације.

др Жељен Трповски
Факултет техничких наука,
Нови Сад
Институт за енергетику, електронику и
телекомуникације.

ИНФО М
Часопис за информациону технологију и мултимедијалне системе
• Динарска 14, Београд, Србија • Електронска пошта • Телефон +381 (0)11 648-484 •
Продукција сајта: ТИА Јанус

(С) 2002-2003 ИНФО М и носиоци појединачних ауторских права. Сва права задржана.

Волумен 2 / 2002 Абстракти