Diskretna kosinusna transformacija slikovnih signalov. Algoritmi za stiskanje digitalne slike z ortogonalnimi transformacijami

Test

Komunikacija, komunikacija, radijska elektronika in digitalne naprave

Algoritmi za pretvorbo izvornih slik na podlagi ortogonalnih transformacij. Za kakšen namen se lahko uporabljajo algoritmi za pretvorbo izvornih slik na osnovi ortogonalnih transformacij. Kakšne so podobnosti in razlike med diskretno Fourierjevo transformacijo in drugimi vrstami ortogonalnih transformacij. Ena od vrst ortogonalnih transformacij je diskretna Fourierjeva transformacija. V procesu ortogonalnih transformacij slike, ki ima močno korelacije dogaja med sosednjimi elementi...

2.4. Algoritmi za pretvorbo izvornih slik na podlagi ortogonalnih transformacij (Za kakšen namen se lahko uporabljajo algoritmi za pretvorbo izvornih slik na osnovi ortogonalnih transformacij? Kakšne so podobnosti in kakšne razlike med diskretno Fourierjevo transformacijo in drugimi vrstami ortogonalnih transformacij?).

V nekaterih primerih je priporočljivo, da zmanjšate količino podatkov ali olajšate postopek ekstrahiranja značilnosti predmetov na naslednjih stopnjah prepoznavanja, prvotno dvodimenzionalno matriko najprej preoblikujete [ E i, j ] v niz vrednosti koeficientov [ F u, v ], ki ima enak format MxN kot izvirna slika.

Sekundarni niz ali drugače matrika koeficientov se imenuje transformant. Ena od vrst ortogonalnih transformacij je diskretna Fourierjeva transformacija. V primeru Fourierove transformacije transformant ni nič drugega kot dvodimenzionalni prostorski spekter slike.

IN splošni primer kakršno koli preobrazbo originalna slika na podlagi ortogonalnih operatorjev lahko obravnavamo kot operacijo razgradnje slike v posplošen dvodimenzionalni spekter, koeficiente (t. i. transformantne elemente) pa kot amplitude pripadajočih spektralnih komponent. Upoštevajte, da če niso uporabljene kot osnovne funkcije harmonične funkcije, potem je treba koncept prostorske frekvence posplošiti in uporabiti koncept sekvenc.

Sequenta se imenuje količina enaka polovici povprečno število prehodov ničle na enoto časa ali na enoto dolžine.

V procesu ortogonalnih transformacij slike, ki ima močne korelacije med sosednjimi elementi, pride do dekorrelacije (beljenja). Tako se izkaže, da so vrednosti transformacijskih elementov praktično nekorelirane. Za razliko od prvotnega niza, ki je označen s povprečjem enakomerna porazdelitev signalne energije med elementi je porazdelitev signalne energije v transformatorju izjemno neenakomerna. Glavni delež energije prihaja iz elementov z majhnimi serijske številke(tj. za nizke prostorske sekvence) in le majhen delež za druge (glej sliko 2. 3).

riž. 2. 3. Porazdelitev energije signala med posameznimi elementi
v originalnem nizu (a) in v transformantu (b).

Ta okoliščina nam omogoča, da ga v celoti zavržemo (tj. upoštevamo enako nič) večina transformirati elemente (kar v bistvu pomeni nizkopasovno prostorsko filtriranje) ali jih kvantizirati v majhno število ravni z uporabo minimalnega števila bitov binarne kode.

Oglejmo si nekaj najpogostejših vrst ortogonalnih transformacij, ki se uporabljajo pri obdelavi digitalnih slik.

Tukaj so kvote F u na splošno so kompleksna števila

Diskretna Fourierjeva transformacija

Vsak kompleksni koeficient lahko nadomestimo z dvema realnima komponentama. Te komponente označujejo prostorsko diskretne spektre amplitud in faz in so opredeljene na naslednji način:

Glavna pomanjkljivost diskretna transformacija Fourier primerjalno velika prostornina izračune, pa tudi potrebo po varčevanju veliko število komponente transformantov v primerjavi z drugimi ortogonalnimi transformacijami z enakimi napakami rekonstrukcije slike (tj. z enakimi izgubami informacij). Poleg tega je potrebno shraniti posamezne komponente kompleksnih koeficientov večji volumen spomin kot za prave vrednosti elementov izvirnega niza. Ko govorimo o diskretni Fourierjevi transformaciji, je treba omeniti možnost uporabe posebej razvitih algoritmovhitra Fourierjeva transformacija, pa tudi o specializiranih računalniških napravah za njihovo izvajanje tisistolični procesorji.

Walsheva transformacija(z M = N)

V zameno, koeficientov bk(Z) so opredeljeni kot sledi: b k (Z ) je enak vrednosti k -ta del binarne kode števila Z, sestavljen iz l binarne števke. Če npr. Z = 10, tj. 10 10 = 1010 2, torej
b 0 = 0; b 1 = 1; b 2 = 0; b 3 = 1.

b k so določene v skladu s pravilom za njihovo določitev v Walshevi transformaciji.

Adamardova transformacija(z M = N)

To je očitno vse vrste ortogonalnih transformacij so reverzibilne, tj. s postopkom inverzne transformacije lahko obnovite izvirno sliko iz transformanta.

Naj bo [E i, j ] niz izvirne slikovne oblike NxN, kjer je j številka vrstice, tj stolpec število elementov (število elementov v vrsti); [ F u, v ] pretvorba slike, ki ima enak format NxN, kjer sta u in v oziroma številko vrstice in številko stolpca elementov transformanta. Nato v splošnem primeru, ne glede na vrsto ortogonalne transformacije, pišemo

kjer sta a (i, j, u, v) in b (i, j, u, v) bazne funkcije direktnih oziroma inverznih transformacij.

S praktičnega vidika je pomembno omeniti, da so vse zgoraj obravnavane vrste ortogonalnih transformacij ločljive v spremenljivkah. Tako se lahko izračun neposrednih in inverznih dvodimenzionalnih ortogonalnih transformacij zmanjša na zaporedno izvajanje enodimenzionalnih transformacij.

Tukaj a p (i, u), b (i, u) in a (j, v), b (j, v) osnovne funkcije direktnih oziroma inverznih transformacij v smeri vrstic in stolpcev.

Za lažje snemanje in izračune je priporočljivo uporabiti matrični aparat

Tukaj [A e] in [A str ] matrike neposredne transformacije; [ V e ] in [ V str ] inverzne transformacijske matrike; [A stran ] t in [V stran ] t matrike, dobljene kot rezultat transponiranja matrik [ A stran ] in [ B stran ].

Seveda ne glede na obliko matematična predstavitev direktne in inverzne ortogonalne transformacije dvodimenzionalnih nizov zahtevajo v splošnem primeru znatne računske stroške. To je treba upoštevati pri načrtovanju

ATSN deluje v realnem času. Pri digitalni obdelavi binarnih slik pa so postopki ortogonalnih transformacij bistveno poenostavljeni, predvsem v primeru uporabe binarnih baznih funkcij (Walsheva, Hadamardova itd. transformacije).


Pa tudi druga dela, ki bi vas utegnila zanimati

7090. Svetovno gospodarstvo. Odgovori na izpitna vprašanja 255,04 KB
Svetovno gospodarstvo. Odgovori na izpitna vprašanja Bistvo svetovnega gospodarstva in koncept svetovnega (svetovnega) gospodarstva svetovno gospodarstvo v moderni ekonomska literatura se uporablja za označevanje sistema držav in gospodarstva ...
7091. Religije sveta. Vadnica 188,67 KB
Uvod Raziskovalec, ki obišče naš planet iz vesolja, bi lahko ugotovil, da trpimo za nespodobno in zelo skrivnostno boleznijo s presenetljivo širokim razponom simptomov. Nekatere prisili, da neusmiljeno sežigajo, režejo ali bombardirajo svoje...
7092. Srednjeveška sholastika F. Akvinskega 43,53 KB
Srednjeveška sholastika F. Akvinskega Značilnosti srednjega veka Srednji vek je trajal več kot tisoč let. Za začetek srednjega veka znanstveniki štejejo razpad rimskega cesarstva (5. stoletje našega štetja), ko se je dokončno uveljavila krščanska vera...
7093. Tržne storitve za potrošnike 49,99 KB
Uvod V tržnem gospodarstvu številnih problemov proizvajalcev blaga ni mogoče v celoti rešiti s pomočjo tradicionalne metode upravljanje. Potrebno je vzpostaviti sistem vodenja, ki zagotavlja učinkovitost poslovne enote v...
7094. Magnetometri na SQUID-ih 108,5 KB
Magnetometri na SQUID-ih. Superprevodnost. Osnovni parametri superprevodnikov. Pojav superprevodnosti je, da pri določeni temperaturi blizu absolutna ničla, električni upor v nekaterih materialih izgine. Ta tempera...
7095. Sociolingvistika. Predavanja. Socialna razslojenost jezika 190 KB
Predavanja pri predmetu Sociolingvistika. Predavanje 1. Predmet sociolingvistike in metode sociolingvistične analize. Predmet proučevanja sociolingvistike je problem človek in družba. Neposredni predmet sociolingvistike je ...
7096. Tehnologija emulgiranih mesnih izdelkov 65,69 KB
Predavanje 4. Tehnologija emulgiranih mesnih izdelkov Načrt ASORTIMAN KLOBASNIH IZDELKOV, SUROVIN IN MATERIALOV ZA NJIHOVO PROIZVODNJO Asortiman klobase Značilnosti surovin Čreva za klobase Pakiranje in oblačenje...
7097. Osnove programiranja v Pascalu 81,53 KB
Kratek tečaj predavanja. Osnove programiranja v Pascalu Uvod. Najprej je treba opozoriti, da je učenje programskega jezika seznanitev s formalnimi pravili za pisanje algoritmov za njihovo kasnejšo izvedbo na računalniku ...
7098. Psihosomatika. Tečaj predavanja 279 KB
Zapiski predavanj Psihosomatika Psihosomatika: definicija pojma. Simptomi pretvorbe. Funkcionalni sindromi. Patogeneza psihosomatoz psihosomatske motnje Psihosomatske teorije in modeli. Karakterološko usmerjene smeri...

“Slika v tisku” - Posebnosti slike v tisku. Glavna lastnost poli grafična podoba. Knjiga. Posebnost večina finih tiskarskih del. Pluralnost Masivnost Javna dostopnost. Povezovanje slik z besedilom. Umetnost knjige. Pisava.

“Vektorska in rastrska grafika” - Vektorski primitivi so podani z opisi. Principi konstruiranja vektorskih in rastrskih slik. Vektorske slike zavzamejo relativno malo pomnilnika. Vrste računalniška grafika. Vektorske slike opisujejo desetine in včasih tisoče ukazov. Slabosti rastrske grafike.

"Računalniška grafika" - Glavne težave pri delu z rastrsko grafiko. Vrste računalniške grafike se razlikujejo po načelih oblikovanja slike. Računalniška grafika. Fraktalna grafika. Vrste računalniške grafike. Velike količine podatkov. Pixel. Primerjalne značilnosti rastrska in vektorska grafika. Vsaka točka na zaslonu ima lahko samo dve stanji - "črno" ali "belo".

"Ustvarjanje grafičnih podob" - meje platna. Naloga 4. Ustvarite risbo, sestavljeno iz samooblik. Ustvarite risbo z orodno vrstico Draw. Položaj grafične podobe v besedilu. V besedilo vstavite sliko iz zbirke. Platno. Primerjalne značilnosti rastrske in vektorske grafike. Značilnosti ustvarjanja vektorska slika v okolju Word 2003.

"Podoba moške glave" - ​​drugi hladni, mrtvi obrazi so zaprti z rešetkami, kot ječa. Drugi so kot stolpi, v katerih nihče ne živi ali dolgo časa ne gleda skozi okno. Katere vrste portretov obstajajo? Proporcije obraza osebe. Slika obraznih potez. Človeški obraz in čustva. N. Zabolotski. Katere vrste obrazov obstajajo? Risba človeške glave. Res je svet hkrati velik in čudovit!

"Rasterske slike" - Zaključki iz eksperimenta. Rdeča. Katere osnovne barve uporablja računalnik? Rastrsko kodiranje grafičnih informacij. Raster slika. Piksli različne barve. Modra (turkizna). Siva. Roza. Paleta sodobnih računalnikov. Vse barve je mogoče oštevilčiti in vsako številko pretvoriti v binarno kodo.

Eno najpogostejših načinov obdelave tako enodimenzionalnih kot večdimenzionalnih signalov, vključno s slikami, so ortogonalne transformacije. Vloga ortogonalnih transformacij je še posebej velika pri reševanju problema zmanjševanja hitrosti prenosa binarnih simbolov v digitalni televiziji in posledično zmanjšanja zahtevanega frekvenčnega pasu komunikacijskih kanalov. Bistvo ortogonalnih transformacij je predstaviti izvirni signal kot vsoto ortogonalnih baznih funkcij.

Spomnimo se, da se funkciji x(t) in y(t) imenujeta pravokotni na segmentu (t 1, t 2), če sta skalarni produkt enako nič

To definicijo je mogoče razširiti na diskretne signale, ki jih predstavljajo zaporedja številk. Diskretna signala x(n) in y(n), ki imata po N vzorcev, se imenujeta ortogonalna, če je pogoj izpolnjen

Eden najbolj znani primeri Uporaba ortogonalne transformacije je razširitev periodičnega signala x v Fourierjev niz

Kje: ; T - perioda ponavljanja signala x(t).

Realni koeficienti Fourierove vrste so določeni z razmerji

IN kompleksna oblika Razširitev v Fourierjev niz ima obliko:

kompleksne harmonične amplitude;

j je imaginarna enota.

Ne le periodični signal s periodo T, ampak tudi signal, ki se od 0 razlikuje le v časovnem intervalu (-T/2, T/2), je mogoče razširiti v Fourierjev niz. V tem primeru se uporablja periodično nadaljevanje signala vzdolž celotne časovne osi s periodo T.

Oglejmo si diskretni signal x(n), ki je drugačen od 0 za n = 0,1, ..., N-1. Za tak signal je mogoče uvesti tudi bazno razširitev sinusnih funkcij. Ker frekvenčni spekter vzorčenega signala mora biti omejen od zgoraj v skladu s pogojem Kotelnikovega izreka, ostane razgradnja diskretnega signala končna številka frekvenčne komponente, ki so diskretne kompleksne harmonične funkcije. Ta razširitev, imenovana diskretna Fourierjeva transformacija (DFT), ima obliko

N=0, 1...N-1,(2,6)

kjer so koeficienti DFT X(k) določeni z razmerjem

K=0, 1...N-1,(2,7)

Spomnimo se, da se iskanje koeficientov X(k) v skladu z (2.7) običajno imenuje naprej DFT, pridobivanje signala iz teh koeficientov v skladu z (2.6) pa inverzno DFT.

V teh relacijah so se namesto integralov pojavile vsote, saj izvorni signal ni zvezen, temveč diskreten. Pogostost, uporabljena pri razgradnji analogni signali in ima dimenzijo rad/s, v DFT ustreza brezdimenzijski količini, kjer je k=0, 1…N-1. Razmerje kaže, kolikšen del frekvence vzorčenja je frekvenca danega diskretnega harmonika.

DFT koeficienti Х(k) in eksponentni faktorji v (2.6), (2.7) so kompleksna števila. Vsako kompleksno število je shranjeno v digitalnem pomnilniku kot par realnih števil, ki predstavljata njegov realni in imaginarni del. Seštevanje dveh kompleksna števila zahteva izvedbo dveh operacij seštevanja realnih števil - realni in imaginarni del se seštevata ločeno. Množenje dveh kompleksnih števil zahteva štiri operacije množenja in dve operaciji seštevanja za realna števila. Tako izvajanje DFT v kompleksni obliki vodi do znatnega povečanja zahtevanega obsega pomnilnika in časa izračuna.

Ukvarjati se samo z realna števila običajno uporabljajo razgradnjo z diskretno kosinusno transformacijo (DCT), ki jo opisuje relacija:

kjer so koeficienti denarne politike določeni s formulami

Tako kot v primeru DFT se iskanje koeficientov C(k) po (2.9) imenuje direktni DCT, predstavitev signala v obliki (2.8) pa inverzni DCT.

Podobno lahko zapišemo razmerja za direktno in inverzni DFT in PrEP v dvodimenzionalni primer. Dvodimenzionalni diskretni signal, na primer ločen okvir digitalnega televizijskega signala, je predstavljen z matriko vrednosti x(t,n), kjer je t = 0 ... M-1 - številka vzorca v vrstica, n = 0 .., N-1 - številka vrstice v okvirju.

Neposredni dvodimenzionalni DFT ima obliko:

k=0…M-1, l=0…N-1,

kjer so X(k,l) kompleksni koeficienti DFT, ki odražajo prostorsko-frekvenčni spekter slike.

Inverzni 2D DFT predstavlja razgradnjo slike na osnovne funkcije:

Koeficienti dvodimenzionalne neposredne monetarne politike so določeni s formulami:

Inverzni dvodimenzionalni DCT ima obliko:

Količine in so diskretne prostorske frekvence vzdolž vodoravnih oziroma navpičnih koordinat, ki so izražene kot brezdimenzijske količine, ki imajo enak pomen kot diskretna frekvenca v enodimenzionalnem primeru. Vsaka diskretna prostorska frekvenca je sorazmerna z razmerjem med prostorsko periodo vzorčenja na dani koordinati in prostorsko periodo te frekvenčne komponente. Prostorska obdobja se merijo v enotah razdalje.

Na sl. 2.3 prikazuje osnovne funkcije dvodimenzionalnega DCT za M = 8, N = 8 v obliki poltonskih slik. Svetla področja ustrezajo pozitivne vrednosti, temne pa so negativne.

riž. 2.3.

Prikazani primeri:

  • a) k = 1, l = 0; b) k = 0, l = 1; c) k = 1, l = 1;
  • d) k = 0, l = 2; e) k = 1, l = 2; e) k = 2,l = 2;
  • g) k = 4, l = 2; h) k = 7, l = 1; i) k = 7, l = 7.

Izjemna lastnost razgradnje video signala v osnovi DCT je, da vsaka osnovna funkcija vsebuje informacije o celotni sliki hkrati. Število osnovnih funkcij, uporabljenih za razgradnjo video signala, določa natančnost predstavitve slike.

V skladu z , je na splošno mogoče oceniti stroške računalniških virov pri izvajanju naprej in inverznega DFT kot sorazmerno z N 2 . Podobno se lahko pokaže, da izračun dvodimenzionalnih prednjih in inverznih DFT zahteva številne operacije, sorazmerne z N 2 M 2.

Na primer, izračun DFT za blok kvadratne slike, ki vsebuje 8x8 elementov (pikslov), bo zahteval približno 16 10 3 operacij množenja in seštevanja. In izračun DFT črno-belega televizijskega okvirja običajnega standarda razgradnje, ki vsebuje 720x576 slikovnih pik, bo zahteval približno 8·10 11 operacij. Če se izračuni izvajajo na računalniku, ki izvaja 10 6 operacij na realnih številih na sekundo, bo čas izračuna DFT 8 10 5 s ali več kot 200 ur za izračun DFT televizijskih slik v realnem času, tj. med obdobjem skeniranja okvirja je treba iskati načine za zmanjšanje števila potrebnih operacij.

Najbolj radikalen način za zmanjšanje količine računanja je uporaba hitrih algoritmov DFT, ki so bili odkriti v 60-ih, imenovanih algoritmi za hitro Fourierjevo transformacijo (FFT). Hitri algoritmi za izračun DFT so podrobno opisani v mnogih literarni viri in tukaj niso upoštevani.

Dvodimenzionalno FFT je mogoče razstaviti na zaporedje enodimenzionalnih. Število potrebnih operacij se izkaže za sorazmerno. Za zgornji primer televizijskega okvirja, sestavljenega iz 720 x 576 slikovnih pik, se izkaže, da je ta vrednost približno 8 10 6, kar je 10 5-krat manj od števila operacij, potrebnih za neposredni izračun DFT.

Obstajajo tudi hitri algoritmi za izračun denarne politike. Kot bo razvidno kasneje, v digitalni televiziji glavna vloga predvaja DCT blokov pikslov 8x8, ki uporablja algoritem za hiter izračun enodimenzionalnega DCT segmenta digitalnega signala, ki vsebuje osem elementov. V tem primeru se DCT najprej izračuna za vsak stolpec bloka slikovnih elementov, nato pa se DCT izračuna za vsako vrstico v dobljeni matriki števil 8x8.

V sodobni opremi, vključno z digitalna televizija, DFT in DCT se običajno izvajata v realnem času z uporabo digitalnih signalnih procesorjev (DSP) ali namenske strojne opreme, kot so vzporedne računalniške naprave.

DCT je osnova trenutno najpogosteje uporabljenih metod kodiranja JPEG, MPEG-1, MPEG-2, katerih opis bo podan v razdelku 2.2.

Na podlagi transformacij DFT, Walsh-Hadamard in Haar je mogoče konstruirati številne druge ortogonalne transformacije. Določimo jih lahko z uporabo Kroneckerjevega produkta ali kot vsoto Kroneckerjevih produktov. Na primer, predlagana je hibridna Hadamard-Haarjeva transformacija, katere matrika je velikosti velikosti, ki je definirana kot

Prispevek podaja rekurzivno definicijo ti modificirane Hadamardove transformacije

in prikazana je njegova povezava s Haarjevo transformacijo.

Upoštevamo matriko tako imenovane posplošene Walsheve transformacije reda dimenzije (transformacija z Vilenkin-Chrestensonovimi funkcijami), definirano kot Kroneckerjeva potenca matrike

Delo opisuje tako imenovano -transformacijo, ki je zgrajena na podlagi Walsh-Hadamardove transformacije z zamenjavo vsake vsote v izrazu (3.114) z njenim absolutna vrednost. Ta preobrazba je nepovratna.

Omeniti velja tudi poševno transformacijo, poševno-Haarjevo transformacijo in diskretno bazno transformacijo, predlagano za kodiranje slike.

Lahko se pokaže, da je večino enotnih transformacij, ki se trenutno uporabljajo pri obdelavi slik, mogoče predstaviti kot vsote Kroneckerjevih produktov elementarne matrike permutacijske matrike in nekatere druge. Ta predstavitev matrik Haar, Hadamard, Walsh, Walsh-Paley, modificirana matrika Hadamard, matrika Hadamard-Haar, matrika DFT, generalizirana matrika Walsh je prikazana v tabeli. 3.5 z naslednjim zapisom:

Razsežna permutacijska matrika, pri kateri so njeni elementi pomnoženi z vektorjem prerazporejeni v skladu z binarno invertirano kodo njihovega števila; - dimenzijska permutacijska matrika, ki izvaja permutacijo vektorskih elementov v skladu z inverzno Grayovo kodo njihovih števil; - Kroneckerjev produkt matrik; Kroneckerjeva moč matrice.

(glej skeniranje)

Nadaljevanje tabele. 3.5 (glej skeniranje)

Ta predstavitev zagotavlja priročno osnovo za primerjavo transformacij. Ko primerjamo predstavitve za matriko, lahko »opazimo, da se razlikujejo v obratnem vrstnem redu matrik v vsakem členu; matrika MHAD se razlikuje od Hadamardove matrike HAD po tem, da ni zgrajena

In naprej itd. Za vse te matrike obstajajo hitri algoritmi za njihovo množenje z vektorjem pri izvajanju transformacije. To dejstvo je najbolj neposredno povezano z možnostjo predstavitve matrik v obliki vsot Kroneckerjevih matrik (glej 4. poglavje).

Na podlagi opisanih enodimenzionalnih transformacij lahko ustrezne dvodimenzionalne ločljive transformacije konstruiramo kot dvojne enodimenzionalne:

kjer je M ena od zgoraj opisanih transformacijskih matrik; a - dvodimenzionalni diskretni signal; a je njegova transformacija.

Upoštevajte, da so vse enotne transformacije slike, ki se trenutno uporabljajo v digitalni obdelavi slik, ločljive, tj. izvajajo se ločeno vzdolž stolpcev in vrstic dvodimenzionalnega signala. To zmanjša število operacij, potrebnih za njihovo dokončanje. Ločljive transformacije je mogoče sestaviti tudi z izbiro različnih matrik za transformacije vzdolž vrstic in stolpcev:

Tako se izkaže mešane transformacije, ki se uporablja v specializiranih napravah za kodiranje digitalnih slik (glejte na primer).

Uporabe enotnih transformacij pri obdelavi slik lahko razdelimo v tri skupine:

Kodiranje slik;

Ekstrakcija funkcij za pripravo in prepoznavanje slike;

Generalizirano filtriranje.

Kodiranje slik je trenutno glavna uporaba transformacij (razen DFT). Poleg tega nekatere transformacije (na primer poševna transformacija in diskretna transformacija linearna osnova itd.) so bili uvedeni posebej za uporabo pri kodiranju.

Koeficiente predstavitve signala, dobljene kot rezultat njegove transformacije, je mogoče obravnavati kot njegove znake in uporabiti pri pripravi slike (glej II. del, 7. poglavje) in za prepoznavanje. Primer transformacije, izumljene posebej za označevanje funkcij med prepoznavanjem, je -transformacija. Uporabi transformacij za kodiranje in prepoznavanje sta povezani. Praviloma transformacije, ki dajejo najboljši rezultati pri kodiranju je tudi boljši za ekstrakcijo funkcij.

Uporaba enotnih transformacij za filtriranje signalov temelji na posplošitvi koncepta filtriranja frekvenčna domena diskretna Fourierjeva transformacija. Pri filtriranju signalov z uporabo DFT se izvede naslednja transformacija signala:

Prehodne matrike iz T transformacije v DFT in obratno.

Ta pristop je bil predlagan za posplošitev optimalnega linearnega (Wienerjevega) filtriranja (glejte tudi).

Odvisno od vrste transformacije T in lastnosti zahtevanega filtra se lahko kompleksnost izvajanja operacije filtracije (3.139), ocenjena, recimo, s številom operacij, spreminja. Zlasti se lahko izkaže, da je namesto DFT bolj donosno uporabiti več hitro pretvorbo Walsh-Hadamard kljub večji zapletenosti množenja z nediagonalno matriko filtra v tem primeru (glej tudi § 6.5).

Transformacije, ki se uporabljajo za stiskanje slik, morajo biti hitre in po možnosti enostavno implementirane na računalniku. To predvsem predpostavlja, da morajo biti takšne transformacije linearni. Se pravi pretvorjene vrednosti Z( so linearne kombinacije (vsote z nekaterimi faktorji ali utežmi) prvotnih količin (pikslov) dj, in ustrezen množitelj ali utež je določeno število Wij(pretvorbeni faktor). pomeni, Z (-]G\- djWij, kjer je r, j= 1,2,..., p. Na primer, kdaj p= 4 to transformacijo lahko zapišemo kot matrična oblika ki bo v splošnem primeru imel naslednjo obliko: C = W D. Vsak stolpec vektorja matrike W se imenuje "bazni vektor".

Pomembna naloga je določitev pretvorbenih koeficientov wij. Glavna zahteva je, da po preoblikovanju vrednost z\ bi bila velika, vse ostale količine C2, сз,... pa bi postale majhne. Osnovno razmerje С( = Ylj djWij predvideva, da Z( bo velika, če teža Wij bo povečala ustrezne vrednosti dj. To se bo zgodilo na primer, če so komponente vektorjev wij in dj imajo podobne pomene in enake znake. obratno, Z( bo majhna, če so uteži majhne in jih ima polovica predznak nasproten predznaku ustreznega števila dj.Če torej dobimo velike c*, potem vektorji W(j so podobni izvirnemu vektorju dj in majhni Z( pomeni, da komponente wij zelo drugačen od dj. Zato so osnovni vektorji wij lahko razlagamo kot orodje za ekstrakcijo nekaterih značilnih lastnosti izvirnega vektorja.

V praksi uteži Wij ne bi smelo biti odvisno od izvornih podatkov. V nasprotnem primeru jih bo treba dodati v stisnjeno datoteko za uporabo v dekoderju. Ta premislek, kot tudi dejstvo, da so izvorni podatki slikovne pike, to je nenegativne količine, določa način izbire baznih vektorjev. Prvi vektor, tisti, ki generira z\, mora biti sestavljen iz podobnih, po možnosti ujemajočih se številk. Povečal bo nenegativne vrednosti slikovnih pik. In vsi drugi bazični vektorji morajo biti sestavljeni iz polovice pozitivna števila, druga polovica pa od negativnih. Po množenju z pozitivne vrednosti in če jih seštejemo, bo rezultat majhno število. (To še posebej velja, če so izvorni podatki blizu in vemo, da imajo sosednje slikovne pike ponavadi blizu vrednosti.) Spomnimo se, da osnovni vektorji zagotavljajo orodje za pridobivanje funkcij iz izvornih podatkov. Zato bi bila dobra izbira bazični vektorji, ki se med seboj zelo razlikujejo in jih je zato mogoče ekstrahirati različne lastnosti. To vodi do ideje, da bi morali biti bazni vektorji medsebojno pravokotni.Če je transformacijska matrika W sestavljena iz pravokotni vektorji, potem se imenuje transformacija pravokoten. Druga ugotovitev, ki omogoča pravilno izbiro baznih vektorjev, je, da morajo imeti ti vektorji čedalje višje frekvence sprememb predznaka, da lahko pri izračunu transformiranih količin izluščimo tako rekoč visokofrekvenčne značilnosti stisnjenih podatkov.

Prvi bazični vektor (zgornja vrstica W) je vse enice, zato je njegova frekvenca nič. Vsi drugi vektorji imajo dva +1 in dva -1, zato bodo ustvarili majhne pretvorjene vrednosti, njihove frekvence (merjene s številom sprememb predznaka v vrstici) pa se povečajo. Ta matrika je podobna transformacijski matriki Hadamard-Walsh (glej enačbo (3.11)). Na primer, transformirajmo začetni vektor (4,6,5,2)

Rezultat je precej spodbuden, saj je število z\ postala velika (v primerjavi z izvirnimi podatki), drugi dve številki pa sta postali majhni. Izračunajmo energije originalnih in transformiranih podatkov. Začetna energija je 4 2 + b 2 + 5 2 + 2 2 = 81, po transformaciji pa je energija postala 17 2 + 3 2 + (-5) 2 + I 2 - 324, kar je štirikrat več. Energijo lahko prihranimo tako, da transformacijsko matriko W pomnožimo s faktorjem 1/2. Novi produkt W-(4,6,5,2) t bo enak (17/2,3/2, -5/2,1/2). Torej je energija ohranjena in koncentrirana v prvi komponenti in zdaj znaša 8,5 2 /81 = 89 % celotne energije prvotnih podatkov, v katerih je prva komponenta predstavljala le 20 %.

Druga prednost matrike W je, da izvaja tudi inverzno transformacijo. Izvirni podatki (4,6,5,2) so obnovljeni z uporabo produkta W-(17/2,3/2, -5/2,1/2) t.

Zdaj lahko cenimo prednosti te preobrazbe. Transformirani vektor (8.5,1.5,-2.5,0.5) kvantiziramo tako, da ga zaokrožimo na celo število in dobimo (9,1,-3,0). Naredimo inverzno transformacijo in dobimo vektor (3.5,6.5,5.5,2.5). V podobnem poskusu bi preprosto odstranili dva najmanjša števila in dobimo (8. 5,0, -2,5,0), nato pa izvedemo inverzno transformacijo tega grobo kvantiziranega vektorja. Posledica tega so rekonstruirani podatki (3,5.5,5.5,3), ki so tudi precej blizu originalu. Torej, naš zaključek: tudi ta preprosta in intuitivna transformacija je dobro orodje za "iztiskanje" redundance iz izvirnih podatkov. Bolj izpopolnjene transformacije dajejo rezultate, ki vam omogočajo obnovitev podatkov iz visoka stopnja podobnost tudi pri zelo grobi kvantizaciji.



Vam je bil članek všeč? Delite s prijatelji!