Poslední vteřiny jeho života zachytilo několik nekvalitních nahrávek, na nichž se kromě nevalného technického vybavení a vzdálenosti od místa neštěstí podepsalo i šumění večerního deště. Záznam klení a volání o pomoc, jež utnul výstřel, dodnes visí na internetu a během vyšetřování ho nikdo přesvědčivě nepřiřadil oběti − 17letému černošskému chlapci Trayvonu Martinovi, jehož smrt v roce 2012 vyvolala v USA vlnu demonstrací − ani střelci, jímž byl člen místní dobrovolné hlídky George Zimmerman.

Šlo přitom o jednu z klíčových otázek případu: kdo potřeboval před kým zachránit? Strážce pořádku Zimmerman, který po krátkém pronásledování osoby, jež mu přišla podezřelá, musel přistoupit k sebeobraně, nebo mladý Martin, který se toho večera vracel z obchodu a místo předpokládané zbraně měl v kapsách bonbony?

Forenzní fonetika

Popkultura líčí Spojené státy jako zemi neomezených vyšetřovacích možností. Forenzní vědy, z nichž nejznámější je pravděpodobně daktyloskopie (určování identity prostřednictvím otisků prstů), případně balistika − ono proslulé vyprošťování zploštělých kulek ze zdí −, si dokonce vysloužily vlastní se­riálový žánr. "Forensic science crime drama" představuje hrdiny, kteří dokážou vyřešit složité případy pomocí vzorků DNA nebo zaostřit na padouchovu tvář z oběžné dráhy. Jenže skutečnému výzkumu a praktickému využití poznatků z oblasti forenzní fonetiky se tam ve srovnání s Evropou, a také Českem, příliš nedaří.

Mluvený projev je jedním z našich nejcharakterističtějších a zároveň nejtvárnějších rysů. Jeho proměny závisí na okolnostech, v nichž se nacházíme, ale třeba i na našem hereckém talentu. Svěřit jeho analýzu počítači a spolehnout se na výsledek je pořád problematické, přestože v jiných oblastech − například čím dál přesnějším automatickém rozpoznávání lidského obličeje − stroje dosahují stále lepších výsledků. O poznávání vlastností lidské řeči v kriminálních případech usiluje právě forenzní fonetika.

Byl to on − nebo ona?

Evropští odborníci, kteří spolupracují s vyšetřovateli i soudy, se věnují dvěma hlavním typům zkoumání. V prvé řadě jde o srovnávání mluvčích − tedy hodnocení, zda podezřelá osoba na nahrávce může být tou, již zadrželi policisté − a posuzování manipulace s nahrávkami. Tehdy experti sledují, zda důkazní materiál někdo neupravoval, odkud záznam pochází či jakého druhu mohou být zvuky v pozadí.

Forenzní fonetika

◼ Moderní výzkum v tomto oboru se datuje od roku 1991. Odborníci se věnují několika typům analýz. Srovnávají mluvčí: pracují s nahrávkou hlasu a usilují o identifikaci podezřelého porovnáním s jiným záznamem.

◼ V zahraničí existuje praxe tzv. hlasových konfrontací – oběť trestného činu při ní zkouší identifikovat hlas pachatele poslechem skupiny mluvčích. Podezřelého je také možné profilovat.

◼ Dále se posuzují možné manipulace s nahrávkami. V kriminalistice se tato praxe nazývá fonoskopie a dělí se na dvě oblasti: na zkoumání mluvených projevů (identifikace mluvčího, zjišťování obsahu řečeného, jde­­-li o nekvalitní záznam) a zkoumání vlastností záznamu (manipulace s ním, místo pořízení nahrávky, původ doprovodných zvuků).

◼ Vyšetřování kombinuje lingvistické, fonetické a akustické metody.

Pro získání co nejpřesvědčivějších odpovědí se specialistům (policejní odborníci této metodě říkají šířeji "fonoskopie", viz box) podařilo vyvinout několik dalších disciplín: Velká Británie kupříkladu vede ve využívání takzvaných hlasových konfrontací. Ty se podobají identifikacím pachatele zařazeného do skupiny podobně vyhlížejících lidí. V tomto případě však svědek nehodnotí tvář či postavu, nýbrž hlas. Pachatele trestného činu je také možné profilovat, tedy snažit se o něm získat co nejvíce informací od pohlaví až po dialekt.

Moderní výzkum v oboru se datuje od roku 1991, nejsilnější vědecké zázemí má univerzita v britském Yorku. Následují Německo, Nizozemsko, české bádání posiluje díky Filozofické fakultě Univerzity Karlovy. Při vyšetřování a posuzování důkazů se v České republice používá kombinace lingvistických, fonetických a akustických metod − úsudek odborníka v nich hraje stejně důležitou roli jako údaje z počítače. Výrok samozvaného experta v případu Trayvona Martina naznačuje, že se to nejspíš vyplácí.

Šedé tlačítko, zelené tlačítko

"Na YouTube je k vidění mnoho ukázek, jež mají spojitost s Martinovým zabitím, a některé z nich dokladují nástrahy, s nimiž se obor musí vyrovnávat. Spojené státy jsou navíc stále v zajetí vlastní, poněkud problematické tradice. Za pozornost stojí například vystoupení Toma Owena, takzvaného forenzního konzultanta a majitele soukromé agentury, který už svědčil u více než 300 soudních líčení napříč 40 státy," říká Radek Skarnitzl, ředitel Fonetického ústavu Filozofické fakulty UK. Skarnitzl se na katedře zasazuje o prohlubování výzkumu a rozšiřování výuky.

"Owenův výkon je zoufalý. Televizní moderátorka se ho zeptá: Jak můžete srovnávat záznam vcelku normální promluvy s exaltovaným, stěží srozumitelným voláním o pomoc a vyhodnotit, jestli se mluvčí shodují? Znalec opáčí, že když jeho software, o jehož fungování veřejnost nemá ponětí, vzorky porovná a na obrazovce se rozsvítí zelené tlačítko, přičemž pravděpodobnost shody vyskočí zhruba nad 60 procent, je mluvčí týž − pokud ne, tlačítko zůstane šedé," popisuje Radek Skarnitzl "analýzu", již smetly ze stolu i americké soudy.

Voiceprint čili otisk hlasu je mezi vědci mnoho let zdiskreditovaný pojem, přitom v americkém systému jakousi roli stále hraje. "Příčiny tohoto stavu jsou historické," otevírá vědec krátký exkurz do několika událostí z 20. století, v nichž zkoumání lidské řeči sehrálo důležitou roli.

Lindbergh, Hitler, FBI

"Jedním z prvních pokusů o vědecký přístup k identifikaci pachatele ve vyšetřování byla výpověď slavného amerického letce Charlese Lindbergha v případu únosu jeho malého syna, k němuž došlo v roce 1932. Lind­bergh tehdy u soudu uvedl, že se rozpomněl na mužský hlas s cizím přízvukem a zhruba pět slov, jež zaslechl na vzdálenost 100 yardů (zhruba 90 metrů) při prvním předávání výkupného, a že zadrženého Bruna Hauptmanna podle hlasu poznal.

Jeho výpověď se stala senzací, protože byl celebritou, ale její váha nebyla příliš vysoká. Lindbergh totiž vypovídal o 30 měsíců později, než k setkání došlo," vysvětluje Skarnitzl a dodává, že experiment jisté americké psycholožky z roku 1937 ukázal, že lidská schopnost rozpoznat hlas zaslechnutý na malou vzdálenost klesá po 24 hodinách na 83 procent, po měsíci je méně než poloviční a po pěti měsících je na úrovni náhody.

Bruno Hauptmann nakonec v "případu století" odsouzen byl − k verdiktu a popravě elektrickým křeslem však přispěly hlavně označené bankovky, v nichž se vyplácelo výkupné.

Co můžete zkusit udělat se svým hlasem, aby vás nepoznal ani stroj, ani odborník? Trochu si s ním pohrajte. (Zdroj: Pražský fonetický korpus)

Bádání pokračovalo ve 40. letech ve slavných Bell Laboratories v New Jersey. Američané se po atentátu na Hitlera pokoušeli analýzou jeho rozhlasových vystoupení zjistit, zda jsou pravá, nebo byl atentát úspěšný a vůdce z propagandistických důvodů nahradil dvojník. Rozbory záznamů nebyly jednoduché, Hitlerův hlas byl silně poznamenaný nadužíváním léků a drog, ale nakonec nebyly potřeba, protože se objevily jiné důkazy.

Výsledkem výzkumu však byl takzvaný spektrogram, matematický model zvuku, který se při analýzách řeči používá dodnes. Jedním z dalších účelů výzkumu bylo nejspíš stvoření "viditelné řeči" pro neslyšící, kteří by se s její pomocí mohli naučit mluvit. "Změnit výslovnost podle obrazu, který mám před sebou, je ovšem pro laiky nereálné," poznamenává Skarnitzl s tím, že hlavním − a přísně utajovaným − záměrem tehdejších snah bylo vytvořit analogii k otisku prstu, zmíněný voiceprint.

Jak je slyšet padouch

Další vlnu zájmu o poznatky forenzní fonetiky přinesla 60. léta 20. století, kdy se začaly množit výhrůžky bombovými atentáty namířené proti americkým leteckým společnostem. Výzkumu se ujala FBI a jeho těžiště tam pravděpodobně spočívá dodnes, ovšem jeho výsledky na evropské specialisty příliš přesvědčivě nepůsobí. To ovšem neznamená, že forenzní fonetika nepřináší důležité informace.

"Metody akustické analýzy nahrávek využíváme poměrně často. Mnohdy jde o jedny z nejdůležitějších důkazů zejména v případech organizovaného zločinu. Ale uplatňují se i u ostatní, méně závažné trestné činnosti," uvádí za tým odborníků z Kriminalistického ústavu Praha (KÚP) vrchní komisařka Petra Srnková. "Výsledky těchto zkoumání přispívají nejen k usvědčení pachatelů, ale včasná identifikace mluvčího může pomoct překazit pokračování nebo dokonání trestného činu," vysvětluje.

Fonoskopie má v Kriminalistickém ústavu Praha více než 40letou tradici. Tamní znalecké zkoumání kombinuje více metod − elektroakustickou analýzu, na níž se významnou měrou podílí počítač, s analýzou foneticko­-lingvistickou čili poslechovou, kdy se záznamu věnuje odborník. "V současnosti testujeme možnosti automatické identifikace mluvčího i automatického zpracování nahrávek. Naši znalci se podílí už na třetím podobném projektu," popisuje Srnková z KÚP.

Kvalita mluveného projevu se změní, rozhodne­‑li se řečník hovořit zastřeně, když je jeho hlas dyšný, napjatý…

Pokud jde o konkrétní případy, v nichž je fonoskopie nenahraditelná, jde třeba o analýzy nahrávek z případů sériových úvěrových podvodů, ačkoliv podrobnosti policisté kvůli "varování" dalších zločinců příliš sdílet nechtějí.

"Pachatelé žádají o peníze formou mikropůjček, aniž by měli v úmyslu je vracet nebo vědí, že perspektiva splátky je mizivá," říká Srnková a zmiňuje i závažnější případy.

"Náš bývalý kolega Jan Málek, který se zasloužil o vznik a rozvoj zdejšího pracoviště fonoskopie, například pomohl identifikovat podezřelého, který vyhrožoval bývalé ministryni zahraničí USA Madeleine Albrightové při její návštěvě Brna. Tato metoda také přispěla k usvědčení pachatele v kauze takzvaného kyanidového vyděrače, který před 13 lety vyhrožoval otrávením jídla v pražských nemocnicích," uzavírá Petra Srnková.

Problém se strojem

Automatické zpracování důkazů se s rozvojem digitálních technologií jeví jako skvělá možnost, jak se vypořádat s nízkou kvalitou záznamu, nedostatečnou vnímavostí lidského ucha či podezřením na podjatost odborníků. S ohledem na ohromující pestrost lidského projevu a okolností, za nichž se nahrávky pořizují, však nejde o spolehlivou zkratku k cíli.

Některé evropské státy se v praxi častěji přiklánějí k jedné nebo druhé metodě. Například menší část německého Bundeskriminalamtu také dává přednost automatickým metodám, ale většina německých i britských odborníků k nim zůstává nedůvěřivá. Britové mají navíc silnou tradici hlasových konfrontací a profilování mluvčích, ačkoliv profilování je kvůli rozmanitosti angličtiny velmi složité.

Ředitel Fonetického ústavu FF UK Skarnitzl popisuje, v čem spočívají úskalí automatických analýz: "Tyto metody by byly skvělé, kdyby byly schopné porovnávat výrazně odlišné nahrávky. Kdyby uměly vzít záznam z terénu, kde je slyšet ruch ulice, případně jiné hlasy, a srovnat ho s relativně čistým záznamem hlasu podezřelého pořízeným na policejní stanici. Jenže to počítače zatím nedokážou. Technika totiž porovnává signál, který má k dispozici − pokud venku prší, je jeho součástí i déšť."

A jak celý proces probíhá? "Počítač řeč rozkouskuje a každých 10 milisekund sejme nějaké akustické hodnoty. Spektrum řeči se profiltruje a spočítá se z něj 39 koeficientů, které však nemají fonetickou ani lingvistickou hodnotu. Z obrovského množství čísel se vytvoří model, který je potřeba porovnat s modelem populace," vysvětluje Skarnitzl a naznačuje, že v té chvíli přichází další problém. Co je onou "populací"?

Problém s lidmi

Srovnání s modelem populace je nezbytné i pro poslechové analýzy, v nichž hraje hlavní roli člověk. Odborník potřebuje vědět, zda rozdíly, které mezi dvěma mluvčími našel, jsou běžné a nemohou se přirozeně vyskytovat v řeči jedné osoby.

"Normální řeč" se totiž výrazně proměňuje: základní hlasová frekvence kolísá například podle společenské příležitosti − vystupuje­-li řečník s hlubokým hlasem před malou skupinou lidí, jeho hlas může být posazený nízko. Potřebuje­-li oslovit větší plénum, musí "trochu přidat" a jeho hlasová frekvence se zvýší, aniž by to komukoliv přišlo divné. Kvalita projevu se dále změní, rozhodne­-li se řečník hovořit zastřeně, když je jeho hlas dyšný nebo napjatý… Jinak bude znít, když zaokrouhlí rty, jinak, když se bude usmívat nebo šišlat.

"Jde o zcela běžné věci. Narazím­-li na někoho, jehož průměrná hlasová frekvence je 115 hertzů, a druhý má zase 125 hertzů, je to pro jejich identifikaci relevantní rozdíl? Když vím, jak se chová čeština, zjistím, že v tomto rozpětí se nachází 60 procent českých mužů," vysvětluje Radek Skarnitzl, jehož tým v roce 2015 dostal grant na sestavení databáze obecné češtiny, která shromáždila záznam projevu 100 mluvčích.

"Problém byl i s určováním, co je obecná čeština. Kvůli dialektu do ní nepatří Ostravák ani Hanák, ale co třeba takový Budějovičák?" říká Skarnitzl. "I kdybych zprůměroval celou češtinu − od Ostraváka až po Choda −, nedostanu model populace, nýbrž její průměr."

Tím však potíže s lidským faktorem nekončí. Na otázku, zda se někdy stává, že si odborník, příkladně soudní znalec, nechá z počítače vyjet data, aniž by si poslechl, co na nahrávkách ve skutečnosti je, a na jejich základě dochází k závěrům, ředitel Fonetického ústavu FF UK odpovídá: "Obávám se, že vyloučené to není."

Produkce: Marcela Skladanová