Lidský hlas si s počítačem nikdy moc nerozuměl. Mluvící roboti hráli jen ve sci-fi filmech, syntetická řeč počítače působila dost uměle, a hlasoví asistenti typu Siri a Alexa zvládali jen základní příkazy, a to ještě špatně.
S nástupem AI, konkrétně velkých jazykových modelů (LLM), mezi které patří i známý ChatGPT, se situace radikálně změnila. Dnes máme k dispozici solidní paletu nástrojů (placených i zdarma) pro různá využití, včetně recruitmentu, a další neustále vznikají.
Využití hlasu je individuální. Záleží na prostředí, kde se často pohybujete, i na stylu práce. Děláte v open space, na home office, nebo trávíte hodně času například za volantem? V každém případě se hlas etabluje jako plnohodnotný způsob komunikace s počítačem (vedle obrazovky a klávesnice) a uslyšíme o něm čím dál více.
Rozhodně neexistuje jeden správný postup nebo jedna zázračná appka, která zvládne všechno. Zvolený mix záleží na vašem stylu práce, technických znalostech a rozpočtu. Pojďme se podívat na nejzajímavější nástroje.
OpenAI vyvinul nástroj Whisper pro přepis a překlady hlasových nahrávek. Přesnost přepisu je obdivuhodná, a to i v českém jazyce. Nicméně Whisper (zatím) nemá svojí appku a funguje pouze přes API. Pokud ho chcete používat, potřebujete ho propojit s nějakým dalším nástrojem. Vyzkoušet zdarma si ho můžete například ZDE a nebo ZDE.
Hlavní výhody Whisperu jsou:
Whisper má omezení na velikost souboru 25 MB, takže delší nahrávky (nad 15 minut) je třeba rozsekat na menší. K tomu se dají stáhnout jednoduché appky nebo skripty.
Je spousta cest, jak si Whisper napojit do vašeho pracovního workflow. Pro nahrávání hlasu rád používám iPhone appku Voice Memo (s ní používáte mobil jako diktafon), přes kterou si nahraji myšlenky, poznámky či rozhovor s manažerem. A jak je pak dostat do Whisperu? Pomocí iphoní aplikace Shortcuts jsem si vytvořil jednoduchou automatizaci, která nahrávku pošle do Whisperu, a výsledný přepis mi pošle do mailu. Vzor takové automatizace si můžete stáhnout ZDE.
Další variantou je použít aplikaci Make.com (nebo Zapier), která umožňuje napojovat různé appky za sebe. Můžete si vytvořit scénář, který sleduje konkrétní adresář na vašem disku. Pokud do něj uložíte zvukový záznam, automaticky jej odešle na přepis, a hotový text uloží na disk. Stačí pak přetáhnout soubor a za pár minut si vyzvednout přepis.
Podobných scénářů najdete na webu Zapier či Make.com desítky.
Syrový přepis mluveného slova je většinou nepoužitelný (obsahuje výplňová slova, hovorové obraty) a proto je třeba ho vyčistit a zpracovat. S tím skvěle pomůže ChatGPT. Zde jsou nejčastější scénáře, které používám:
Konkrétní prompty pro ChatGPT jsou samozřejmě delší než jenom pár slov. Je třeba si je vyladit přesně pro vaše potřeby. Zde je na ukázku prompt, který používám pro tvorbu LinkedIn příspěvku pro podcast Nelidské zdroje.
Pro přepis delších textů je určitě lepší používat placenou verzi ChatGPT, která umí zpracovat až 10× delší vstupy a nahrát přepsaný záznam ve formátu .DOC nebo .TXT bez nutnosti ho kopírovat do okna chatu.
Specializované appkyWhisper je skvělý, pokud si ho napojíte do vlastních procesů. Výhodou je nízká cena a všestrannost. Nicméně každý není domácí kutil a raději sáhne po specializované appce, která je odladěná, má dobré UX a perfektně zvládá úkol, pro který je určena (ale žádné jiný).
Pojďme se podívat na některé specializované nástroje.
Link: https://www.metaview.ai/
Metaview přizvete jako hosta na váš online pohovor s kandidátem, a Metaview z něj dělá zápis a nahrávku. Po skončení pohovoru vidíte zápis v uživatelském portálu, kde naleznete kompletní přepis, nahrávku a přehledné shrnutí klíčových bodů.
Zajímavou funkcí je Q&A, kdy se můžete AI asistenta doptat na informace z pohovoru. Například: “O jaký plat si kandidátka řekla?” Metaview nabízí ještě další funkce. Například statistiky poměru mluvení kandidáta a tazatele, vytváření skórkaret, šablony pro pohovory a další. Jako jeden z mála nástrojů na trhu podporuje Metaview češtinu a výhodou také je, že je specializovaný přímo na recruitment.
Líbí se mi, že když používáte Metaview, můžete se plně soustředit na průběh pohovoru bez nutnosti psát si poznámky. Na druhou stranu nemusí být každý kandidát komfortní s tím, že je pohovor nahráván.
Ve free verzi si můžete vyzkoušet záznam až pěti pohovorů, přičemž pro častější používání budete muset počítat s cenou 50 dolarů měsíčně. Podobný nástroj jako Metaview je například: https://www.screenloop.com/
Link: https://tldv.io/hiring-recruiting/
Stejně jako Metaview se připojí do vaší schůzky v Zoomu, Google Meet nebo Teams. Nahrává zvuk, obraz, rozeznává právě mluvící osoby, vytváří přepisy, souhrny, překlady a tak dále. Se záznamem pak můžete dál pracovat, sdílet ho, vytahovat a sestříhat nejdůležitější momenty a to pak sdílet dál, například do Slacku, Trella, Notion, Salesforce a dalších. tl;dv bohužel neumí přepis v češtině.
Na trhu se objevují různé AI asistentky, které se například připojí do vašich týmových online schůzek, udělají ze schůzky zápis, rozešlou ho e-mailem a nové úkoly zaznamenají do Asany.
Populární je Fireflies.AI, který češtinu zvládá.
Beey byl dlouho jediný nástroj pro přepis audio a video souborů do textu. Uměl vytvořit nejen přepis, ale i podklady k titulkům. Nevýhodou byla nepřesnost přepisu, který jste museli ve velké míře ručně upravit. Zato Whisper z mého pohledu dosahuje lepších výsledků. Nový nástroj pro přepis delších textů, například podcastů, je Česky.ai. U obou nástrojů se cena za přepis pohybuje kolem 180 Kč za hodinu přepisu.
Schopnost otitulkovat video mají nativně i některé video editory, například Captions nebo Kapwing. I krátká náborová videa nebo příspěvky je lepší otitulkovat, protože většina videí na sociálních sítích se přehrává bez zvuku. Obě zmiňované appky zvládají češtinu na velmi solidní úrovni, protože mají integrovaný Whisper či podobný LLM nástroj.
Link: https://audiopen.ai/
Nejlepší věci vás napadnou v autě nebo venku na procházce? Použijte Audiopen, který vaše myšlenky nahraje a perfektně přepíše. Mezi jeho funkce patří:
Nahrávání.Přepis a jeho vyčištění.Souhrny a výtahy z vašich hlasových poznámek.Překlad poznámek.Zdarma můžete nahrávat pouze krátké poznámky do 3 minut délky, v placené verzi za 75$ ročně nahráváte bez omezení.
Nechce se vám psát dlouhé prompty pro ChatGPT? Použijte plugin pro Chrome, který umožní zadávat příkazy do ChatGPT hlasem. Když otevřete dialogové okno ChatGPT, plugin se zaktivuje, spustí se nahrávání hlasu a přepis se obratem vloží do příkazového okna GPT. Dobře funguje pro kratší příkazy, ale pro namlouvání delších textů nebo přepis myšlenek už tak vhodný není. Ovládání hlasem celkem dobře zvládá i oficiální mobilní GPT appka. Uživatelé Macu mohou využít nativní přepis hlasu přes klávesu F5.
Link: https://elevenlabs.io/
Eleven Labs je špičkový nástroj v oblasti syntézy hlasu. Disponuje rozsáhlou knihovnou hlasů v mnoha jazycích, které znějí velmi realisticky. Můžete si pohrát i s nastavením každého hlasu, například upravit rychlost čtení, emoce nebo barvu.
Zajímavou možností je klonování vlastního hlasu. Podle typu předplatného můžete využít buď rychlé klonování (stačí jen pár desítek sekund vlastní nahrávky) nebo profesionální klonování (30 minut vaší nahrávky), které je téměř nerozeznatelné od původního lidského hlasu.
Váš hlas pak můžete použít pro čtení textů v jakémkoliv jazyce, česky nebo i čínsky. Přímé využití v náboru sice není na první pohled úplně zřejmé, ale lze si představit využití pro dabing prezentačních materiálů o firmě, namluvení podkladů pro onboarding atd. Eleven Labs je také možné napojit přes API na další nástroje a vytvořit si třeba automatizaci, která přečte přehled vašich emailů, když jedete autem.
Na internetu se před pár dny objevilo video, ve kterém uživatel naklonoval hlasy slovenských dabérů seriálu Přátelé, a jejich naklonovanými hlasy nově předaboval jednu epizodu. Perfektní výsledek.
Na tomto videu je využití klonování hlasu pro překlad řeči do různých jazyků. Na nedávné konferenci v Davosu zase argentinský prezident mluvil v projevu anglicky díky AI tlumočení.
Link: https://audiobox.metademolab.com/capabilities/text_to_audio
S tímto nástrojem můžete generovat různé zvuky na základě jejich textového popisu, například “Zvuk startujícího starého traktoru.” Využití v recruitmentu nevidím žádné, ale je to zábava :)
Problém specializovaných aplikací je, že vám začnou rychle lézt do peněz. Když si pořídíte Audiopen na poznámky, Metaview na pohovory, Beey na přepis audionahrávek, najednou zjistíte, že platíte desítky dolarů měsíčně.
Používání Whisperu je bezkonkurenčně nejlevnější, protože platíte jen za API cally, neplatíte už žádné další předplatné. Pokud tedy AI audio nástroje využíváte víc a na různé úkoly, spíš bych doporučil využívat univerzální Whisper a promyslet, jak si ho napojit do vašeho workflow.
Můžeme očekávat vývoj v těchto směrech: