Hur man transkriberar ljud till text – den ultimata guiden till transkription

Få ut mer av ljud och video för ditt företag. Tal-till-text-transkription gör om det talade språket till skrivet innehåll.

Innehåll
    Innehåll

      Mänsklig kommunikation är i ständig utveckling. Från grottmålningar till brevduvor, tryckpressen till internet, telekommunikation till textmeddelanden – innovationen känner inga gränser när det kommer till att sprida ordet.

      Oavsett medium involverar de flesta former av kommunikation antingen ljud vi kan höra eller symboler vi kan se. Båda har sina fördelar och begränsningar. Men i den moderna, digitala eran dominerar de visuella meddelandena.

      Tack vare Internet kan visuellt innehåll ses och delas av ett enormt antal människor världen runt, på otaliga sätt. Det erbjuder en mängd möjligheter att skapa ny och mångsidig skriftlig kommunikation av ljudinspelningar.

      Processen att omvandla ljud- och videoinnehåll till text kallas “transkription”.

      Vad är transkription?

      Ordet "transkription" orsakar ibland förvirring då det blandas ihop med liknande begrepp, som "översättning” och "transkribera".

      De må vara besläktade, men “översättning”, “transkribering” och '”transkription” har olika innebörd: Inom lingvistiken innebär översättning att uttrycka betydelsen av talade eller skrivna ord på ett annat språk. Att transkribera betyder att skriva ut en kopia; medan en transkription syftar till den skrivna versionen av det talade ordet.

      Dessa tre termer är alltså lätta att blanda ihop av en anledning (särskilt när en transkriberares transkription ska översättas!).

      Vilka är fördelarna med transkription?

      Att skapa en skriven version av ljudinnehåll låter ansträngande. Så varför bemöda sig med transkription?

      Här är fem sätt som transkription kan gynna dig och ditt företag.

      1. Accelerera arbetsflödet
      Med ett skriftligt dokument kan alla som arbetar med ljud eller video få snabbare handläggningstider. En redaktör kan markera och lägga till kommentarer till en utskrift eller bildtexter på ett sätt som annars skulle vara tidskrävande, opraktiskt och kanske till och med omöjligt.

      2. Förbättra SEO
      I sociala medier och onlinebutiker är video alltid bättre än text, medan sökmotorer å andra sidan bara läser skrivet innehåll. Med transkription får du det bästa av två världar: Videor som tilltalar människor och textinnehåll som tilltalar Googles botar.

      3. Maximera kommunikationen
      Ta vara på dina möten, tal och utbildningar i form av permanenta, konkreta dokument som kan utnyttjas långt efter att orden uttalats. Ett tal, till exempel, kan få nytt liv som marknadsföring, ett e-postmeddelande till personalen eller omarbetas till en pitch för nya affärer.

      4. Utöka tillgängligheten
      Transkriberat ljud och bild (i form av videotextning, undertexter och fullständiga transkriptioner) gör innehåll tillgängligt även för personer med hörselproblem. I många länder är det faktiskt lagstadgat att allt offentligt ljud- och bildmaterial ska transkriberas.

      5. Öka engagemang i sociala medier
      Enbart ljudfiler har inte samma slagkraft som text och bilder i sociala medier. Men om ljudet transkriberas omvandlas det till text som genererar fler delningar och mer webbtrafik.

      Var används transkription?

      Efterfrågan på transkriptionstjänster sträcker sig över de flesta branscher. Här är en snabbguide till hur olika sektorer kan använda transkription till kommersiell och operativ fördel.

      Transkription av media
      Transkription används för att underlätta visning och redigering av talat innehåll inom många typer av video- och ljudmedia. Från konferenstal till vanliga poddsändningar: Allt som spelats in som ljud eller video kan transkriberas till ett redigerbart textdokument.

      Akademisk transkription
      Transkription används inom utbildningsorganisationer som skolor, högskolor och universitet för att förbättra kvaliteten på undervisningen, tillgängligheten till lärresurser och för att ge studenterna sökbara versioner av föreläsningar och seminarier online.

      Transkription för försäkringar
      Försäkringsbolag tar vanligtvis ljudutlåtanden från kärande, vittnen och andra inblandade parter. Eftersom dessa intervjuer är juridiskt bindande är det viktigt att varje ord fångas korrekt. Transkription ger därför lämplig juridisk dokumentation som kan användas för att bedöma och behandla ett försäkringskrav.

      Journalistisk transkription
      Journalister och reportrar ägnar mycket av sin tid åt att genomföra intervjuer som de senare transkriberar, ibland med hjälp av mjukvara eller en extern leverantör. Med transkription har journalister ett exakt dokument som de kan hänvisa till för att korrekt citera personer och rapportera händelser och även kan använda för senare skrivande och eventuella vidare utforskningar.

      Transkription för marknadsundersökningar
      Feedback från fokusgrupper, intervjuer och observationer spelar en avgörande roll för att få ut en framgångsrik produkt på marknaden. Transkription ger ett exakt och sökbart dokument över vad som har sagts om vad, när och av vem.

      Vilka typer av transkription finns det?

      Eftersom transkriberad text har många användningsområden är det ingen överraskning att det finns olika typer av transkription att välja mellan. Ibland behöver en transkription vara absolut bokstavlig, i andra fall är läsbarhet det primära målet och ibland är en enkel översikt tillräcklig.

      De fyra vanligaste typerna av transkription är ordagrann, intelligent ordagrann, redigerad och fonetisk.

      1. Ordagrann transkription

      En ordagrann transkription fångar varje tystnad som uppstår och alla ljud, från hosta och skratt till verbala pauser och utfyllnader (“eh...”, “hmm...”, “så att...”). Ordagrann transkription registrerar också ljud som hörs i utkanten, som ringande telefoner och dörrar som slår igen.

      2. Intelligent ordagrann transkription

      En intelligent transkription avlägsnar alla irrelevanta element från texten, såsom fyllnadsord och onödiga upprepningar. Resultatet blir en mer kortfattad, läsbar transkription som på alla andra sätt förblir källan trogen.

      3. Redigerad transkription

      I en redigerad transkription har allt överflödigt innehåll tagits bort, eventuella grammatiska misstag har korrigerats och oavslutade meningar kompletterats. Resultatet må vara en mer formell version än originalet, men är lättare att läsa och begripa än den ursprungliga ordgranna transkriptionen.

      4. Fonetisk transkription

      Fonetisk transkription använder symboler för att dokumentera fonem (de minsta distinkta ljudenheterna i ett språk), snarare än de faktiska orden som talas. Fonetisk transkription bör följa samma process för alla språk, med symboler som representerar samma ljud. En fonetisk transkription är användbar när uttal är viktigt – till exempel när tal jämförs mellan olika åldersgrupper, platser eller tidsperioder.

      Fonetisk kontra ortografisk transkription

      Till skillnad från fonetisk transkription följer ortografisk transkription standardiserade språkregler och påverkas inte av ändringar i uttalet. Exempelvis är den populära australiska tv-såpan Neighbours känd för att introducera den uppåtriktade fonetiska böjningen i slutet av meningar till resten av den engelsktalande världen. I en fonetisk transkription skulle detta genast märkas – men i en ortografisk transkription märks ingen skillnad.

      Ortografisk transkription är att föredra för stora textmängder och i synnerhet inom forskning, där detaljer om uttal är oväsentliga.

      Manuell transkription kontra automatisk transkription

      Mänskliga transkriberare, som rättssalarnas stenografer och andra som hanterar mycket känsligt material (såsom bevis i pågående utredningar och förhör) spenderar år på att bygga upp och finslipa sina färdigheter för att kunna leverera transkriptioner med extremt hög standard.

      Personliga expertis som kommer med sitt pris, både i form av tid och pengar. Av denna anledning är manuell transkription inte lämplig för storskaliga projekt som kräver snabb handläggning.

      Automatisk transkription innebär en avsevärd minskning av såväl tid som kostnader tack vare att en programvara slutför uppgiften. Men att transkribera regionala accenter är än så länge inget tekniken lyckats bemästra: Resultaten varierar beroende på AI-tekniken och produktens kapacitet för maskininlärning. I skrivande stund är inte ens de bästa "maskinerna" för transkription 100 % korrekta.

      Valet mellan manuell transkription och automatisk transkription beror på hur känsligt materialet är och graden av noggrannhet som krävs. Ofta är absolut precision en mindre prioritet än hastighet. En populär kompromiss är att kombinera de två metoderna så att programvaran utför en första transkription och en skicklig person korrigerar felen.

      Hur man transkriberar

      Professionell transkription är en fantastisk färdighet som ofta tar flera år av övning att utveckla. Här är sex viktiga regler för transkriberare som vill utvecklas inom detta specialistområde.

      1. Lyssna på hela ljudinspelningen innan du börjar skriva. På så sätt kan transkriberaren “ställa in sig” på stilen i och förstå det talade innehållet. Detta är särskilt användbart vid obekanta accenter eller dialekter.

      2. Lyssna på en hel mening innan du transkriberar den. Det ger transkriberaren en uppfattning av sammanhanget och minskar risken för missförstånd om homofoner, det vill säga ord som uttalas på samma sätt men har olika stavning och betydelser.

      3. Redigera transkriptionen när den är slutförd – leta efter misstag och dålig grammatik. En skicklig transkriberare kan bli än mer effektiv genom att också bli en duktig granskare.

      4. Att kunna den korrekta tekniken för att skriva på känsla (touch typing) maximerar hastigheten, noggrannheten och komforten – handkramp drabbar även den bästa av transkriberare. Vissa moderna transkriptionsprogram använder sig av fotpedaler för att öka hastigheten och effektiviteten. Med en fotpedal styr användaren ljudet med sina fötter, så att båda händerna kan användas för att skriva.

      5. Se till att ha kunskap om relevant jargong och eventuella förkortningar som talaren använder. Ett typexempel på detta är medicinsektorn, där specialisttermer närapå får det som sägs att låta som ett främmande språk.

      6. Kontrollera, kontrollera och kontrollera igen: att terminologin som används är korrekt, att varje stycke är vettigt och att transkriptionen är fullständig och överensstämmer med fakta.

      Använd tidskoder för att markera hjälppunkter i talet

      Tidskoder använder vanligtvis formatet [HH:MM:SS] för att ange timmar, minuter och sekunder från början av ljudinspelningen då den givna texten lästes upp. På så sätt kan redigerare hoppa direkt till specifika punkter i en ljudfil utan att behöva arbeta igenom hela inspelningen. Även transkriberare tycker att tidskoder är användbara, särskilt när de vill hitta och granska särskilt utmanande textavsnitt.

      Det finns flera olika sätt att använda tidskoder i transkriptioner. Här är några exempel:

      • Tidskoder som indikerar när det faktiska talet börjar och slutar är användbara i inspelningar som inte inleds med dialog.
      • Tidskoder som placerats där en ny person talar kan hjälpa till att lokalisera nyckelögonblicken i en ljudinspelning

        Erik
        : (00:00:00) Hej på er och välkomna till min podcast.
        Björn: (00:00:02) Och min!
        Erik: (00:00:03) Okej, okej... Välkommen till "vår" podcast.
      • För fler hållpunkter kan man lägga till en ny tidskod varje mening (men det kan resultera i en rörig transkription).

        (00:00:00) Detta är ett kort exempel på en utskrift. (00:00:02) Tiden då varje ny mening börjar visas i tidskoden. (00:00:05) Detta är bara ett av många alternativ för tidskoder.
      • Ett vanligare krav är den periodiska tidskoden, vilken läggs till med förutbestämda tidsintervall (så som var tredje sekund eller var 30:e minut).

        (00:00:00) Här är ett exempel på hur en tidskodad transkription kan införliva en (00:00:03) tidskod var tredje sekund genom att inkludera (00:00:06) tidskod i den skrivna texten.

      Hur man transkriberar intervjuer

      Förutom att samla in information under intervjun finns det mycket att lära av att analysera transkriptionen efter intervjun.

      Det första steget i att skapa en transkription av en intervju är att identifiera vad det är som transkriptionen ska uppnå. Om du till exempel bara behöver några viktiga citat räcker ett mer riktat tillvägagångssätt, hellre än att göra en ordagrann transkription som täcker absolut allt.

      En transkription är ett skanningsbart dokument som kan sökas avseende specifika ord. Med tidskoder kan läsaren lyssna på originalinspelningen med liten ansträngning eller fördröjning. Transkriptionens textdokument är i jämförelse med betydligt större ljud- och videofiler snabbt och enkelt att dela med medarbetare och mycket lättare för kollegor att redigera.

      Det skrivna ordet möjliggör också en mer objektiv bedömning av vad som sagts, utan att distraheras av talarens utseende och kroppsspråk. Om transkriberaren dessutom lägger till kommentarer och taggar kan utvärderingen av texten underlättas och en mer kvantitativ analys möjliggöras (till exempel kan vissa känslomässiga ord framhävas).

      Hur man transkriberar gruppkonversationer

      Att förtydliga en utskrift av ett samtal mellan två eller flera personer kan vara en utmaning, särskilt vid frekventa avbrott och personer som pratar över varandra.

      Här är det föredragna tillvägagångssättet att transkribera vad varje person säger på en separat rad. Om flera personer talar samtidigt kan detta anges genom att båda raderna får samma tidskod. Och om uppståndelsen gör det omöjligt att höra vad någon av talarna säger kan man lägga till taggen “ohörbart”.

      Hur man transkriberar videor

      Att transkribera talat innehåll kan vara en lång men mycket givande process. Att lägga till transkription på webbsidor med videor har visat sig förbättra sökmotoroptimeringen och besökarnas engagemang (och det underlättar dessutom innehållets sökbarhet).

      Så vilket tillvägagångssätt är bäst?

      Här är fyra nyckelmetoder för transkribering av videoinnehåll. Varje metod har sina fördelar och nackdelar. Vilken metod du väljer beror på din specifika situation.

      1. Transkriberingsappar för mobiltelefoner

      Med mobiltelefonen har du ett enkelt och bärbart verktyg för att fånga människors tal i farten. Utöver att de flesta smartphones har inbyggda tal-till-text-applikationer finns en mängd olika transkriberingsappar tillgängliga för nedladdning.

      2. Kostnadsfri videotranskription online

      En enkel sökning online ger snabbt ett urval av kostnadsfria transkriberingsverktyg som kan användas online. Men eftersom kvaliteten på dessa gratisprogram kan variera enormt bör du alltid korrekturläsa texterna, då de kan vara fulla av fel. Om en video ska laddas upp till YouTube kan man dra fördel av automatisk YouTube-textning med upp till 80 % noggrannhet, beroende på videons ljudkvalitet (även om inte alla språk stöds av YouTube).

      3. Transkriberingsprogramvara för stationära datorer

      Utöver tillgången till transkriberingsverktyg online kan Mac- och PC-användare ladda ner programvara till sina stationära datorer. Dessa verktyg kan användas utan internetanslutning.

      4. Textningstjänster

      Professionella textningstjänster och lokaliseringsleverantörer är till skillnad från programvara online inte kostnadsfria. Men resultaten är förstklassiga och du kan känna dig trygg med att ditt innehåll behandlas med säkerhet och konfidentialitet.

      Exempelverktyg för transkription

      De senaste framstegen inom AI-teknik och maskininlärning har lett till ett brett utbud av produkter inom tal-till-text-transkription. Från mobilappar till programvara för stationära datorer, fristående produkter eller hela operativsystem med inbyggda transkriptionsverktyg: Utbudet av specialistfunktioner är enormt.

      Här är en kort översikt över några av de mest populära transkriberingsverktygen på marknaden idag.

      Dragon Anywhere är framtaget för Android- och iOS-enheter och kan även synkroniseras med programvarans skrivbordsversion. Dess igenkänningsfunktioner är utmärkta och enda nackdelen är att programmet är molnbaserat och kräver en internetanslutning. Dragon Anywhere är en prenumerationstjänst och kan inte köpas för en engångssumma.

      Dragon Professional är utformat för att hjälpa professionella användare genom hela processen. Ett lättanvänt gränssnitt ger tillgång till flera kraftfulla funktioner – inklusive verktyg för att diktera och redigera dokument, skapa kalkylblad och surfa på webben med röststyrning. Appens inbyggda intelligens gör att den kan lära sig röster, ord och fraser medan den transkriberar dem.

      Otter är ett molnbaserat program skapat för bärbara datorer och smartphones. Med transkription i realtid kan användare söka, redigera, spela upp och organisera data efter behov. Utöver att vara lämpligt för transkribering av intervjuer och föreläsningar underlättar Otter också för samarbete mellan team.

      Verbit riktar sig specifikt till företag och utbildningsinstitutioner. Verbit använder neurala nätverk för att maximera effektiviteten även när bakgrundsljud förekommer. Dessutom är det möjligt att involvera mänskliga granskare för högre noggrannhet.

      Speechmatics erbjuder en omfattande och flexibel tal-till-text-tjänst. Exempelvis ska programmet stödja alla större engelska accenter, oavsett nationalitet. Där ingår de många amerikanska och brittiska engelska accenterna såväl som de från Sydafrika, Jamaica etc.

      Braina är en sömlös kombination av en smidig transkriberingstjänst och virtuell assistent i ett enda intuitivt gränssnitt. Braina-användare kan söka online, göra anteckningar och välja musik att spela samtidigt som de transkriberar text på över 100 olika språk med upp till 99 % precision.

      Windows 11, Microsofts senaste operativsystem, kommer med inbyggd dikteringsprogramvara. Nästan oavsett textfält kan användare enkelt slå på, börja tala och se texten dyka upp på skärmen.

      MacOS har Apples dikteringsverktyg inbyggt i själva operativsystemet, vilket gör diktering möjlig i alla textfält. Eftersom funktionen lär sig individuella röstattribut, inklusive accenter, blir den bättre ju mer den används.

      Google röstinmatning för Google Dokument ger ordbehandlare online-funktionalitet för tal-till-text. Allt du behöver är ett Google-konto, webbläsaren Chrome och en internetanslutning.

      Släpp talet fritt! Med ljudtranskription

      Transkription ger en lättillgänglig möjlighet att utnyttja befintligt ljudmaterial för att få en konkurrensfördel och tillfredsställa den digitala världens ständiga begär efter nytt innehåll.

      Genom att omvandla ljud till text öppnar transkription upp oändliga möjligheter för den texten att bli bloggar, inlägg i sociala medier, marknadsförings- och utbildningsmaterial och mycket mer. Du kommer överraskas av hur mycket det kan användas till när du väl börjat använda transkription för att öka värdet på det talade ordet.

      Hur tänker du få ut det bästa av ditt ljud- och videoinnehåll?