Gi YouTube en runde med [APPLAUSE] - Lyder er nå automatisk undertekstet

youtube tv live streaming service lansering 28691186 mlYouTube fortjener en applaus - fordi videoplattformen nå kan inkludere [APPLAUSE] og andre lydeffekter i videoens lukkede bildetekster automatisk. Tekstutvidelsen, kunngjort torsdag 23. mars, er muliggjort av dype nevrale nettverk, en form for kunstig intelligens.

Foreløpig kan YouTube bare automatisk merke applaus, musikk og latter, men de tre lydeffektene var beskrivelsene som innholdsskaperne la til manuelt over enhver annen tekstingstøy. Den siste funksjonen bygger på den automatiske bildetekstfunksjonen som ble lansert i 2009 for tekst, men legger til de første lydeffektene til systemet.

YouTube sier at programmet fungerer på samme måte som å oppdage objekter i bilder, men møtte noen flere vanskeligheter med hensyn til gjenkjenning av objekter. For å få programmet til å gjenkjenne bare de tre lydene, måtte YouTube-ingeniører lære programmet å oppdage disse lydene, skille dem midlertidig og deretter sette den gjenkjente lyden inn i bildeteksten.

Systemet hadde også en tendens til å slite med lydeffekter som oppstod samtidig med andre lyder, som latter og snakk. En annen utfordring var å finne et stort nok datasett til å trene systemet som ikke allerede var tilstrekkelig merket ved manuelt å legge inn dataene.

Deep learning-nettverket analyserer korte segmenter i rekkefølge, og er i stand til å forutsi sannsynligheten for disse lydeffektene med en hastighet på omtrent 100 bilder per sekund. YouTube-ingeniører bygde imidlertid systemet på en måte som gjør at flere lydeffekter kan legges til systemet senere.

Så hvorfor applaus, musikk og latter? Foruten å bare være de hyppigst manuelt justerte etikettene i systemet med nærtekster, har hver av disse lydene også bare en betydning. En “ring”, forklarte YouTube ved å tilby et eksempel, kan være en ring fra en dørklokke, en telefon eller en alarm, som presenterer en helt ny utfordring for programvaren.

I følge YouTube blir over 15 millioner videoer med automatisk billedtekst sett hver dag. I en test av den siste oppdateringen til auto-undertekster sa to tredjedeler at lydeffektetikettene forbedret den generelle opplevelsen.

Siste innlegg

$config[zx-auto] not found$config[zx-overlay] not found