Activity
Mon
Wed
Fri
Sun
Jul
Aug
Sep
Oct
Nov
Dec
Jan
Feb
Mar
Apr
May
Jun
What is this?
Less
More

Memberships

Svenska AI-Akademin(Gratis)

3.5k members • Free

Lär dig AI 🇸🇪

935 members • Free

AI Studion Sverige

82 members • Free

2 contributions to Lär dig AI 🇸🇪
Bästa plattformen för transkribering av längre mötesvideo?
Hej på er! Jag behöver transkribera en mötesvideo på cirka 1 timme och tar gärna emot tips. Vilken plattform eller tjänst skulle ni rekommendera för att: 1. Ladda upp en video på cirka 1 timme 2. Få hela videon transkriberad till text Tacksam för alla rekommendationer! Vänliga hälsningar Linda
0 likes • 23d
Hej Linda! Ett annat alternativ är VisionaryAI Suite som jag själv utvecklar. Programmet kan transkribera längre ljud- och videofiler lokalt på den egna datorn, men även gå ett steg längre genom att identifiera talare, skapa tidslinjer, generera sammanfattningar och analysera innehållet med AI. För möten kan det vara väldigt praktiskt att få både transkription, talaruppdelning och en sammanfattning av vad som faktiskt diskuterades. Går att läsa mer om programmet här: bomarkanalys.se Jag är alltid nyfiken på att höra hur andra löser sina transkriberingsflöden också 😊
Ett stort genombrott för Vision och multimodal videoförståelse
Nu börjar VisionaryAI Suite faktiskt nå en nivå där det känns som något mycket större än ett vanligt AI-projekt 🤯🔥 Jag heter Robert och har under lång tid byggt ett lokalt AI-system för att analysera bilder, video och ljud med multimodal AI. De senaste veckorna har jag gjort några riktigt stora genombrott kring Vision och multimodal videoförståelse. Systemet kan nu: • analysera riktiga videobildrutor med Vision-modeller • koppla visuella händelser till exakt tidslinje • kombinera vision, tal, OCR och metadata • bygga semantisk förståelse över tid • skilja mellan observation, tolkning och osäkra antaganden • kontrollera hallucinationer och grounding • skapa sökbar multimodal tidslinjeintelligens Det som känns mest spännande är att detta nu börjar gå från klassisk AI tagging till något som mer liknar en riktig multimodal media intelligence plattform. Och allt körs lokalt genom LM Studio och Vision-modeller 😅🔥 Jag har också byggt mycket kring semantiskt minne, grounded cinematic scene descriptions, hallucinationskontroll och tidslinjebaserad scenförståelse. Det känns faktiskt rätt surrealistiskt att se systemet förstå videoklipp scen för scen och koppla ihop vad som syns, vad som sägs och vad som händer över tid. Sibbe, jag tror faktiskt detta börjar närma sig en nivå där det skulle vara väldigt spännande att låta fler AI-intresserade människor testa det 🤩 Jag är genuint nyfiken på vad människor här inne tycker om riktningen detta är på väg mot.
3
0
1-2 of 2
Robert Bomark
1
2points to level up
@robert-bomark-6478
Vibecoding user

Active 23d ago
Joined Mar 31, 2026
Powered by