توضیحات
ما به دنبال یک مهندس هوش مصنوعی توانمند در حوزه گفتار هستیم تا به تیم تحقیق و توسعه ما بپیوندد. شما در این نقش بر روی مدلهای تبدیل متن به گفتار (TTS)، تشخیص احساسات صوتی (SER) و یکپارچهسازی مدلهای صوتی در چارچوبهای یادگیری عمیق و مدلهای زبان بزرگ چندوجهی (Multimodal LLMs) کار خواهید کرد. توانایی درک عمیق از دادههای صوتی، طراحی مدلهای پیشرفته و تسلط بر ابزارهای مدرن یادگیری ماشین، از ویژگیهای کلیدی این نقش است.
الزامات تخصصی:
- تسلط کامل به مفاهیم یادگیری ماشین و یادگیری عمیق.
- تجربه عملی در توسعه مدلهای TTS و SER.
- مهارت در کار با دادههای صوتی و پردازش سیگنال گفتار.
- تسلط به یکی از فریمورکهای یادگیری مانند PyTorch یا TensorFlow.
- تجربه کار با فریمورکهای پیشرفته صوتی و یادگیری عمیق مانند:
- ESPnetY؛
- SpeechBrain؛
- NVIDIA NeMo؛
- OpenVoice؛
- درک صحیح از معماری مدلهای مولد گفتار و ارزیابی کیفیت صوت.
- آشنایی با مدلهای زبان بزرگ چندوجهی متن باز (Multimodal LLMs).
مزیتهای ترجیحی:
- آشنایی با معماریهای Transformer و مدلهای Diffusion-Based در گفتار.
- تجربه در استفاده از مدلهای LLM چندوجهی با ورودی صوتی.
- آشنایی با ابزارهای استقرار و توسعه نظیر FastAPI ،TorchServe و Docker.
- تجربه آموزش مدلها بر روی GPU و سرورهای محاسباتی توزیعشده.
- آشنایی با ابزارهای A/B Testing و مانیتورینگ عملکرد مدل.