Speech AI Engineer

TOSAN TECHNO Tehran

Posted Over a month ago

توضیحات

ما به دنبال یک مهندس هوش مصنوعی توانمند در حوزه گفتار هستیم تا به تیم تحقیق و توسعه ما بپیوندد. شما در این نقش بر روی مدل‌های تبدیل متن به گفتار (TTS)، تشخیص احساسات صوتی (SER) و یکپارچه‌سازی مدل‌های صوتی در چارچوب‌های یادگیری عمیق و مدل‌های زبان بزرگ چندوجهی (Multimodal LLMs) کار خواهید کرد. توانایی درک عمیق از داده‌های صوتی، طراحی مدل‌های پیشرفته و تسلط بر ابزارهای مدرن یادگیری ماشین، از ویژگی‌های کلیدی این نقش است.

الزامات تخصصی:

  • تسلط کامل به مفاهیم یادگیری ماشین و یادگیری عمیق.
  • تجربه عملی در توسعه مدل‌های TTS و SER.
  • مهارت در کار با داده‌های صوتی و پردازش سیگنال گفتار.
  • تسلط به یکی از فریم‌ورک‌های یادگیری مانند PyTorch یا TensorFlow.
  • تجربه کار با فریم‌ورک‌های پیشرفته صوتی و یادگیری عمیق مانند:
  1. ESPnetY؛
  2. SpeechBrain؛
  3. NVIDIA NeMo؛
  4. OpenVoice؛
  • درک صحیح از معماری مدل‌های مولد گفتار و ارزیابی کیفیت صوت.
  • آشنایی با مدل‌های زبان بزرگ چندوجهی متن باز (Multimodal LLMs).

مزیت‌های ترجیحی:

  • آشنایی با معماری‌های Transformer و مدل‌های Diffusion-Based در گفتار.
  • تجربه در استفاده از مدل‌های LLM چندوجهی با ورودی صوتی.
  • آشنایی با ابزارهای استقرار و توسعه نظیر FastAPI ،TorchServe و Docker.
  • تجربه آموزش مدل‌ها بر روی GPU و سرورهای محاسباتی توزیع‌شده.
  • آشنایی با ابزارهای A/B Testing و مانیتورینگ عملکرد مدل.

To see more jobs that fit your career