- Microsoft introdueix tres models bàsics d'IA interns per a la transcripció, la generació de veu i la creació d'imatges per reduir la dependència d'OpenAI.
- MAI-Transcribe-1 admet 25 idiomes i s'executa aproximadament 2.5 vegades més ràpid que l'oferta actual de transcripció Azure Fast de Microsoft.
- MAI-Voice-1 pot generar 60 segons d'àudio personalitzable en aproximadament un segon, mentre que MAI-Image-2 es centra en la generació avançada d'imatges i vídeos.
- Els models s'integren a Microsoft Foundry, MAI Playground, Teams i Azure, amb preus agressius i una guia cap a models de gran frontera el 2027.
Microsoft està fent un pas clar cap a això més autonomia en intel·ligència artificial introduint tres dels seus propis models bàsics destinats a la transcripció, la generació de veu i la creació d'imatges. El moviment indica que l'empresa vol una pila d'IA multimodal i més profunda que controli completament, fins i tot mentre manté una estreta aliança comercial amb OpenAI.
Aquests nous sistemes, desenvolupats sota la direcció de Microsoft AI / MAI Superintelligence equips, estan dissenyats per connectar-se directament a productes com ara Teams i Azure així com en plataformes d'experimentació internes. A la pràctica, Microsoft està preparant les bases per a una estratègia a llarg termini on els seus propis models cobreixen una part creixent de les càrregues de treball diàries, reservant models externs com els d'OpenAI per a casos en què aporten un valor clar i diferenciat.
Tres models bàsics creats per Microsoft per a transcripció, veu i imatges
El llançament gira al voltant de tres models principals: MAI-Transcripció-1 per a la conversió de veu a text, MAI-Voice-1 per a la conversió de text a veu i MAI-Image-2 per a la generació visual. Junts formen una primera capa molt visible d'una empresa interna pila d'IA multimodal que pot gestionar text, àudio i imatges dins de l'ecosistema de Microsoft.
En lloc de confiar únicament en models grans i d'ús general, Microsoft aposta per sistemes centrats en tasques que són més econòmics i ràpids per a casos d'ús empresarials comuns. Aquest enfocament és especialment rellevant, ja que el nombre d'usuaris de Copilot i de funcions basades en IA a Office, Teams i Azure continua augmentant, amb costos que d'altra manera escalarien gairebé linealment amb l'ús de l'API.
Models de fundació d'aquest tipus s'entrenen en conjunts de dades grans i diversos per tal que posteriorment es puguin adaptar a una àmplia gamma d'escenaris. Aquí, això significa impulsar tot, des de la transcripció de centres d'atenció telefònica i els resums de reunions fins a veus sintètiques, eines d'accessibilitat i canals de creació de contingut automatitzats.
MAI-Transcribe-1: conversió de veu a text més ràpida i multilingüe per a 25 idiomes
MAI-Transcribe-1 és el nou de Microsoft motor de veu a text i una de les peces centrals d'aquest desplegament. El model admet la transcripció en 25 diferents idiomes i s'ha avaluat internament com aproximadament 2.5 vegades més ràpid que l'oferta de transcripció Azure Fast existent de l'empresa, que ha estat un punt de referència en la seva cartera actual.
Aquest augment de rendiment és important perquè Les càrregues de treball de transcripció són molt sensibles a la latència, especialment en escenaris en temps real com ara subtítols en directe, atenció al client o reunions híbrides. La cobertura lingüística més àmplia també s'alinea amb la presència global de Microsoft, cosa que facilita que els clients multinacionals s'estandarditzin en un sol proveïdor en lloc de barrejar eines regionals.
Des del punt de vista del producte, Microsoft té previst connectar MAI-Transcribe-1 directament a Equips de Microsoft per gestionar les transcripcions de reunions i els subtítols en directe. Amb el temps, s'espera que el mateix motor aparegui sota el capó d'altres eines de productivitat, de manera que els usuaris veuen una millor velocitat i costos més baixos sense necessàriament notar un canvi de marca.
Els preus s'han posicionat de manera agressiva: MAI-Transcribe-1 comença al voltant de 0.36 $ per hora d'àudio processat, una xifra destinada a subcotitzant ofertes comparables tant de Google com d'OpenAI tot i que encara funciona amb la infraestructura de núvol de la pròpia Microsoft.
MAI-Voice-1: text a veu ultraràpid amb veus personalitzades
Pel que fa a la generació d'àudio, MAI-Voice-1 és el nou model de Microsoft per a convertir text en parlaSegons l'empresa, pot produir aproximadament 60 segons d'àudio en aproximadament un segon de temps de processament, la qual cosa és un salt notable per a casos d'ús on la capacitat de resposta és crítica.
Més enllà de la velocitat bruta, una promesa clau és el suport per a veus personalitzades i alineades amb la marcaLes organitzacions podran definir veus que coincideixin amb la seva identitat o casos d'ús específics, des de línies d'assistència i agents conversacionals fins a material de formació, podcasts i funcions d'accessibilitat. Aquest nivell de control és cada cop més important a mesura que la veu sintètica esdevé més comuna i els oients es tornen més exigents pel que fa al to i la claredat.
Microsoft apunta directament a MAI-Voice-1 desenvolupadors i empreses que creen productes amb molta veu: centres d'atenció telefònica, assistents integrats en aplicacions, eines d'aprenentatge d'idiomes, plataformes multimèdia o qualsevol servei que necessiti narració escalable. Amb preus a partir d'uns 22 dòlars per cada milió de caràcters, el model està pensat per ser financerament viable tant en volums petits com molt grans.
Des del punt de vista de la infraestructura, MAI-Voice-1 s'ofereix a través de API de l'Azure, Microsoft Foundry i MAI Playground, permetent que els equips provin les veus ràpidament i després passin a la producció sense canviar d'entorn. La idea és optimitzar tot el camí des de l'experimentació fins a la implementació dins de la pila de Microsoft.
MAI-Image-2: generació d'imatges i vídeos integrada a la pila de Microsoft
El tercer model, MAI-Image-2, Se centra en generació d'imatges (i en algunes descripcions, de vídeos) a partir de missatges de textTot i que l'empresa no ha revelat tots els detalls tècnics, està posicionant el model com a contrapart visual dels seus sistemes de text i àudio, amb l'objectiu d'automatitzar la creació d'actius de màrqueting, imatges de productes, storyboards i altres suports.
Curiosament, MAI-Image-2 va aparèixer per primera vegada més silenciosament a Parc infantil MAI, l'entorn d'experimentació de Microsoft per a models grans, a mitjans de març. L'anunci actual formalitza el seu paper com a part del conjunt més ampli Foneria i Azure ecosistema, on les empreses hi poden accedir com a component estàndard en lloc de com a demostració de recerca pura.
Els preus tornen a estar estructurats per competir: l'empresa cita un punt d'entrada d'aproximadament 5 dòlars per cada milió de tokens d'entrada per a text i al voltant 33 dòlars per cada milió de fitxes de sortida per a les imatges generadesAquestes xifres es consideren similars o inferiors a nivells similars de proveïdors rivals, alhora que es beneficien de la pila de seguretat i compliment empresarial de Microsoft.
Els casos d'ús van des de fluxos de treball creatius automatitzats i visuals de màrqueting personalitzats fins a prototipatge ràpid per al disseny de productes. Per a molts clients que ja estan estandarditzats amb Azure, el punt de venda clau és que poden experimentar amb la generació d'imatges sense contractar un proveïdor extern addicional.
Integració entre Azure, Foundry, MAI Playground i Microsoft 365
Un aspecte definitori d'aquest llançament és la gran quantitat de teixits que s'integren entre els nous models. Les plataformes de núvol i productivitat existents de MicrosoftEls tres sistemes (MAI-Transcribe-1, MAI-Voice-1 i MAI-Image-2) s'estan implementant a través de Microsoft Foundry, l'entorn de l'empresa per accedir i escalar models de fonamentació.
Els desenvolupadors poden començar amb Parc infantil MAI, on els mateixos models s'exposen en una interfície més experimental. Aquesta configuració pretén reduir la barrera per als equips que volen provar capacitats com la transcripció, les veus sintètiques o la generació visual sense comprometre's directament amb una integració completa.
Pel que fa al producte, Microsoft ja està assenyalant Equips de Microsoft com a beneficiari inicial. MAI-Transcribe-1 està configurat per alimentar les transcripcions i els subtítols de les reunions, mentre que s'espera que MAI-Voice-1 i MAI-Image-2 apareguin amb el temps en diversos Experiències de Copilot i Microsoft 365, fins i tot si els usuaris finals no veuen una marca explícita del model.
Per a les empreses, la promesa és una pila única i coherent on la transcripció, la veu i les imatges conviuen amb models lingüístics, serveis de dades i anàlisis a Azure. Això podria simplificar el compliment normatiu, les revisions de seguretat i la gestió de proveïdors en comparació amb la unió de diversos proveïdors externs d'IA.
Estratègia de preus i competència amb OpenAI i Google
A més de les especificacions tècniques, Microsoft posa molt d'èmfasi en competitivitat de preusL'empresa posiciona obertament aquests models com a alternatives que poden igualar o superar ofertes similars de OpenAI i Google, especialment per a un ús sostingut i d'alt volum.
Els preus publicats – 0.36 $ per hora d'àudio per a MAI-Transcripció-1, 22 dòlars per milió de caràcters per a MAI-Voice-1 i el 5 $ / 33 $ per milió de tokens l'estructura de MAI-Image-2 no són només detalls tècnics. Formen part d'un missatge més ampli que Microsoft vol ser vist com a proveïdor integral i rendible d'IA generativa en lloc de només un distribuïdor de models de socis.
En un mercat on més organitzacions estan integrant la IA en les operacions diàries, el cost per sol·licitud es pot convertir ràpidament en una variable estratègicaEn posseir els seus propis models, Microsoft pot ajustar el compromís entre les despeses de computació, la complexitat del model i el preu per a l'usuari en lloc de pagar grans marges de benefici a proveïdors externs.
També hi ha un efecte de senyalització: en destacar els seus propis punts de referència i taules de preus, Microsoft està dient als clients que ja no necessiten utilitzar per defecte models de tercers per a càrregues de treball bàsiques com ara transcripció, veu i imatges si ja estan compromesos amb Azure.
Mustafa Suleyman i la visió d'IA "centrada en l'ésser humà".
Els tres nous models provenen d'equips agrupats sota Microsoft AI / MAI Superintelligence, dirigit per Mustafà Suleyman, que ara dirigeix Microsoft AI. Suleyman, conegut pels seus càrrecs anteriors a la indústria de la IA, ha estat exposant públicament una visió que descriu com "IA humanista" o intel·ligència artificial centrada en l'ésser humà.
En les comunicacions de Microsoft sobre el llançament, Suleyman emfatitza que aquests models estan dissenyats per a reflecteix com es comunica realment la gent, prioritzant utilitat pràctica i seguretatL'objectiu, en les seves paraules, és crear sistemes que siguin menys projectes de recerca abstractes i més eines que s'adaptin als fluxos de treball quotidians a la feina i a casa.
També ha suggerit que el trio actual de models és només el començament d'una cartera més àmpliaMicrosoft té previst implementar models de base addicionals a través de Foundry i directament dins dels productes, ampliant gradualment les seves capacitats internes més enllà de la parla i les imatges per cobrir més modalitats i tasques més especialitzades.
Aquesta guia subratlla la intenció de Microsoft de ser vista no només com una plataforma per a la IA d'altres persones, sinó com un constructor dels seus propis models avançats que poden combinar-se amb ofertes de socis de llarga data com OpenAI.
Una relació recalibrada amb OpenAI i un objectiu de model fronterer per al 2027
Un dels aspectes més delicats d'aquesta estratègia és com es relaciona amb L'important acord de col·laboració de Microsoft amb OpenAILes empreses continuen estretament lligades: Microsoft ha invertit més de $ 13 milions a OpenAI, allotja els seus models a Azure i integra sistemes com GPT en productes com ara Copilot.
No obstant això, informes recents apunten a una renegociació de la relació això dóna a Microsoft més marge per dur a terme la seva pròpia recerca i línies de productes d'IA en paral·lel. Suleyman ha emmarcat aquest canvi com una evolució natural, no una ruptura, més semblant a l'empresa que dissenya alguns dels seus propis xips mentre continua comprant a proveïdors externs.
Segons Bloomberg i altres mitjans, Microsoft té com a objectiu tenir els seus propis models a gran escala i de nivell fronterer en funcionament cap al 2027Els sistemes recentment anunciats se situen lleugerament aigües amunt d'aquesta ambició: encara no estan posicionats com a models lingüístics d'ús general i d'avantguarda, sinó més aviat com a components especialitzats que redueixen la dependència de les API dels socis per a les càrregues de treball diàries.
A la pràctica, això significa que Microsoft pot continuar utilitzant models d'OpenAI com GPT-5.4 on tinguin sentit, mentre que gradualment intercanviant els seus propis models sempre que la relació cost-rendiment o les consideracions estratègiques afavoreixin la tecnologia interna. Els usuaris poden simplement notar que les funcions es tornen més ràpides o més barates a mesura que aquestes transicions es produeixen en segon pla.
Per al mercat més ampli de la IA, aquesta doble via subratlla una tendència clara: les grans empreses tecnològiques busquen un equilibri entre col·laboració i autosuficiència, utilitzant aliances per avançar ràpidament però desenvolupant les seves pròpies capacitats per evitar quedar lligats a un únic proveïdor a llarg termini.
Amb aquests tres models, Microsoft està plantant una bandera: vol competir a múltiples nivells de la pila d'IA, des de la infraestructura i les eines fins als models fonamentals, alhora que deixa espai per a socis com OpenAI, on aporten punts forts únics. Per als clients, això es podria traduir en més opcions, preus més ajustats i un canvi gradual cap a la IA de la marca Microsoft que sustenta productes i serveis familiars.

