Guia per a desenvolupadors per a la generació de cadena de pensament

Darrera actualització: 04/03/2026
  • La inducció en cadena de pensament millora el raonament LLM fent explícits els passos intermedis en lloc de forçar respostes d'una sola vegada.
  • Variants com ara zero-shot, few-shot, Auto-CoT, autoconsistència i Tree-of-Thoughts compensen la precisió, el cost i l'esforç d'implementació.
  • El CoT és especialment potent en sistemes agentius que utilitzen eines, on el raonament transparent augmenta la fiabilitat i la depurabilitat.
  • L'ús de CoT en producció requereix observabilitat, avaluació i optimització iterativa del temps per equilibrar la qualitat amb la latència i el cost dels tokens.

guia de cadena de pensament per a desenvolupadors

La cadena de pensament (CoT) ha passat de ser una curiositat de recerca a una de les eines més pràctiques que tenen els desenvolupadors per aconseguir que els models lingüístics grans raonin realment, en lloc de simplement endevinar la següent paraula més probable. Si demanes explícitament al model que expliqui els seus passos intermedis, obtindràs un rendiment molt millor en tasques matemàtiques, lògiques i de presa de decisions, alhora que obtindràs un registre transparent que pots depurar i auditar.

Si esteu creant aplicacions basades en LLM, agents o copilots i encara només esteu disparant indicacions d'un sol pas, esteu deixant molta qualitat sobre la taula. En aquesta guia centrada en desenvolupadors, explicarem què és la Cadena de Pensaments, per què funciona, les principals variants (zero-shot, few-shot, Auto-CoT, autoconsistència, Arbre de Pensaments, menys-a-més, multimodal), com es compara amb l'encadenament de prompts i com integrar-la i monitoritzar-la en sistemes reals mitjançant eines modernes.

De la resposta directa al raonament explícit

La majoria de les preguntes que la gent envia a un LLM són "d'un sol cop": fas una pregunta, el model dóna una resposta, no es fan preguntes, no es mostra cap raonament. Per a alguna cosa com ara "De quin color és el cel?", està bé: el model simplement retorna "El cel és blau". No hi ha cap estructura visible, cap lògica intermèdia, només una frase final que sona bé.

La cadena de pensament inverteix aquest patró dient al model que narri els passos de raonament que segueix. Si pregunteu "Per què el cel sembla blau? Penseu-hi pas a pas", el model podria desentranyar el concepte de "blau", parlar de com la llum solar interactua amb l'atmosfera, esmentar la dispersió de Rayleigh i, només aleshores, afirmar que les longituds d'ona blaves més curtes es dispersen en totes direccions, de manera que el cel ens sembla blau.

Tècnicament, no esteu canviant els pesos del model ni li esteu donant nous coneixements; esteu canviant el format del càlcul que li esteu demanant que realitzi. En lloc de comprimir l'anàlisi sintàctica, el raonament, el càlcul i les respostes en una sola passada directa, permeteu que transmeti una seqüència de pensaments intermedis que es dirigeixen cap a una conclusió.

A la pràctica, això pot ser tan senzill com afegir una instrucció com ara "mostra el teu raonament pas a pas" o "resolem-ho sistemàticament" al final de la pregunta. Aquesta petita addició anima el model a revelar la cadena d'estats intermedis que condueixen al resultat final, en lloc de saltar directament a una resposta que simplement sembla plausible.

CoT també facilita molt l'observabilitat. Quan el model és incorrecte, sovint es pot identificar el pas exacte on la seva lògica es va descarrilar, en comptes de mirar fixament un misteriós número equivocat o una decisió incorrecta sense cap explicació.

La bretxa entre la coincidència de patrons i el raonament real

raonament en cadena de pensament per a desenvolupadors

Els LLM són increïblement bons en la coincidència de patrons perquè són essencialment màquines de probabilitat gegants entrenades amb quantitats impressionants de text. Pregunteu: "Què pesa més, una lliura de plomes o una lliura de plom?" i un model modern ha vist aquest patró de preguntes amb trampa centenars o milers de vegades; respon amb confiança que pesen el mateix.

Però quan feu una pregunta que requereix diverses operacions enllaçades, el rendiment es pot degradar ràpidament. Exemple clàssic: «Si 5 màquines triguen 5 minuts a fabricar 5 ginys, quant de temps trigaran 100 màquines a fabricar 100 ginys?» Molts models al·lucinaran amb la resposta intuïtiva però incorrecta si no se'ls guia amb cura.

El problema central no sol ser la manca de coneixement, sinó la manca d'estructura. El raonament de diversos passos requereix implícitament que el model faci malabars amb múltiples operacions en seqüència: entendre el text, identificar què es pregunta, assignar-lo a relacions o fórmules rellevants, realitzar càlculs i redactar una resposta. Si exigeixes una resposta immediata, en realitat li estàs demanant que comprimeixi tot el procés en una sola vegada.

La inducció en cadena de pensament dóna al model "espai per pensar" convertint aquesta seqüència implícita en text explícit. Una investigació de Google i altres ha demostrat que quan es demana als models que "mostrin el seu treball", la precisió en tasques aritmètiques, de raonament de sentit comú i de manipulació simbòlica augmenta enormement en comparació amb les respostes directes.

Un experiment particularment sorprenent: quan els investigadors van fer preguntes de matemàtiques de GPT-3r de primària, van encertar menys del 20% amb indicacions senzilles. Quan simplement van canviar la pregunta per demanar un raonament intermedi, la precisió va superar el 50% i, afegint-hi l'autocoherència, la va fer superar els 70. Mateixos pesos, mateix model, només que una manera més intel·ligent de fer la pregunta.

Tipus bàsics de motivació en cadena de pensament

Els desenvolupadors han desenvolupat diverses variants de CoT per equilibrar la precisió, el cost i la complexitat d'implementació. Veureu variants com ara el CoT de zero cops, el CoT de pocs cops, el CoT automàtic (Auto-CoT), l'autoconsistència, l'arbre de pensaments i les indicacions de menys a més, cadascuna adequada a escenaris lleugerament diferents.

Cadena de pensament de tir zero

El CoT de zero-shot és l'opció més lleugera: no s'afegeixen exemples, simplement s'afegeix una instrucció de raonament. Frases com ara "Pensem pas a pas", "Resoleu això amb cura, pas a pas" o "Expliqueu el vostre raonament abans de respondre" són desencadenants coneguts que activen els comportaments de raonament apresos del model.

Empíricament, aquest simple ajust pot tenir un gran impacte. En els punts de referència aritmètics, els primers treballs van mostrar que la precisió augmenta d'aproximadament un 10% a més del 40% només afegint una instrucció pas a pas. S'obté un gran augment en la qualitat del raonament sense haver de crear o mantenir una biblioteca d'exemples.

El CoT de zero-shot brilla quan vols una victòria ràpida en tasques de raonament general i et preocupa la latència i el cost. Les indicacions són curtes, de manera que pagueu per menys fitxes i menys construcció de context, alhora que guanyeu una interpretabilitat i una precisió substancials.

L'inconvenient és que el model ha d'inventar el seu propi estil de raonament, que pot ser prolix, inconsistent entre dominis o, ocasionalment, il·lògic, fins i tot quan la resposta final sembla correcta. Per a dominis especialitzats (finances, medicina, dret, decisions crítiques per a la seguretat), això no sol ser suficient.

Cadena de pensament de pocs cops

El CoT de poques vegades adopta un enfocament més opinatiu: mostreu l'exemple del model de parells de preguntes i respostes on les respostes inclouen passos de raonament explícits. Després d'un parell de demostracions d'aquest tipus, afegeixes la teva pregunta real i deixes que el model imiti el patró.

Aquest plantejament és extremadament potent quan l'estructura del raonament vàlid realment importa. Per a una eina d'anàlisi financera, podeu incloure exemples que repassin els càlculs de flux de caixa, les taxes de descompte i els ajustos de risc. Per a un bot de triatge mèdic, hauríeu d'integrar arbres de decisió clínica: símptomes, historial, senyals d'alerta, diferencials i, a continuació, recomanacions.

La contrapartida és que un CoT de pocs cops requereix un esforç d'enginyeria ràpid i seriós. Heu de dissenyar exemples nets i diversos, assegurar-vos que la seva lògica sigui correcta i representativa i mantenir-los actualitzats a mesura que evolucionen les restriccions del vostre producte o domini. Les indicacions més llargues també signifiquen més tokens, un cost més alt i més latència per trucada.

Tot i això, quan el domini és sensible o complex, el CoT de pocs cops sol superar el de zero cops i sovint és la línia de base que voldreu en producció. Obtens més control sobre l'estil i la profunditat del raonament, i pots allunyar el model de patrons de pensament fràgils o irrellevants.

Cadena automàtica de pensament (Auto-CoT)

La creació manual de bons exemples de CoT no s'escala bé, per la qual cosa els investigadors van proposar la Cadena Automàtica de Pensament (Auto-CoT) per descarregar la major part d'aquesta feina al model. La idea és generar automàticament diverses cadenes de raonament que pugueu reutilitzar com a demostracions.

L'auto-CoT normalment es desenvolupa en dues etapes:

  • Agrupació de preguntes: Agafeu un conjunt de dades de problemes, els incrusteu (per exemple, utilitzant un transformador de frases) i els agrupeu de manera que preguntes similars acabin juntes.
  • Mostreig de demostració: De cada clúster, trieu una pregunta representativa i demaneu a l'LLM que generi una cadena de raonament amb CoT de zero passos, normalment utilitzant algunes heurístiques simples com ara "preguntes curtes amb ~5 passos de raonament".

El resultat és una biblioteca d'exemples de CoT generats automàticament i raonablement diversos sense creació manual. Quan arriba una consulta nova, podeu recuperar o mostrar demostracions rellevants d'aquesta biblioteca i inserir-les a la sol·licitud com a exemples de CoT de pocs cops.

Tot i que algunes cadenes generades automàticament contindran petits errors, la diversitat i la recuperació tendeixen a esmorteir l'impacte de qualsevol exemple defectuós. A la pràctica, l'Auto-CoT sovint supera tant el CoT de zero cops cru com el CoT de pocs cops ingenu en els punts de referència de raonament, alhora que estalvia molt de temps humà.

Autocoherència en múltiples camins de raonament

L'autoconsistència és una extensió avançada que intercanvia la computació per la fiabilitat. En lloc de demanar al model una cadena de raonament i una resposta, mostreu diverses cadenes independents (modificant la temperatura o els paràmetres de mostreig) i després agregueu les respostes finals mitjançant una votació majoritària.

La intuïció és que hi ha molts camins de raonament vàlids que condueixen a la mateixa resposta correcta, però els camins defectuosos sovint divergeixen. Per exemple, «15 − 3 + 8» es podria calcular com a «12 + 8», o «15 + 8 = 23, després restem 3», o «avaluem d'esquerra a dreta». Tots donen 20, però una cadena trencada pot acabar en 21. Si executeu diverses mostres, la resposta incorrecta tendeix a ser superada en vots.

En punts de referència com el GSM8K, la superposició de l'autoconsistència a CoT ha proporcionat millores percentuals de dos dígits en la precisió. El problema evident és que ara esteu fent diverses crides LLM per consulta d'usuari, cosa que multiplica tant la latència com la despesa de tokens pel recompte de mostres.

Això fa que l'autocoherència sigui la més adequada per a càrregues de treball d'alt risc: càlculs financers, raonament legal, suport a la decisió clínica, comprovacions de seguretat. Per a un bot de xat casual, el càlcul addicional rarament es compensa, però per a un agent de missió crítica, la fiabilitat afegida pot valer cada mil·lisegon.

Arbre de pensaments: ramificació en lloc de raonament lineal

L'arbre de pensaments (ToT) estén la cadena de pensaments des d'una sola cadena fins a un arbre de cerca ramificat sobre possibles pensaments. En lloc de seguir un camí de raonament de principi a fi, el sistema explora diverses opcions a cada pas, poda les branques febles i continua per les més fortes.

Això s'acosta més a com abordaries mentalment problemes combinatoris o d'estratègia. Fas una pluja d'idees sobre alguns moviments possibles, els explores parcialment, descartes els que semblen sense sortida i continues ampliant direccions prometedores fins que arribes a una solució sòlida.

En termes d'implementació, ToT normalment coordina moltes convocatòries de LLM. A cada profunditat de l'arbre, el model proposa els passos següents; un controlador avalua estats parcials, potser utilitzant un altre LLM o una puntuació heurística, i tria quines branques expandir. Les demostracions de recerca han utilitzat ToT per abordar jocs de trencaclosques, tasques de planificació i ideació creativa amb resultats significativament millors que el CoT simple.

La contrapartida és el cost: és possible que necessiteu desenes de trucades per a un sol problema. És per això que ToT es reserva millor per a nínxols on l'exploració exhaustiva importa més que la velocitat: disseny complex, agents de joc o pluja d'idees on la profunditat i la diversitat són els objectius.

De menys a més indicacions

La proposta de mínim a màxim és una altra estratègia avançada que divideix un problema complicat en subproblemes més simples que es gestionen seqüènciament. Primer, demaneu al model que identifiqui la subtasca mínima que pot resoldre; després, introduïu aquesta solució i demaneu el següent component més complex; i així successivament fins que es resolgui tot el problema.

Aquest patró funciona especialment bé per al raonament compositiu. Penseu en consultes d'estructures de dades imbricades, àlgebra de diversos passos o generació de codi per a característiques complexes on cada part depèn de resultats anteriors. En forçar una descomposició neta, reduïu la càrrega cognitiva del model a cada pas i feu que la traça de raonament general sigui més fàcil d'inspeccionar.

Cadena de pensament en sistemes agentius i que utilitzen eines

El CoT esdevé encara més valuós un cop comences a crear agents que realitzen accions, criden eines i planifiquen en diversos passos. En lloc de respondre una sola pregunta i aturar-se, aquests sistemes passen per cicles de pensament, acció i observació, actualitzant els seus plans amb cada nova informació.

Imagineu-vos un agent d'atenció al client que diu: "Vaig demanar un jersei vermell dimarts passat, però en vaig rebre un de blau. El puc tornar?" Un procés de devolució raonable podria ser: entendre el problema, trobar la comanda, comprovar la política de devolució, comprovar el període de devolució, decidir si hi ha dret i, finalment, iniciar la devolució.

Amb indicacions senzilles, l'agent podria saltar a "Sí, aquí hi ha una etiqueta" o "No, no podem fer això" basant-se en una coincidència ràpida de patrons, ometent comprovacions crucials. Amb Cadena de pensament, l'animeu a narrar alguna cosa com ara: "Primer buscaré la vostra comanda de dimarts passat, després verificaré la discrepància entre l'article i el color, després comprovaré si esteu dins del període de 30 dies i, a continuació, activaré el flux de devolució si és elegible".

Això s'acosta al patró ReAct (Reason + Act): l'agent alterna entre raonament intern ("Necessito consultar l'API de comandes") i accions externes (fer la crida a l'API) i després integra observacions al següent pas de raonament. Cada "pensament" esdevé part del rastre que podeu registrar, depurar i analitzar.

Per als sistemes agentius, el CoT no és només una cosa que és bo tenir; sovint és la principal palanca de fiabilitat, transparència i seguretat. Quan alguna cosa falla (una eina incorrecta, un paràmetre incorrecte o una interpretació incorrecta), podeu veure on l'agent s'ha desviat del camí i corregir la sol·licitud, les eines o la política en comptes d'endevinar a les fosques.

Encadenament de suggeriments vs. cadena de pensament

L'encadenament de prompts i la cadena de pensament ajuden amb tasques complexes, però operen a diferents nivells. Amb l'encadenament de prompts, dividiu un gran flux de treball en diversos prompts separats, canalitzant la sortida d'un al següent. Amb CoT, integreu tot el procés de raonament dins d'un únic intercanvi de prompts i respostes.

Exemple d'encadenament de prompts: analitzar un llibre en tres passos: primer, demanar un resum de la trama, segon, demanar una anàlisi del tema utilitzant aquest resum i tercer, demanar una revisió final utilitzant tots dos. Cada pas és una crida a LLM independent amb la seva pròpia instrucció.

Exemple de cadena de pensament per a una tasca similar: En una sola indicació, dius: "Primer resumeix la trama, després identifica els temes principals i, a continuació, conclou amb una breu perspectiva crítica. Pensa en cada etapa pas a pas". El model genera aleshores el seu propi mini-flux de pensaments i la resposta final d'una sola vegada.

A la pràctica, els sistemes reals sovint combinen ambdues coses: utilitzen CoT dins de cada pas encadenat per millorar el raonament i encadenen diverses indicacions augmentades amb CoT per orquestrar fluxos de treball llargs. La principal diferència és que l'encadenament de prompts estructura el flux de treball macro a través de diverses trucades, mentre que la Cadena de Pensament estructura el microraonament dins de cada trucada.

Cadena de pensament multimodal

A mesura que els models multimodals maduren, la Cadena de Pensament ja no es limita al text pur. El CoT multimodal permet que un sistema raoni conjuntament sobre text, imatges i potencialment altres entrades com ara àudio o taules, alhora que narra els seus passos interns.

Fes una foto d'una platja concorreguda i pregunta: "Aquest lloc sembla popular entre els turistes ara mateix?" Un model CoT multimodal podria observar explícitament el nombre de paraigües, la densitat de persones, l'aparcament concorregut i els indicis de l'hora del dia o les ombres, i després argumentar que tots aquests senyals visuals apunten a una alta popularitat actual.

En fer explícit el raonament visual, no només s'obté una major precisió, sinó que també s'obtenen decisions molt més interpretables. Els usuaris poden veure en quins elements de la imatge s'ha centrat el model i podeu detectar modes d'error com ara la sobreindexació de detalls irrellevants.

Optimització de la cadena de pensament a escala

Un cop passes d'unes quantes demostracions al trànsit real, la realitat és complicada: l'eficàcia del CoT depèn en gran mesura de la tasca, la actualitzacions de models i guia de migració, la fraseologia i els exemples específics que hi dónes. El raonament ben escrit encara pot conduir a respostes incorrectes, i les cadenes de pensament prolixes poden cremar fitxes sense afegir gaire valor.

Perquè el CoT funcioni en producció, necessiteu un bucle de retroalimentació que rastregi diverses dimensions alhora:

  • Precisió final: La resposta del model coincideix amb la veritat bàsica esperada o amb el judici humà?
  • Qualitat del raonament: Els passos intermedis són vàlids, lògicament coherents i alineats amb les restriccions del domini?
  • Consistència: Consultes similars produeixen raonaments i respostes similars al llarg de les execucions i al llarg del temps?
  • Eficiència dels tokens: Quants tokens gasteu per consulta i obteniu prou qualitat a canvi?

La comprovació manual puntual d'un grapat d'exemples no és suficient un cop es tenen desenes de variants de prompt i centenars de casos de prova. Necessiteu una infraestructura que pugui versionar indicacions, executar avaluacions estructurades i visualitzar traces de raonament a escala.

Les eines d'observabilitat dissenyades específicament per a les LLM ajuden aquí capturant traces completes (indicador, model, raonament CoT, crides a eines, sortida final) per a cada sol·licitud. Plataformes com Opik, per exemple, permeten registrar i inspeccionar detalladament les cadenes CoT, comparar diferents versions de preguntes i fins i tot utilitzar configuracions de LLM com a jutge per puntuar automàticament tant les respostes finals com la qualitat del raonament.

Amb aquestes dades a mà, podeu refinar incrementalment les configuracions del CoT: ajustar la redacció, canviar el zero-shot per pocs-shot, ajustar o regenerar exemples amb Auto-CoT o introduir autocoherència només on fa moure l'agulla. Alguns marcs de treball fins i tot s'integren amb biblioteques d'optimització com ara DSPy o la cerca evolutiva per desenvolupar iterativament millors indicacions basades en mètriques d'avaluació.

Tingueu en compte que la Cadena de Pensaments gairebé sempre costa més que la resposta directa: el text de raonament per si sol pot inflar l'ús de testimonis entre 2 i 4 vegades, l'autoconsistència multiplica això pel nombre de mostres i l'Arbre de Pensaments pot ser un ordre de magnitud més car de nou. Per això voleu una supervisió clara, per saber exactament on s'està rendint aquest pressupost addicional.

Per a molts equips, l'estratègia pragmàtica és per nivells: per defecte, s'utilitza un CoT lleuger de zero intents o un CoT curt de pocs intents, i s'escalada a l'autocoherència o a ToT només per a consultes marcades com a d'alt valor, alta ambigüitat o alt risc. L'observabilitat i l'avaluació són el que fan factible aquest tipus d'estratègia dinàmica.

A mesura que experimenteu amb CoT a les vostres pròpies aplicacions, ja sigui mitjançant indicacions ràpides de zero shots, exemples de pocs shots seleccionats, biblioteques Auto-CoT automatitzades o autoconsistència de diverses mostres, la clau és tractar el raonament del model com una superfície de producte de primera classe. Fes-ho explícit, registra-ho, puntua-ho i itera-hi, i desbloquejaràs un comportament molt més fiable, interpretable i potent dels mateixos models subjacents que amb respostes senzilles d'una sola vegada.

trampa de dependències de models de llenguatge
Article relacionat:
La trampa de dependència dels LLM: límits, sesgos i riesgos
Articles Relacionats: