Elyra 0.9.8: en lommebok, en rival og et minne
Hvorfor akkurat disse tre, sammen
Vi har skrevet før at Elyra i bunn og grunn er en loop: observer, resonner, handle, gjenta. Loopen er kraftig nettopp fordi den bare fortsetter — og det er også grunnen til at folk nøler med å la den gjøre det. Tre bekymringer dukker opp igjen og igjen:
«Hva kommer det til å koste hvis jeg går min vei?»
«Ville en annen modell gjort dette bedre?»
«Hvorfor må jeg forklare den samme arbeidsflyten hver eneste uke?»
0.9.8 svarer på hver av dem med en kommando.
/goal --budget — autonomi med et utgiftstak
/goal har alltid vært Elyras reneste løfte: sett en målstrek, gå din vei, kom tilbake til grønt. Men ubegrensede loops og premium-modeller er en nervøs kombinasjon — særlig nå som flagship-modeller koster $10/$50 per million tokens.
Så goal-loopen fikk en lommebok:
/goal npm test --budget 2.50
Agenten jobber akkurat som før — kjør testene, les feilene, fiks, gjenta — men nå sporer den forbruket fra det øyeblikket målet ble satt. Hvis målet nås først, herlig. Hvis taket nås først, stopper loopen, rapporterer, og beholder alt som er gjort så langt:
Goal budget reached: spent $2.51 of $2.50 without meeting the goal.
Goal was: npm test. The work so far is kept. Re-run /goal to continue
with a fresh budget.
Én ærlig detalj: sjekken kjører mellom turene, så en lang sluttur kan dytte deg så vidt over taket — det er et rekkverk, ikke en fysisk sikring. Men psykologien endrer seg fullstendig. «Sett den i gang og gå» blir til «sett den i gang, gå, og vit hva verste utfall er». Det er forskjellen på å prøve autonomi én gang og å bruke den daglig.
/replay — din egen benchmark, på ditt eget arbeid
Hver uke kommer det en ny modell og en ny leaderboard. Ingen av dem svarer på det eneste spørsmålet som betyr noe: ville den gjort det bedre på min kode, mine oppgaver, min rare gamle modul?
Elyra har i det stille hatt infrastrukturen til å svare på dette i månedsvis — hver tur er checkpointet, og sesjoner forgreiner seg som et git-tre. 0.9.8 kobler prikkene sammen:
> Refactor the discount calculation to handle stacked coupons
... (Claude works, you're not quite convinced)
/replay haiku
Elyra spoler tilbake til checkpointet før den turen, åpner en ny branch, bytter til modellen du navnga, og kjører prompten din på nytt — ord for ord. Det opprinnelige forsøket går ikke tapt — begge branchene lever i treet:
Replaying last turn with Claude Haiku 4.5 (was Claude Fable 5).
The original branch is kept — compare with /tree.
...
Replay with Claude Haiku 4.5 complete. Replay cost: $0.0214.
Use /tree to compare branches.
Samme oppgave, to modeller, side om side, med kostnadsforskjellen i klartekst. Kanskje den billige modellen klarer det fint, og du nettopp sparte 20x på den typen oppgaver. Kanskje den ikke gjør det, og nå vet du det i stedet for å gjette. Uansett: det er en benchmark ingen leaderboard kan gi deg, fordi den kjørte på den eneste arbeidsmengden som teller — din egen.
/learn — lær den opp én gang
Elyras slagord har alltid vært «self-extensible». Skills — små SKILL.md-filer som lærer agenten prosedyrer — er måten det fungerer på. Men inntil nå var det lekser å skrive dem.
Nå er sesjonen selv råmaterialet. Brukte du tjue minutter på å lose agenten gjennom utgivelsesprosessen din? Migreringsoppskriften? Måten teamet ditt skriver integrasjonstester på? Før du lukker terminalen:
/learn
Elyra leser samtalen på nytt, destillerer prosedyren (ikke støyen — den foretrekker bevisst den korrigerte, endelige tilnærmingen din fremfor prøving og feiling), og skriver et utkast:
Skill learned: release-flow
Saved to ~/.elyra/agent/skills/release-flow/SKILL.md
Review/edit the file, then /reload to activate it.
It will load in all future sessions.
Du går gjennom det — det er et utkast, ikke evangelium — finjusterer en linje om nødvendig, kjører /reload, og agenten kan den arbeidsflyten for alltid. Du kan styre den også: /learn the deploy process we just did. Hver uke med bruk gjør agenten din litt mer din. Den renteseffekten er hele poenget.
Og to stille en
probe_models(i doctor-extensionen): stol på, men verifiser. Den gjør bittesmå live-kall til providerne du har satt opp, og sjekker at virkeligheten stemmer med det modell-registeret påstår — tilgjengelighet, reasoning, thinking-modus. Vi bygde den etter å ha fanget akkurat den typen drift selv; nå kan agenten fange den for deg.elyra updateforteller sannheten. Hvis du allerede er oppdatert, sier den nåElyra is up to date (0.9.8)i stedet for å muntert reinstallere og rope seier. Liten ting. Føltes godt å fikse.
Slik oppgraderer du
npm install -g @elyracode/coding-agent
Eller inne fra en sesjon:
/update
(Og ja — den vil nå si fra når det ikke er noe å gjøre.)
Kortversjonen
/goal <cmd> --budget <usd>— loopen stopper ved utgiftstaket ditt, og beholder arbeidet./replay <model>— kjør forrige tur på nytt med en annen modell på en bevart branch; sammenlign med/tree./learn— gjør denne sesjonens arbeidsflyt om til en permanent skill.probe_models— live-verifiser providere mot registeret.elyra update— ærlig om å være oppdatert.
En lommebok, en rival og et minne. Ingen av dem gjør agenten smartere — de gjør den mer til å stole på, mer sammenlignbar, og mer din. Noe som, fra dag til dag, betyr mer.
God bygging.
Elyracode.com