ある一週間、エージェントと共に
— halcyon team
これはベンチマークではない。ノートの一頁である。
五月のある七日間、私たちのうちのひとりは、ワークフロー上で唯一のAIツールとしてhalcyonだけを使った。コード補完なし、横に置いたチャットなし、自動補完なし、別タブで走らせるもうひとつのエージェントもなし。汎用エージェントひとつ、長い仕事ひとつ、静かなコンポーザひとつ。何が起こったかを書き留めた。
月曜。 一文で渡した調査依頼——実際の職場における長期的なLLM利用について、縦断的な文献は何を述べているか。エージェントは姿を消した。四十分後、十一の出典と二頁の要約をもって戻ってきた。要約は論文同士の意見の相違を均すのではなく、相違として残していた。いちばん有用だったのは答えではなく、その四十分が静かだったことだ。注意を要求する「考え中…」のインジケータはない。別件の下書きという、その日のもうひとつの仕事は、エージェントが読んでいるあいだに進んだ。
火曜。 エージェントが引いた論文のひとつをたどった。LLMs in the SOC。四十五人のセキュリティ・オペレーション分析官と3,090件のクエリを十か月追った縦断研究である。発見は具体的で有用だった。分析官はLLMを意味づけと文脈構築のオンデマンドの補助として扱い、重大な判断にはほとんど使わず、典型的なやりとりは一〜三ターンに収まっていた。今週の私たちの使い方とも形が一致した。エージェントは作業者ではない。作業者の肘の脇の作業台である。
水曜。 下書き。halcyonのコンポーザに自動補完はない。最初の一時間は落ち着かない。そのあとは安堵に変わる。Sophie Leroyの注意の残滓論文(OBHDP, 2009)が何度も頭をよぎる。コンポーザが次の語を提案しないとき、次の語は別の場所から来なければならない。思考から来る。下書きはCursor式のセッションより遅かった。仕上がりは、より明確に自分のものだった。
木曜。 短いスクリプト。エージェントは、私たちのスタックで、ファジー・マッチングでCSVの一列を重複排除する短いPythonツールを書いた。インストールは一行。最初の実行で動いた。これは、騒がしい製品なら紙吹雪つきの「マイルストーン」として包装される類の瞬間だ。ここではフォルダの中のファイルにすぎなかった。次へ進んだ。
金曜。 長い統合作業。月曜の調査要約を、公開できる形にする。エージェントはブリーフ、元の出典、月曜の要約、書きかけの下書きを同時に保持し、セッション開始から六時間後でも特定の一文について質問させてくれた。フィーチャー頁で書いた「忍耐強いコンテキスト・ウィンドウ」を、長い距離で観察したことになる。これはもっとも確実に仕事の中へ消えていく機能である。月曜に書いた段落について追質問をして、エージェントが覚えているかのように答えたとき、初めてその存在に気づく。覚えていた。
土曜。 仕事をしない日。エージェントは私たちを呼び出さなかった。
日曜。 一週間を読み返した。見えてきたパターンは、生成AIコーディング・ツールのRCT+ダイアリー研究(Dear Diary, arXiv 2024)が大規模な多国籍ソフトウェア企業から報告するそれと同じ形だった。ツールの導入は仕事の感じ方を変える——同研究では参加者の84%が日々の実践に良い変化を、66%が仕事への気持ちの変化を報告した——一方で、出力への信頼はさほど変わらない。同じ形に見覚えがある。私たちは最終稿よりも初稿に、判断よりも統合にhalcyonを使いやすい。今週はそれを変えなかった。明確にした。
一週間が無視しがたくしたいくつかの観察。
一。 通知が無いことは欠けた機能ではない。それが機能である。arXivの概観論文A Map of Exploring Human Interaction Patterns with LLMは、人とLLMの相互作用を四つ——処理ツール、分析アシスタント、処理エージェント、創造的伴走——に分類する。今週のhalcyonの静かな使い方は、三つ目と四つ目のあいだに落ちる。利用者の注意を最も要求するカテゴリ(伴走型チャット)が、今週いちばんよい仕事を生んだカテゴリではなかった。
二。 中断しないエージェントは、時間あたりの成果物は少なく、日あたりの成果物は良くなる。これは正式に測ったわけではない。一週間の感触にすぎない。しかし背景にある認知科学——Markの二十三分、Leroyの残滓——はまさにそのパターンを予測しており、今週はそれと矛盾しなかった。
三。 いちばん難しい日は火曜だった。エージェントを覗かないように努める日。覗きたい衝動は本物である。それは自分で課したものでもある。木曜にはもう消えていた。
これは議論ではない。一週間の見え方である。議論は別の記事にある。
出典
- LLMs in the SOC: An Empirical Study of Human-AI Collaboration in Security Operations Centres — arXiv 2508.18947 — 45名の分析官と3,090クエリを10か月追跡。LLMは1〜3ターンの短いやりとりで意味づけと文脈構築のオンデマンドの補助として使われた。
- Dear Diary: A randomized controlled trial of Generative AI coding tools in the workplace — arXiv 2410.18334 — 多国籍ソフトウェア企業での混合手法RCT+三週間ダイアリー。参加者の84%が実践の前向きな変化を報告し、出力への信頼は不変だった。
- A Map of Exploring Human Interaction Patterns with LLM — arXiv 2404.04570 — 人とLLMの相互作用を「処理ツール/分析アシスタント/処理エージェント/創造的伴走」の四類型に分類した概観。
- Why is it so hard to do my work? — Sophie Leroy, OBHDP 2009 — 注意の残滓の原典。自動補完のないコンポーザが避ける「未完のスイッチ」のコストの根拠として参照。