Cosine推出最强最接近人类的AI程序员
AI初创公司Cosine,宣布推出世界上最强的AI程序员Genie。根据第三方基准测试SWE-Bench,Genie的得分为30%,位居排行榜第一,拳打GPT4、脚踢Devin。
▲SWE-Bench的测试结果
Genie是什么?
Genie作为一个 AI 编程模型,它可以根据人们下达的各种指令,自主搞定各种编码任务,不管是修 bug、搭功能、重构代码还是做测试,样样精通。它既能自己一个人单干,也能跟其他程序员一起合作,给人的感觉和真人同事在一起干活没有什么区别。
Cosine的CEO Alistair Pullen写道:
“我们一直在追逐一个梦想,即构建一种能够真正自动执行端到端编程任务的东西,无需干预和高度的可靠性——一个人工同事。Genie 是做到这一点的第一步。”
此外他还在推特上自豪地表示,“这个模型不仅仅是30%的评测分数,它从一开始就被训练成像人类程序员一样。”
从Cosine放出的演示来看,Genie可以实现写代码、做测试、找bug一条龙服务,工作效率妥妥的。而且Genie还支持十五种编程语言。无论是C、C++还是JavaScript、Python,它都不在话下。
像身边的同事一样存在
Cosine声称,Genie能够模拟人类程序员的思考方式。在开发模型的时候,研发者让Genie观察人类程序员是如何完成工作的,然后模仿这个过程。久而久之,Genie就从各路程序员手中学得写代码的方法技巧了。Cosine 的软件平台已经与Slack(国外的钉钉、飞书)进行了集成,在平台上可以及时提醒其他同事关注状态、提出疑问或是标记问题,就像一位真人同事再和你协同办公一样。
Alistair Pullen解释说:
“我们希望Genie能够像一个真正的同事那样工作,因此让它通过同事常用的渠道进行交流是最合适的。”
此外,Genie生成的代码会被保存在用户的GitHub仓库中, Cosine不会留存任何副本,能够避免数据外泄,保证了数据安全。
AI程序员背后的独家数据集
没有好的数据集就喂不出好的AI,这一点Cosine心知肚明。Alistair Pullen在Cosine的技术报告里表示,在最近的一次训练过程中,Genie是在一个由几十亿个token组成的混合数据集上学习的。这套数据集是精心处理过的,就是为了确保模型能跟上咱们用户最关心的编程语言。
Cosine在博客文章里透露,他们花了快一年的时间才攒出了这么一个数据集,里面包含了真实世界里工程师们各种各样的编程活动。可实际上,要拿到这种数据,再把它用起来,那可真是难上加难,因为这东西本来就不好找。Cosine的数据处理流程是把人工制品、静态分析、自我模拟、逐步验证还有在大量带标签数据上训练过的AI模型结合在一起,这样就能一步步复原出程序员是怎么得出最终结果的。
Alistair Pullen吐槽说,
“给数据打标签这事儿,重要性不能低估,想从一流的程序员那里搞到高质量的数据,不容易啊。但是,这事儿值!因为它能给我们带来很多灵感,让我们知道程序员们到底是怎么琢磨着解决问题的。”
团队先从程序员干活留下的痕迹开始,比如拉取请求、提交记录、开源项目里的问题等等,然后再把这些数据扔进Cosine的数据处理流程,一步步推敲,重建出程序员们得出结论的思维过程。这个数据集不只是完美地展现了信息的传承和知识的积累,还捕捉到了人类工程师做决策的全过程。这个独家的数据集就是第一次训练的基础,然后Genie就靠自我博弈和自我完善来继续前进。
“我们用这个数据集来训练模型,而不是仅仅给模型提个醒儿,像别人那样干,结果咱们发现,模型现在不只是胡乱生成代码,而是真刀真枪地像个人类工程师那样解决问题了。”Alistair Pullen说。凭借其对较长上下文对话的支持和持续的改进循环,Genie会迭代和完善其解决方案,直到它们达到预期的结果。
Genie的未来
Genie的推出,对许多软件开发团队带来了新的机遇,借助AI程序员,他们可以在提高生产力的同时减少日常任务时间,把时间花在更重要的地方,而不是天天都忙着复制粘贴、调试和找bug。也许在写这篇文章的时候,Cosine就正在用Genie帮忙找bug和测试呢。
Cosine要做的,还不仅仅是AI程序员。“我们真的相信,我们能够为任何工作和行业编纂人类推理。”Alistair Pullen信心满怀,“软件工程只是最直观的起点,我们迫不及待地想向你展示我们正在做的其他一切。”
体验地址:https://cosine.sh/register
技术报告:https://cosine.sh/blog/genie-technical-report