Graphorall

Back

May 22nd, 2026

今日记录

  • 组会

    • hamlock,似乎主要是展现了这么个攻击可行性?

      • 近期好像看到什么bug,有类似潜力;或者xPU bug转exp(手动、自动)

      • lhr被质疑的厉害…

      • 我理解的本工作

        • 优点:提出模型+硬件协同,降低模型偏差、通过硬件trojan进行放大(好吧,它们这里直接是改logits。。。)从而规避检测

        • 缺点:

          • 场景方面,fpga和asic部署形态

            • 是否per neuron per circuit,否则如何寻址特定neuron

            • 实际场景应该还是复用计算组件更多

            • 它这个public model repo确实显得多此一举……

          • 检测的可能(如果真这么从前层连到末尾,跨层连接可能比较显眼)

    • Should We Evaluate LLM Based Security Analysis Approaches on Open Source Systems? ASE’25

      • 本文系统评估了基于大语言模型的漏洞检测方法在开源与闭源码库上的性能差异,旨在验证仅依赖开源基准进行评测可能因数据污染(contamination)而导致的结果高估。其核心动机在于,现有相关研究均基于公开数据集,其中漏洞代码、修复补丁乃至讨论内容很可能已存在于大语言模型的训练数据中,而工业界实际关心的闭源项目则不可能被用于训练,两者之间的真实性能差距尚未被量化。 为测量这一差距,其构建了两个对比数据集:开源侧沿用CWE-Bench-Java(100个来自不同项目的漏洞样本),闭源侧则基于一个超过170万行Java代码的商业持续质量分析平台Teamscale,从中提取35个经过安全专家确认的漏洞,构建了TS-Vuls数据集。漏洞均被统一归类为“访问控制”与“注入”两个高层类别以保证可比性。评测任务为细粒度方法级漏洞定位:给定漏洞存在时的相关文件(即专家修复所涉及的文件集合),大语言模型需输出所有应被修复的方法集合,并与真实修复的方法进行比对。 结果显示,在开源基准上五款模型的平均F1得分为0.57,而在闭源数据集上骤降至0.37,下降约20个百分点;平均精确率从56%降至34%,其中四款模型的下降具有统计显著性。进一步在开源数据内部按CVE记录年份(以2023年大语言模型知识截止日期为界)划分时间子集,发现多数模型在2023年后的漏洞上性能略有下降,但仅GPT-4o和o3-mini表现出统计显著的衰退,说明仅靠知识截止日期无法完全消除数据污染的影响。

    • LLM-assisted Industrial-Scale Differential Testing of Package Incompatibilities in Linux Distributions ASE’25

      • 本文提出了一种面向Linux发行版中软件包版本升级与迁移的工业级差分测试方法,旨在利用大语言模型辅助定位海量软件包在操作系统版本间的兼容性问题。 其核心动机在于,传统差分测试难以直接应用于工业规模的Linux发行版:不同包输入格式各异、测试环境依赖复杂、输出差异中掺杂大量误报,且版本迭代要求持续测试,这些因素使得人工或传统工具在大规模场景下效率低下。 其围绕三个关键环节构建了解决方案:在输入生成阶段,通过大语言模型自动为数千个软件包生成结构化的测试用例,并针对核心软件包引入帮助文档优化提示词来提升测试深度;在执行阶段,利用容器为每个软件包构建独立的测试环境,避免依赖冲突与环境不一致导致的假阳性;在差异分析阶段,根据返回值、stdout与stderr的差异程度建立优先级规则,自动过滤大量低影响误报,并对剩余报告使用大语言模型辅助判断。 该框架已在AnolisOS的两个版本中部署试运行。首月内,其对3882个共享软件包生成了约58000个测试用例,发现8489处行为差异。经优先级筛选与人工核实后,最终确认39个独特的兼容性问题报告。

  • 傍晚空气太太太好了,能见度极高;且西山有云,光线非常聚焦

    • 可惜饭后上楼才发现,来不及去香山/西山了

    • 青年公寓是这一片能找到的还不错的制高点了

      • 仔细端详了一圈,能看到北海公园、

  • 工时怼不动了,开始给自己放假了

    • 尴尬的时间点,的确得考虑找工作啊,哪有空全心搞研究

May 22nd, 2026
https://blog.graphorall.top/blog/journal-20260522
Author rubbishzyc
Published at May 22, 2026