作为一款辅助高考志愿填报的神器,夸克最新“战报”出炉。
观察者网获取的最新统计信息表明,到7月1日为止,阿里巴巴集团旗下的AI核心产品夸克已经为考生及家长制作了超过1000万份的高质量志愿填报建议。这些建议是通过今年新推出的“志愿填报建议”智能代理生成的,该代理运用了拥有“任务规划、执行、检查、反思”等功能的先进深度学习技术。业界普遍认为,这一成就标志着国内深度学习技术在应用规模上达到了一个新的高峰。
夸克高考志愿功能实测应用软件截图
公开信息显示,“志愿报告”Agent拥有极高的个性化和策略性,它能够根据用户的具体信息来设计思考的路线,运用搜索工具进行信息的搜集,并通过志愿工具执行志愿表的相关操作,在整个过程中持续进行自我检查和反思。该Agent的底层系统由夸克高考志愿大模型和专业的知识库支撑,其决策能力几乎与专家相当。
在执行阶段,Agent运用了多轮次的“工具调用与反思调整”策略,对志愿计划进行实时优化。若考生在表述中提到“倾向于选择省内院校,尤其是广州和深圳,且不打算考虑边远地区”,系统将自动构建搜索指导方针:优先向考生推荐广州、深圳的高校,接着考虑省内其他城市的院校,并将偏远地区的选项排除在外;在优质选择不足的情况下,系统中的智能代理会主动进行反思,并扩大搜索范围,比如纳入广东周边的发达城市,或者在顶尖高校(例如985高校)上适当放宽地域限制,从而为考生争取到更多提升自身竞争力的机会。
此外,Agent拥有应对复杂及内部存在矛盾要求的能力。在遇到诸如“数学成绩不佳却渴望报考计算机”这类常见矛盾情况时,系统会启动“需求明确”环节,向用户指出该选择可能存在的能力与需求不匹配的问题。这种专业化的思维模式与策略调整,是传统工具难以达到的,也是夸克“深度研究”技术真正实现智能决策的核心所在。
AI究竟是如何协助考生完成“志愿填报”的呢?近期,在一次活动中,针对夸克高考AI技术的诸多细节,夸克算法的负责人蒋冠军以及夸克高考技术的负责人唐亮,与观察者网等媒体展开了一场深入的交流与探讨。
夸克团队回应技术细节
媒体询问:该系统如何协助考生完成志愿填报,其核心功能究竟体现在哪些方面?
蒋冠军,作为夸克算法的负责人,指出高考志愿报告需解决的关键问题在于协助用户搜集众多繁杂信息,并基于这些信息辅助用户作出明智的选择,实现院校的报考。相较于其他通用产品中围绕大模型构建的问答系统,高考志愿填报产品展现出显著的不同。它要求具备专业性、精确度,并且必须实现个性化——在大型模型出现之前,这种能力是传统问答系统所无法实现的。
依据高考的基本原理,我们推出的是一种“三位合一”的综合性服务:首先,我们具备类似通用搜索引擎的功能,通过大型模型对高考相关问答进行全面的系统优化;其次,我们提供志愿填报工具,用户只需输入自己的分数和学科信息,借助筛选工具进行选择,即可获得个性化的参考建议。
第三种是免费的志愿咨询报告,用户可通过该报告反查个人基本信息,调整志愿意向等——对于众多高考生及其家庭而言,他们面临的最大难题往往是无法确定如何正确填报志愿。他们虽然获得了分数,但对于心仪的学校、专业,以及未来的就业方向、考研机会等关键信息,实际上并不了解。
媒体提问:在搜集与传播高考相关资讯的过程中,夸克是如何确保信息的精确度的?
蒋冠军表示,在数据方面,我们必须确保其专业性和精确度。过去,我们采用的是通用的搜索技术,在H5网页生态系统中筛选出较为优质和权威的数据。然而,在传统方法中,信息遍布于数百亿个网页中,错误率相当高。为此,我们如今精心挑选了与高考紧密相关的数十亿个网页,对这些网页的信息进行准确性鉴定和质量评估,同时还包括了大量非H5网页的收集工作。
众多高考相关政策和招生资讯,均可在相应机构与院校的官方网站上找到。然而,这些网站和机构在互联网领域并不享有盛誉。在市场上,它们往往被视为“不知名”的站点。因此,它们在传统搜索引擎中的数据收录相对较少,可能是因为它们是小规模站点,或是用户访问量不高。鉴于此,我们投入了大量人力,致力于搜集并整合这些网站上的各类专业资料和政策信息。
唐亮,作为夸克高考技术的负责人,表示:我们每年都会进行高考问答活动。相较于去年,今年我们特别突出了高考专业知识库的重要性。我们已搜集了超过8000个站点,这些数据量达到了20亿以上,其中高考相关权威站点占比超过99%。对于这超过8000个站点,我们内部同样实施了分级管理,例如,那些类似于考试院、教育部以及招生办等机构,它们无疑在政策领域拥有极高的权威性。
此外,我们设有“政策库”这一模块。在每年的志愿填报过程中,新政策会持续涌现,我们则通过人工实时调整,确保这些政策得以及时补充进库中,以实现数据的全面更新。对于非H5网页版块,我们收集整理了高考、高校近三年的就业情况、考研数据以及招录体检标准等相关信息,并纳入政府报告、行业研究分析等内容。这样,我们基本上囊括了市面上所有相关数据。
媒体提问:有设计保障措施吗,从而进一步保障数据准确性?
唐亮提到,我们已收集了约七年来自不同途径的各省招生计划和历年分数线数据。这项工作的核心分为两个主要环节:首先,我们运用算法和大模型技术对招生计划和分数线进行精确匹配;其次,通过百余人的人工审核,对那些存疑的信息进行细致的审查。
媒体询问:在高考志愿填报过程中所采用的那些大型模型,它们与一般通用的巨型模型之间存在着哪些不同之处?
唐亮提到,在获取大量权威数据后,我们需将这些数据融入高考志愿预测的大规模模型之中。具体应用有两个关键点:首先,这些数据将作为RAG(检索增强生成)技术的内容来源,以克服传统大模型的幻觉及知识更新滞后的问题;其次,在整合材料时,我们将特别注重确保材料来源的高时效性和权威性。
第二个层面,我们将这些信息融入高考志愿预测模型的学习过程中,使其成为训练素材,助力模型深化相关领域的知识。在模型的学习阶段,我们执行众多思维逻辑的检验、数据准确性检验、时效性检验等工作,相较于通用模型,这有助于显著减少模型产生幻觉的可能性。
媒体提问:拿到招生计划,怎么进行“预测”?
唐亮表示,既然我们已经掌握了往年的招生方案和各项统计数据,那么首要任务便是预测今年的招生走向。我们将依据今年的具体情况和往年的变化规律,分析该志愿的分数走势,并预估其大致的涨跌范围。此外,我们还将对各个分数段的扩招和多招情况进行评估,并对这些数据进行一定比例的预测,从而对今年的招生情况有一个大致的预判。
完成对志愿填报波动幅度的预估后济南市市中区人民政府舜耕街道办事处,可以发现,诸如顶尖的优质学府,其每年的波动幅度通常极小;相反,对于一些位于中低分数段的院校,如专科类院校,其波动幅度则相对较大。为此,我们将对每个省份的各个分数段,依据选科情况,进行波动幅度的统计。结合波动幅度和相应的政策,我们可以大致推断出志愿填报的动态分布情况。随后,观察考生在动态分布中的具体位置,该位置便成为了我们预测的核心概念。
这里可能会遇到一些特殊情况,例如面对新兴的专业或学校,我们该如何提高预测的准确性呢?针对新兴专业,我们会选取与该学科相近的其他专业作为参考;而对于新学校,我们则会观察那些与目标学校在相似专业上有所关联的学校,以此来确定新专业和新学校在相对范围内的相关情况。
我们的任务在于,借助我们的志愿工具,让用户能够通过筛选手段获取到志愿报告。在此过程中,用户可能需要反复尝试,才能最终获得所需的志愿报告。这份报告对用户而言意味着什么?用户输入的是自然文本,我们将其转化为用户的需求,随后进行检索并生成匹配的结果。
媒体提问:换言之,“志愿预测”实际上是一个由多个环节紧密相连、环环紧扣的过程,旨在深入理解用户需求并为其提供有益的参考。
唐亮表示,首先,我们需要进行规划。当用户输入信息后,我们的工具需对这些信息进行志愿规划,并启动工作任务。为此,我们首先要了解用户的大致分数,以确定其所在区间。接着,我们将引入一系列指标:包括对学校层次的期望、对专业的偏好、对地域的倾向以及对未来规划的设想……并将这些内容细化为一个个具体的规划问题。
执行规划任务是接下来的第二步。这一过程需借助搜索工具,因为涉及的概念可能较为模糊,例如如何诠释“数学成绩不佳”的问题。此外,还可能需要参考高考知识库。对于成绩不佳的学生,选择那些对数学成绩要求较高的院校或专业可能不太适宜。相反,如果成绩优秀,计算机、数学统计等专业则可能更为合适。
随后,我们需要将用户的愿望转化为填写志愿表的指导性命令。以某些考生希望留在本省为例,比如他们提出“广州和深圳优先考虑,不愿前往偏远地带”的意愿,我们需将此类自然语言表述转换为针对地域选择的操作指令:将广州和深圳设定为最高优先级,其次是广东省内其他地区,而偏远地区则排在最低优先级。这样的描述性文本需被转化为填写志愿表时使用的具体操作指令。
一旦将“指令”传递至志愿表,使其执行任务,便会产生反馈。我们据此结果来安排后续行动:若反馈显示适配结果有限,我们便可能采纳专家意见,进行深入反思和拓展。
若考生倾向于深圳,却发现广州和深圳的合适志愿有限,他们或许会放宽条件,将范围扩大至整个广东省;若考生倾向于选择985等高层次院校,他们或许能够突破某些限制,广东省周边的高层次学府也可能成为推荐对象。我们通过反复规划、执行任务、检查成效以及反思过程,以生成多条指令,从而进行操作。
媒体提问这一环节,实际上是对考生的多样化需求进行细致的考量,并赋予它们各自相应的比重。最终,根据这些考量,形成一个全面且个性化的解决方案。
唐亮指出,在操作环节中,指令会被细分为若干个方面,包括但不限于对高校整体层次、专业设置、地域分布等方面的要求,亦或是涉及招生规模、校园环境、设施便利性、住宿条件、食堂服务以及周边交通状况等。这些要素最终会被整合为六个不同的维度,而系统则会针对这六个维度进行评分。
在执行、审核和反思的环节中,系统将信息转化为操作志愿表的指令,随后,我们依据各维度的评分以及用户的实际需求,构建出最终的志愿表。在此过程中,我们对每个志愿进行六维度的评分,并综合用户的特定需求进行排序。最终,系统将整个流程的规划与反思整理成一份全面的志愿报告,确保了整个过程的完整记录。
实际上,我们得到了众多专家的大力协助。在构建Agent的过程中,我们通过模拟专家们线下进行的个性化志愿填报辅导,收集了丰富的专业信息。此外,我们还记录了专家与家长、教师之间的交流,其中蕴含着大量相关需求数据。当然,这还包括了专家在分析考生情况时的思维路径,以及他们如何为不同考生提供定制化的推荐方案,还有各地不同的政策规定。
在冷启动阶段,我们依托线下教师的一对一数据开展训练,训练完成之后,进入托管模式。在托管期间,我们能够利用线上获取的原始数据进行RLHF(即基于人类反馈的强化学习)数据的构建。一旦获得线上用户的真实反馈数据,我们还会在线下组织多位专家对数据进行多维度评估。
线下评分主要基于两个关键方面,首先考察整体规划与执行流程的合理性,其次评估最终内容排序以及专业匹配的合理性;这些评分将由专家老师们负责,并构成“奖励”这一评价维度。在志愿决策环节,我们将对模型进行奖励,以此优化先前执行过程中的志愿表评分,经过优化后的结果将融入最终的完整算法。整个过程大致如此。
(发言系现场录音整理,未经当事人审订)