[{"data":1,"prerenderedAt":1801},["ShallowReactive",2],{"\u002Fapi\u002Fblog\u002Ffrontier-reasoning-benchmark-construction:en":3},{"title":4,"desc":5,"bannerImg":6,"date":7,"authors":8,"bluff":9,"description":5,"content":10,"category":1799,"link":1800},"Transforming Research Papers into Frontier-Level Reasoning Benchmarks","Learn how frontier-level reasoning benchmarks are built by transforming real research papers into self-contained, multi-step reasoning tasks. Designed to resist shortcuts from GPT-5.1, Gemini 3 Pro, and Claude 4.5, this pipeline sets a new standard for evaluating true reasoning ability.","http:\u002F\u002Fglobal-blog.oss-ap-southeast-1.aliyuncs.com\u002Fabaka\u002FBanner_blogs\u002Fimage%20189.png","2025-12-23","[{\"avatar\":\"https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002Fabaka\u002FBlog_author\u002FHazel%20Gao.webp\",\"name\":\"Hazel Gao\",\"position\":\"Member of Technical Staff\"}]","We introduce a rigorous, research-grounded pipeline that converts real research papers into frontier-hard reasoning benchmarks—engineered to resist shortcuts, enforce multi-step deduction, and reliably differentiate the reasoning capabilities of today’s strongest models.",{"data":11,"body":13,"toc":1778},{"title":4,"description":12},"Modern frontier models such as GPT-5.1, Gemini 3 Pro, and Claude 4.5 can breeze through most conventional datasets. To meaningfully evaluate their reasoning ability, benchmarks must go far beyond trivia, puzzles, or patterns that a model can memorize. They must require genuine, human-style, multi-step deduction.",{"type":14,"children":15},"root",[16,31,87,101,147,170,186,195,208,217,226,235,273,282,295,304,355,378,391,400,431,440,454,485,501,510,523,532,563,572,585,594,635,658,706,715,729,752,761,801,810,850,859,873,896,905,954,985,994,1008,1017,1066,1075,1106,1115,1138,1152,1174,1184,1193,1233,1242,1291,1313,1327,1336,1415,1424,1464,1473,1487,1501,1532,1546,1555,1569,1578,1592,1601,1615,1624,1672,1686,1695,1704,1762,1771],{"type":17,"tag":18,"props":19,"children":23},"element","h1",{"className":20,"id":22},[21],"heading__h1","transforming-research-papers-into-frontier-level-reasoning-benchmarks",[24],{"type":17,"tag":25,"props":26,"children":28},"span",{"style":27},"white-space: pre-wrap;",[29],{"type":30,"value":4},"text",{"type":17,"tag":32,"props":33,"children":36},"p",{"className":34},[35],"doxhub-editor-paragraph",[37,42,54,59,68,73,82],{"type":17,"tag":25,"props":38,"children":39},{"style":27},[40],{"type":30,"value":41},"Modern frontier models such as ",{"type":17,"tag":43,"props":44,"children":45},"b",{},[46],{"type":17,"tag":47,"props":48,"children":51},"strong",{"className":49,"style":27},[50],"text__bold",[52],{"type":30,"value":53},"GPT-5.1",{"type":17,"tag":25,"props":55,"children":56},{"style":27},[57],{"type":30,"value":58},", ",{"type":17,"tag":43,"props":60,"children":61},{},[62],{"type":17,"tag":47,"props":63,"children":65},{"className":64,"style":27},[50],[66],{"type":30,"value":67},"Gemini 3 Pro",{"type":17,"tag":25,"props":69,"children":70},{"style":27},[71],{"type":30,"value":72},", and ",{"type":17,"tag":43,"props":74,"children":75},{},[76],{"type":17,"tag":47,"props":77,"children":79},{"className":78,"style":27},[50],[80],{"type":30,"value":81},"Claude 4.5",{"type":17,"tag":25,"props":83,"children":84},{"style":27},[85],{"type":30,"value":86}," can breeze through most conventional datasets. To meaningfully evaluate their reasoning ability, benchmarks must go far beyond trivia, puzzles, or patterns that a model can memorize. They must require genuine, human-style, multi-step deduction.",{"type":17,"tag":88,"props":89,"children":90},"figure",{},[91,97],{"type":17,"tag":92,"props":93,"children":96},"img",{"src":94,"alt":95},"http:\u002F\u002Fglobal-blog.oss-ap-southeast-1.aliyuncs.com\u002Fabaka\u002F20251226\u002Ff75f6f92-73b7-46af-ac5c-1c70888ded6e.webp","",[],{"type":17,"tag":98,"props":99,"children":100},"figcaption",{},[],{"type":17,"tag":32,"props":102,"children":104},{"className":103},[35],[105,110,119,124,133,138,142],{"type":17,"tag":25,"props":106,"children":107},{"style":27},[108],{"type":30,"value":109},"We achieve this by grounding every single question in the reasoning structure of a ",{"type":17,"tag":43,"props":111,"children":112},{},[113],{"type":17,"tag":47,"props":114,"children":116},{"className":115,"style":27},[50],[117],{"type":30,"value":118},"real research paper",{"type":17,"tag":25,"props":120,"children":121},{"style":27},[122],{"type":30,"value":123},", then re-engineering it into a ",{"type":17,"tag":43,"props":125,"children":126},{},[127],{"type":17,"tag":47,"props":128,"children":130},{"className":129,"style":27},[50],[131],{"type":30,"value":132},"fully self-contained, rigorously structured reasoning task",{"type":17,"tag":25,"props":134,"children":135},{"style":27},[136],{"type":30,"value":137},".",{"type":17,"tag":139,"props":140,"children":141},"br",{},[],{"type":17,"tag":25,"props":143,"children":144},{"style":27},[145],{"type":30,"value":146},"The result: problems that are naturally difficult, deeply compositional, and consistently resistant to frontier-model shortcuts.",{"type":17,"tag":32,"props":148,"children":150},{"className":149},[35],[151,156,165],{"type":17,"tag":25,"props":152,"children":153},{"style":27},[154],{"type":30,"value":155},"This article explains ",{"type":17,"tag":43,"props":157,"children":158},{},[159],{"type":17,"tag":47,"props":160,"children":162},{"className":161,"style":27},[50],[163],{"type":30,"value":164},"how we transform a research paper into thousands of high-quality, frontier-hard reasoning questions",{"type":17,"tag":25,"props":166,"children":167},{"style":27},[168],{"type":30,"value":169},", and why our pipeline is fundamentally stronger than crowdsourced or LLM-generated datasets.",{"type":17,"tag":171,"props":172,"children":176},"h2",{"className":173,"id":175},[174],"heading__h2","philosophy-evaluating-reasoning-not-recall",[177],{"type":17,"tag":43,"props":178,"children":179},{},[180],{"type":17,"tag":47,"props":181,"children":183},{"className":182,"style":27},[50],[184],{"type":30,"value":185},"Philosophy: Evaluating Reasoning, Not Recall",{"type":17,"tag":32,"props":187,"children":189},{"className":188},[35],[190],{"type":17,"tag":25,"props":191,"children":192},{"style":27},[193],{"type":30,"value":194},"Most benchmarks fail because they allow shortcuts. Our pipeline eliminates them using three foundational principles.",{"type":17,"tag":32,"props":196,"children":198},{"className":197},[35],[199],{"type":17,"tag":43,"props":200,"children":201},{},[202],{"type":17,"tag":47,"props":203,"children":205},{"className":204,"style":27},[50],[206],{"type":30,"value":207},"1. Self-Contained Construction",{"type":17,"tag":32,"props":209,"children":211},{"className":210},[35],[212],{"type":17,"tag":25,"props":213,"children":214},{"style":27},[215],{"type":30,"value":216},"Each question includes all relevant definitions and assumptions.",{"type":17,"tag":32,"props":218,"children":220},{"className":219},[35],[221],{"type":17,"tag":25,"props":222,"children":223},{"style":27},[224],{"type":30,"value":225},"No outside lookup. No paper references. No hidden dependencies.",{"type":17,"tag":32,"props":227,"children":229},{"className":228},[35],[230],{"type":17,"tag":25,"props":231,"children":232},{"style":27},[233],{"type":30,"value":234},"This guarantees:",{"type":17,"tag":236,"props":237,"children":240},"ul",{"className":238},[239],"doxhub-editor-ul",[241,253,263],{"type":17,"tag":242,"props":243,"children":247},"li",{"value":244,"className":245},"1",[246],"doxhub-editor-list-item",[248],{"type":17,"tag":25,"props":249,"children":250},{"style":27},[251],{"type":30,"value":252},"no memorization advantage",{"type":17,"tag":242,"props":254,"children":257},{"value":255,"className":256},"2",[246],[258],{"type":17,"tag":25,"props":259,"children":260},{"style":27},[261],{"type":30,"value":262},"no training-data leakage",{"type":17,"tag":242,"props":264,"children":267},{"value":265,"className":266},"3",[246],[268],{"type":17,"tag":25,"props":269,"children":270},{"style":27},[271],{"type":30,"value":272},"no ambiguity in interpretation",{"type":17,"tag":32,"props":274,"children":276},{"className":275},[35],[277],{"type":17,"tag":25,"props":278,"children":279},{"style":27},[280],{"type":30,"value":281},"Every problem is a clean, closed-world scenario.",{"type":17,"tag":32,"props":283,"children":285},{"className":284},[35],[286],{"type":17,"tag":43,"props":287,"children":288},{},[289],{"type":17,"tag":47,"props":290,"children":292},{"className":291,"style":27},[50],[293],{"type":30,"value":294},"2. Mandatory Multi-Step Reasoning (≥2 Independent Steps)",{"type":17,"tag":32,"props":296,"children":298},{"className":297},[35],[299],{"type":17,"tag":25,"props":300,"children":301},{"style":27},[302],{"type":30,"value":303},"The solver must combine at least two logically independent operations, such as:",{"type":17,"tag":236,"props":305,"children":307},{"className":306},[239],[308,317,326,335,345],{"type":17,"tag":242,"props":309,"children":311},{"value":244,"className":310},[246],[312],{"type":17,"tag":25,"props":313,"children":314},{"style":27},[315],{"type":30,"value":316},"constraint interaction",{"type":17,"tag":242,"props":318,"children":320},{"value":255,"className":319},[246],[321],{"type":17,"tag":25,"props":322,"children":323},{"style":27},[324],{"type":30,"value":325},"algebraic manipulation",{"type":17,"tag":242,"props":327,"children":329},{"value":265,"className":328},[246],[330],{"type":17,"tag":25,"props":331,"children":332},{"style":27},[333],{"type":30,"value":334},"case elimination",{"type":17,"tag":242,"props":336,"children":339},{"value":337,"className":338},"4",[246],[340],{"type":17,"tag":25,"props":341,"children":342},{"style":27},[343],{"type":30,"value":344},"probabilistic reasoning",{"type":17,"tag":242,"props":346,"children":349},{"value":347,"className":348},"5",[246],[350],{"type":17,"tag":25,"props":351,"children":352},{"style":27},[353],{"type":30,"value":354},"geometric inference",{"type":17,"tag":32,"props":356,"children":358},{"className":357},[35],[359,364,373],{"type":17,"tag":25,"props":360,"children":361},{"style":27},[362],{"type":30,"value":363},"Difficulty arises from ",{"type":17,"tag":43,"props":365,"children":366},{},[367],{"type":17,"tag":47,"props":368,"children":370},{"className":369,"style":27},[50],[371],{"type":30,"value":372},"compositional reasoning",{"type":17,"tag":25,"props":374,"children":375},{"style":27},[376],{"type":30,"value":377},", not obscure knowledge.",{"type":17,"tag":32,"props":379,"children":381},{"className":380},[35],[382],{"type":17,"tag":43,"props":383,"children":384},{},[385],{"type":17,"tag":47,"props":386,"children":388},{"className":387,"style":27},[50],[389],{"type":30,"value":390},"3. Exactly One Acceptable Final Answer",{"type":17,"tag":32,"props":392,"children":394},{"className":393},[35],[395],{"type":17,"tag":25,"props":396,"children":397},{"style":27},[398],{"type":30,"value":399},"Every task ends with:",{"type":17,"tag":236,"props":401,"children":403},{"className":402},[239],[404,413,422],{"type":17,"tag":242,"props":405,"children":407},{"value":244,"className":406},[246],[408],{"type":17,"tag":25,"props":409,"children":410},{"style":27},[411],{"type":30,"value":412},"a single number,",{"type":17,"tag":242,"props":414,"children":416},{"value":255,"className":415},[246],[417],{"type":17,"tag":25,"props":418,"children":419},{"style":27},[420],{"type":30,"value":421},"a single expression, or",{"type":17,"tag":242,"props":423,"children":425},{"value":265,"className":424},[246],[426],{"type":17,"tag":25,"props":427,"children":428},{"style":27},[429],{"type":30,"value":430},"a single unambiguous term.",{"type":17,"tag":32,"props":432,"children":434},{"className":433},[35],[435],{"type":17,"tag":25,"props":436,"children":437},{"style":27},[438],{"type":30,"value":439},"No essays. No opinionated outputs. No multi-solution ambiguity.",{"type":17,"tag":171,"props":441,"children":444},{"className":442,"id":443},[174],"pipeline-a-high-rigour-engineering-process",[445],{"type":17,"tag":43,"props":446,"children":447},{},[448],{"type":17,"tag":47,"props":449,"children":451},{"className":450,"style":27},[50],[452],{"type":30,"value":453},"Pipeline: A High-Rigour Engineering Process",{"type":17,"tag":32,"props":455,"children":457},{"className":456},[35],[458,463,466,471,480],{"type":17,"tag":25,"props":459,"children":460},{"style":27},[461],{"type":30,"value":462},"This is where our advantage becomes decisive.",{"type":17,"tag":139,"props":464,"children":465},{},[],{"type":17,"tag":25,"props":467,"children":468},{"style":27},[469],{"type":30,"value":470}," We treat question creation as a ",{"type":17,"tag":43,"props":472,"children":473},{},[474],{"type":17,"tag":47,"props":475,"children":477},{"className":476,"style":27},[50],[478],{"type":30,"value":479},"four-layer engineering pipeline",{"type":17,"tag":25,"props":481,"children":482},{"style":27},[483],{"type":30,"value":484},", not ad-hoc content writing.",{"type":17,"tag":486,"props":487,"children":491},"h3",{"className":488,"id":490},[489],"heading__h3","step-1-expert-driven-question-drafting",[492],{"type":17,"tag":43,"props":493,"children":494},{},[495],{"type":17,"tag":47,"props":496,"children":498},{"className":497,"style":27},[50],[499],{"type":30,"value":500},"Step 1 — Expert-Driven Question Drafting",{"type":17,"tag":32,"props":502,"children":504},{"className":503},[35],[505],{"type":17,"tag":25,"props":506,"children":507},{"style":27},[508],{"type":30,"value":509},"Our authors follow a strict structural protocol.",{"type":17,"tag":32,"props":511,"children":513},{"className":512},[35],[514],{"type":17,"tag":43,"props":515,"children":516},{},[517],{"type":17,"tag":47,"props":518,"children":520},{"className":519,"style":27},[50],[521],{"type":30,"value":522},"A. Define the Micro-Domain",{"type":17,"tag":32,"props":524,"children":526},{"className":525},[35],[527],{"type":17,"tag":25,"props":528,"children":529},{"style":27},[530],{"type":30,"value":531},"Even though each question is self-contained, we tag it internally by:",{"type":17,"tag":236,"props":533,"children":535},{"className":534},[239],[536,545,554],{"type":17,"tag":242,"props":537,"children":539},{"value":244,"className":538},[246],[540],{"type":17,"tag":25,"props":541,"children":542},{"style":27},[543],{"type":30,"value":544},"mathematical or logical domain",{"type":17,"tag":242,"props":546,"children":548},{"value":255,"className":547},[246],[549],{"type":17,"tag":25,"props":550,"children":551},{"style":27},[552],{"type":30,"value":553},"underlying cognitive operations",{"type":17,"tag":242,"props":555,"children":557},{"value":265,"className":556},[246],[558],{"type":17,"tag":25,"props":559,"children":560},{"style":27},[561],{"type":30,"value":562},"expected reasoning-chain depth",{"type":17,"tag":32,"props":564,"children":566},{"className":565},[35],[567],{"type":17,"tag":25,"props":568,"children":569},{"style":27},[570],{"type":30,"value":571},"This ensures broad domain diversity while maintaining a natural scientific flavor.",{"type":17,"tag":32,"props":573,"children":575},{"className":574},[35],[576],{"type":17,"tag":43,"props":577,"children":578},{},[579],{"type":17,"tag":47,"props":580,"children":582},{"className":581,"style":27},[50],[583],{"type":30,"value":584},"B. Apply the “Double-Constraint Rule”",{"type":17,"tag":32,"props":586,"children":588},{"className":587},[35],[589],{"type":17,"tag":25,"props":590,"children":591},{"style":27},[592],{"type":30,"value":593},"All problems must:",{"type":17,"tag":595,"props":596,"children":599},"ol",{"className":597},[598],"doxhub-editor-ol",[600,618],{"type":17,"tag":242,"props":601,"children":603},{"value":244,"className":602},[246],[604,613],{"type":17,"tag":43,"props":605,"children":606},{},[607],{"type":17,"tag":47,"props":608,"children":610},{"className":609,"style":27},[50],[611],{"type":30,"value":612},"Be constructible from first principles",{"type":17,"tag":25,"props":614,"children":615},{"style":27},[616],{"type":30,"value":617},", and",{"type":17,"tag":242,"props":619,"children":621},{"value":255,"className":620},[246],[622,631],{"type":17,"tag":43,"props":623,"children":624},{},[625],{"type":17,"tag":47,"props":626,"children":628},{"className":627,"style":27},[50],[629],{"type":30,"value":630},"Be impossible to shortcut through memorized patterns",{"type":17,"tag":25,"props":632,"children":633},{"style":27},[634],{"type":30,"value":137},{"type":17,"tag":32,"props":636,"children":638},{"className":637},[35],[639,644,653],{"type":17,"tag":25,"props":640,"children":641},{"style":27},[642],{"type":30,"value":643},"We enforce this using our internal library of ",{"type":17,"tag":43,"props":645,"children":646},{},[647],{"type":17,"tag":47,"props":648,"children":650},{"className":649,"style":27},[50],[651],{"type":30,"value":652},"reasoning primitives",{"type":17,"tag":25,"props":654,"children":655},{"style":27},[656],{"type":30,"value":657},", including:",{"type":17,"tag":236,"props":659,"children":661},{"className":660},[239],[662,671,680,689,697],{"type":17,"tag":242,"props":663,"children":665},{"value":244,"className":664},[246],[666],{"type":17,"tag":25,"props":667,"children":668},{"style":27},[669],{"type":30,"value":670},"linear constraint composition",{"type":17,"tag":242,"props":672,"children":674},{"value":255,"className":673},[246],[675],{"type":17,"tag":25,"props":676,"children":677},{"style":27},[678],{"type":30,"value":679},"dominating-term comparison",{"type":17,"tag":242,"props":681,"children":683},{"value":265,"className":682},[246],[684],{"type":17,"tag":25,"props":685,"children":686},{"style":27},[687],{"type":30,"value":688},"monotonic inference",{"type":17,"tag":242,"props":690,"children":692},{"value":337,"className":691},[246],[693],{"type":17,"tag":25,"props":694,"children":695},{"style":27},[696],{"type":30,"value":334},{"type":17,"tag":242,"props":698,"children":700},{"value":347,"className":699},[246],[701],{"type":17,"tag":25,"props":702,"children":703},{"style":27},[704],{"type":30,"value":705},"invariance reasoning",{"type":17,"tag":32,"props":707,"children":709},{"className":708},[35],[710],{"type":17,"tag":25,"props":711,"children":712},{"style":27},[713],{"type":30,"value":714},"These primitives help authors design problems that genuinely demand multi-step thinking.",{"type":17,"tag":486,"props":716,"children":719},{"className":717,"id":718},[489],"step-2-internal-reasoning-chain-encoding",[720],{"type":17,"tag":43,"props":721,"children":722},{},[723],{"type":17,"tag":47,"props":724,"children":726},{"className":725,"style":27},[50],[727],{"type":30,"value":728},"Step 2 — Internal Reasoning Chain Encoding",{"type":17,"tag":32,"props":730,"children":732},{"className":731},[35],[733,738,747],{"type":17,"tag":25,"props":734,"children":735},{"style":27},[736],{"type":30,"value":737},"Each question is accompanied by a ",{"type":17,"tag":43,"props":739,"children":740},{},[741],{"type":17,"tag":47,"props":742,"children":744},{"className":743,"style":27},[50],[745],{"type":30,"value":746},"minimal, fully enumerated reasoning chain",{"type":17,"tag":25,"props":748,"children":749},{"style":27},[750],{"type":30,"value":751},", written by the author but never revealed publicly.",{"type":17,"tag":32,"props":753,"children":755},{"className":754},[35],[756],{"type":17,"tag":25,"props":757,"children":758},{"style":27},[759],{"type":30,"value":760},"Each step must be:",{"type":17,"tag":236,"props":762,"children":764},{"className":763},[239],[765,774,783,792],{"type":17,"tag":242,"props":766,"children":768},{"value":244,"className":767},[246],[769],{"type":17,"tag":25,"props":770,"children":771},{"style":27},[772],{"type":30,"value":773},"atomic",{"type":17,"tag":242,"props":775,"children":777},{"value":255,"className":776},[246],[778],{"type":17,"tag":25,"props":779,"children":780},{"style":27},[781],{"type":30,"value":782},"necessary",{"type":17,"tag":242,"props":784,"children":786},{"value":265,"className":785},[246],[787],{"type":17,"tag":25,"props":788,"children":789},{"style":27},[790],{"type":30,"value":791},"non-redundant",{"type":17,"tag":242,"props":793,"children":795},{"value":337,"className":794},[246],[796],{"type":17,"tag":25,"props":797,"children":798},{"style":27},[799],{"type":30,"value":800},"logically ordered",{"type":17,"tag":32,"props":802,"children":804},{"className":803},[35],[805],{"type":17,"tag":25,"props":806,"children":807},{"style":27},[808],{"type":30,"value":809},"This internal chain allows us to automatically detect:",{"type":17,"tag":236,"props":811,"children":813},{"className":812},[239],[814,823,832,841],{"type":17,"tag":242,"props":815,"children":817},{"value":244,"className":816},[246],[818],{"type":17,"tag":25,"props":819,"children":820},{"style":27},[821],{"type":30,"value":822},"hidden assumptions",{"type":17,"tag":242,"props":824,"children":826},{"value":255,"className":825},[246],[827],{"type":17,"tag":25,"props":828,"children":829},{"style":27},[830],{"type":30,"value":831},"missing constraints",{"type":17,"tag":242,"props":833,"children":835},{"value":265,"className":834},[246],[836],{"type":17,"tag":25,"props":837,"children":838},{"style":27},[839],{"type":30,"value":840},"unintended multi-answer paths",{"type":17,"tag":242,"props":842,"children":844},{"value":337,"className":843},[246],[845],{"type":17,"tag":25,"props":846,"children":847},{"style":27},[848],{"type":30,"value":849},"puzzle-style trickiness",{"type":17,"tag":32,"props":851,"children":853},{"className":852},[35],[854],{"type":17,"tag":25,"props":855,"children":856},{"style":27},[857],{"type":30,"value":858},"Many drafts are rejected at this stage.",{"type":17,"tag":486,"props":860,"children":863},{"className":861,"id":862},[489],"step-3-multi-author-adversarial-review",[864],{"type":17,"tag":43,"props":865,"children":866},{},[867],{"type":17,"tag":47,"props":868,"children":870},{"className":869,"style":27},[50],[871],{"type":30,"value":872},"Step 3 — Multi-Author Adversarial Review",{"type":17,"tag":32,"props":874,"children":876},{"className":875},[35],[877,882,891],{"type":17,"tag":25,"props":878,"children":879},{"style":27},[880],{"type":30,"value":881},"A separate expert attempts to ",{"type":17,"tag":43,"props":883,"children":884},{},[885],{"type":17,"tag":47,"props":886,"children":888},{"className":887,"style":27},[50],[889],{"type":30,"value":890},"break",{"type":17,"tag":25,"props":892,"children":893},{"style":27},[894],{"type":30,"value":895}," each question.",{"type":17,"tag":32,"props":897,"children":899},{"className":898},[35],[900],{"type":17,"tag":25,"props":901,"children":902},{"style":27},[903],{"type":30,"value":904},"They search for:",{"type":17,"tag":236,"props":906,"children":908},{"className":907},[239],[909,918,927,936,945],{"type":17,"tag":242,"props":910,"children":912},{"value":244,"className":911},[246],[913],{"type":17,"tag":25,"props":914,"children":915},{"style":27},[916],{"type":30,"value":917},"alternative interpretations",{"type":17,"tag":242,"props":919,"children":921},{"value":255,"className":920},[246],[922],{"type":17,"tag":25,"props":923,"children":924},{"style":27},[925],{"type":30,"value":926},"shortcut patterns readable by LLMs",{"type":17,"tag":242,"props":928,"children":930},{"value":265,"className":929},[246],[931],{"type":17,"tag":25,"props":932,"children":933},{"style":27},[934],{"type":30,"value":935},"hidden edge cases",{"type":17,"tag":242,"props":937,"children":939},{"value":337,"className":938},[246],[940],{"type":17,"tag":25,"props":941,"children":942},{"style":27},[943],{"type":30,"value":944},"unintentionally solvable heuristics",{"type":17,"tag":242,"props":946,"children":948},{"value":347,"className":947},[246],[949],{"type":17,"tag":25,"props":950,"children":951},{"style":27},[952],{"type":30,"value":953},"ambiguity or trick structure",{"type":17,"tag":32,"props":955,"children":957},{"className":956},[35],[958,963,972,977,980],{"type":17,"tag":25,"props":959,"children":960},{"style":27},[961],{"type":30,"value":962},"We ask reviewers to think ",{"type":17,"tag":43,"props":964,"children":965},{},[966],{"type":17,"tag":47,"props":967,"children":969},{"className":968,"style":27},[50],[970],{"type":30,"value":971},"like a frontier model",{"type":17,"tag":25,"props":973,"children":974},{"style":27},[975],{"type":30,"value":976},", not a human.",{"type":17,"tag":139,"props":978,"children":979},{},[],{"type":17,"tag":25,"props":981,"children":982},{"style":27},[983],{"type":30,"value":984},"If the problem can be solved without performing the intended reasoning steps, it goes back to redesign.",{"type":17,"tag":32,"props":986,"children":988},{"className":987},[35],[989],{"type":17,"tag":25,"props":990,"children":991},{"style":27},[992],{"type":30,"value":993},"This step ensures structural robustness.",{"type":17,"tag":486,"props":995,"children":998},{"className":996,"id":997},[489],"step-4-frontier-model-stress-testing",[999],{"type":17,"tag":43,"props":1000,"children":1001},{},[1002],{"type":17,"tag":47,"props":1003,"children":1005},{"className":1004,"style":27},[50],[1006],{"type":30,"value":1007},"Step 4 — Frontier-Model Stress-Testing",{"type":17,"tag":32,"props":1009,"children":1011},{"className":1010},[35],[1012],{"type":17,"tag":25,"props":1013,"children":1014},{"style":27},[1015],{"type":30,"value":1016},"Every surviving problem is tested against:",{"type":17,"tag":236,"props":1018,"children":1020},{"className":1019},[239],[1021,1033,1045,1057],{"type":17,"tag":242,"props":1022,"children":1024},{"value":244,"className":1023},[246],[1025],{"type":17,"tag":43,"props":1026,"children":1027},{},[1028],{"type":17,"tag":47,"props":1029,"children":1031},{"className":1030,"style":27},[50],[1032],{"type":30,"value":53},{"type":17,"tag":242,"props":1034,"children":1036},{"value":255,"className":1035},[246],[1037],{"type":17,"tag":43,"props":1038,"children":1039},{},[1040],{"type":17,"tag":47,"props":1041,"children":1043},{"className":1042,"style":27},[50],[1044],{"type":30,"value":67},{"type":17,"tag":242,"props":1046,"children":1048},{"value":265,"className":1047},[246],[1049],{"type":17,"tag":43,"props":1050,"children":1051},{},[1052],{"type":17,"tag":47,"props":1053,"children":1055},{"className":1054,"style":27},[50],[1056],{"type":30,"value":81},{"type":17,"tag":242,"props":1058,"children":1060},{"value":337,"className":1059},[246],[1061],{"type":17,"tag":25,"props":1062,"children":1063},{"style":27},[1064],{"type":30,"value":1065},"Top-tier open-source models (Mixtral\u002FOLMo\u002Fetc.)",{"type":17,"tag":32,"props":1067,"children":1069},{"className":1068},[35],[1070],{"type":17,"tag":25,"props":1071,"children":1072},{"style":27},[1073],{"type":30,"value":1074},"A problem is discarded if any model:",{"type":17,"tag":236,"props":1076,"children":1078},{"className":1077},[239],[1079,1088,1097],{"type":17,"tag":242,"props":1080,"children":1082},{"value":244,"className":1081},[246],[1083],{"type":17,"tag":25,"props":1084,"children":1085},{"style":27},[1086],{"type":30,"value":1087},"solves it reliably,",{"type":17,"tag":242,"props":1089,"children":1091},{"value":255,"className":1090},[246],[1092],{"type":17,"tag":25,"props":1093,"children":1094},{"style":27},[1095],{"type":30,"value":1096},"bypasses it using unintended shortcuts, or",{"type":17,"tag":242,"props":1098,"children":1100},{"value":265,"className":1099},[246],[1101],{"type":17,"tag":25,"props":1102,"children":1103},{"style":27},[1104],{"type":30,"value":1105},"reaches the correct answer without performing the intended multi-step reasoning.",{"type":17,"tag":32,"props":1107,"children":1109},{"className":1108},[35],[1110],{"type":17,"tag":25,"props":1111,"children":1112},{"style":27},[1113],{"type":30,"value":1114},"Only items that consistently resist frontier-model shortcuts make it into the benchmark.",{"type":17,"tag":32,"props":1116,"children":1118},{"className":1117},[35],[1119,1124,1133],{"type":17,"tag":25,"props":1120,"children":1121},{"style":27},[1122],{"type":30,"value":1123},"This is why our dataset reliably defeats GPT-5.1 and Gemini 3 Pro — through ",{"type":17,"tag":43,"props":1125,"children":1126},{},[1127],{"type":17,"tag":47,"props":1128,"children":1130},{"className":1129,"style":27},[50],[1131],{"type":30,"value":1132},"structural depth",{"type":17,"tag":25,"props":1134,"children":1135},{"style":27},[1136],{"type":30,"value":1137},", not artificial obscurity.",{"type":17,"tag":171,"props":1139,"children":1142},{"className":1140,"id":1141},[174],"engineering-natural-not-gimmicky-difficulty",[1143],{"type":17,"tag":43,"props":1144,"children":1145},{},[1146],{"type":17,"tag":47,"props":1147,"children":1149},{"className":1148,"style":27},[50],[1150],{"type":30,"value":1151},"Engineering Natural, Not Gimmicky Difficulty",{"type":17,"tag":32,"props":1153,"children":1155},{"className":1154},[35],[1156,1161,1170],{"type":17,"tag":25,"props":1157,"children":1158},{"style":27},[1159],{"type":30,"value":1160},"A core design requirement is ",{"type":17,"tag":43,"props":1162,"children":1163},{},[1164],{"type":17,"tag":47,"props":1165,"children":1167},{"className":1166,"style":27},[50],[1168],{"type":30,"value":1169},"natural scientific difficulty",{"type":17,"tag":25,"props":1171,"children":1172},{"style":27},[1173],{"type":30,"value":137},{"type":17,"tag":88,"props":1175,"children":1176},{},[1177,1181],{"type":17,"tag":92,"props":1178,"children":1180},{"src":1179,"alt":95},"http:\u002F\u002Fglobal-blog.oss-ap-southeast-1.aliyuncs.com\u002Fabaka\u002F20251226\u002F9176f32a-4d33-4d1c-a6c7-2c86301c6228.webp",[],{"type":17,"tag":98,"props":1182,"children":1183},{},[],{"type":17,"tag":32,"props":1185,"children":1187},{"className":1186},[35],[1188],{"type":17,"tag":25,"props":1189,"children":1190},{"style":27},[1191],{"type":30,"value":1192},"We avoid:",{"type":17,"tag":236,"props":1194,"children":1196},{"className":1195},[239],[1197,1206,1215,1224],{"type":17,"tag":242,"props":1198,"children":1200},{"value":244,"className":1199},[246],[1201],{"type":17,"tag":25,"props":1202,"children":1203},{"style":27},[1204],{"type":30,"value":1205},"puzzle tricks",{"type":17,"tag":242,"props":1207,"children":1209},{"value":255,"className":1208},[246],[1210],{"type":17,"tag":25,"props":1211,"children":1212},{"style":27},[1213],{"type":30,"value":1214},"riddle-style twists",{"type":17,"tag":242,"props":1216,"children":1218},{"value":265,"className":1217},[246],[1219],{"type":17,"tag":25,"props":1220,"children":1221},{"style":27},[1222],{"type":30,"value":1223},"domain trivia",{"type":17,"tag":242,"props":1225,"children":1227},{"value":337,"className":1226},[246],[1228],{"type":17,"tag":25,"props":1229,"children":1230},{"style":27},[1231],{"type":30,"value":1232},"contrived constraint combinations",{"type":17,"tag":32,"props":1234,"children":1236},{"className":1235},[35],[1237],{"type":17,"tag":25,"props":1238,"children":1239},{"style":27},[1240],{"type":30,"value":1241},"Instead, we build problems that resemble:",{"type":17,"tag":236,"props":1243,"children":1245},{"className":1244},[239],[1246,1255,1264,1273,1282],{"type":17,"tag":242,"props":1247,"children":1249},{"value":244,"className":1248},[246],[1250],{"type":17,"tag":25,"props":1251,"children":1252},{"style":27},[1253],{"type":30,"value":1254},"graduate-level reasoning",{"type":17,"tag":242,"props":1256,"children":1258},{"value":255,"className":1257},[246],[1259],{"type":17,"tag":25,"props":1260,"children":1261},{"style":27},[1262],{"type":30,"value":1263},"steps from research proofs",{"type":17,"tag":242,"props":1265,"children":1267},{"value":265,"className":1266},[246],[1268],{"type":17,"tag":25,"props":1269,"children":1270},{"style":27},[1271],{"type":30,"value":1272},"scientific modeling derivations",{"type":17,"tag":242,"props":1274,"children":1276},{"value":337,"className":1275},[246],[1277],{"type":17,"tag":25,"props":1278,"children":1279},{"style":27},[1280],{"type":30,"value":1281},"applied math or logic casework",{"type":17,"tag":242,"props":1283,"children":1285},{"value":347,"className":1284},[246],[1286],{"type":17,"tag":25,"props":1287,"children":1288},{"style":27},[1289],{"type":30,"value":1290},"interview-grade technical deductions",{"type":17,"tag":32,"props":1292,"children":1294},{"className":1293},[35],[1295,1300,1309],{"type":17,"tag":25,"props":1296,"children":1297},{"style":27},[1298],{"type":30,"value":1299},"The difficulty feels real because it ",{"type":17,"tag":43,"props":1301,"children":1302},{},[1303],{"type":17,"tag":47,"props":1304,"children":1306},{"className":1305,"style":27},[50],[1307],{"type":30,"value":1308},"originates from real scientific reasoning",{"type":17,"tag":25,"props":1310,"children":1311},{"style":27},[1312],{"type":30,"value":137},{"type":17,"tag":171,"props":1314,"children":1317},{"className":1315,"id":1316},[174],"industrial-grade-metadata-for-consistency",[1318],{"type":17,"tag":43,"props":1319,"children":1320},{},[1321],{"type":17,"tag":47,"props":1322,"children":1324},{"className":1323,"style":27},[50],[1325],{"type":30,"value":1326},"Industrial-Grade Metadata for Consistency",{"type":17,"tag":32,"props":1328,"children":1330},{"className":1329},[35],[1331],{"type":17,"tag":25,"props":1332,"children":1333},{"style":27},[1334],{"type":30,"value":1335},"Behind each question lies a structured metadata layer containing:",{"type":17,"tag":236,"props":1337,"children":1339},{"className":1338},[239],[1340,1349,1358,1367,1376,1385,1395,1405],{"type":17,"tag":242,"props":1341,"children":1343},{"value":244,"className":1342},[246],[1344],{"type":17,"tag":25,"props":1345,"children":1346},{"style":27},[1347],{"type":30,"value":1348},"reasoning-chain structure",{"type":17,"tag":242,"props":1350,"children":1352},{"value":255,"className":1351},[246],[1353],{"type":17,"tag":25,"props":1354,"children":1355},{"style":27},[1356],{"type":30,"value":1357},"domain and sub-domain tags",{"type":17,"tag":242,"props":1359,"children":1361},{"value":265,"className":1360},[246],[1362],{"type":17,"tag":25,"props":1363,"children":1364},{"style":27},[1365],{"type":30,"value":1366},"reasoning primitive types",{"type":17,"tag":242,"props":1368,"children":1370},{"value":337,"className":1369},[246],[1371],{"type":17,"tag":25,"props":1372,"children":1373},{"style":27},[1374],{"type":30,"value":1375},"answer-uniqueness validation",{"type":17,"tag":242,"props":1377,"children":1379},{"value":347,"className":1378},[246],[1380],{"type":17,"tag":25,"props":1381,"children":1382},{"style":27},[1383],{"type":30,"value":1384},"dependency-graph tracking",{"type":17,"tag":242,"props":1386,"children":1389},{"value":1387,"className":1388},"6",[246],[1390],{"type":17,"tag":25,"props":1391,"children":1392},{"style":27},[1393],{"type":30,"value":1394},"expected difficulty tier",{"type":17,"tag":242,"props":1396,"children":1399},{"value":1397,"className":1398},"7",[246],[1400],{"type":17,"tag":25,"props":1401,"children":1402},{"style":27},[1403],{"type":30,"value":1404},"model failure signatures",{"type":17,"tag":242,"props":1406,"children":1409},{"value":1407,"className":1408},"8",[246],[1410],{"type":17,"tag":25,"props":1411,"children":1412},{"style":27},[1413],{"type":30,"value":1414},"reviewer notes",{"type":17,"tag":32,"props":1416,"children":1418},{"className":1417},[35],[1419],{"type":17,"tag":25,"props":1420,"children":1421},{"style":27},[1422],{"type":30,"value":1423},"This ensures:",{"type":17,"tag":236,"props":1425,"children":1427},{"className":1426},[239],[1428,1437,1446,1455],{"type":17,"tag":242,"props":1429,"children":1431},{"value":244,"className":1430},[246],[1432],{"type":17,"tag":25,"props":1433,"children":1434},{"style":27},[1435],{"type":30,"value":1436},"reproducibility",{"type":17,"tag":242,"props":1438,"children":1440},{"value":255,"className":1439},[246],[1441],{"type":17,"tag":25,"props":1442,"children":1443},{"style":27},[1444],{"type":30,"value":1445},"consistent difficulty scaling",{"type":17,"tag":242,"props":1447,"children":1449},{"value":265,"className":1448},[246],[1450],{"type":17,"tag":25,"props":1451,"children":1452},{"style":27},[1453],{"type":30,"value":1454},"systematic auditing",{"type":17,"tag":242,"props":1456,"children":1458},{"value":337,"className":1457},[246],[1459],{"type":17,"tag":25,"props":1460,"children":1461},{"style":27},[1462],{"type":30,"value":1463},"clean tracking across thousands of items",{"type":17,"tag":32,"props":1465,"children":1467},{"className":1466},[35],[1468],{"type":17,"tag":25,"props":1469,"children":1470},{"style":27},[1471],{"type":30,"value":1472},"Crowdsourced or LLM-generated datasets cannot match this level of precision.",{"type":17,"tag":171,"props":1474,"children":1477},{"className":1475,"id":1476},[174],"why-our-construction-method-is-superior",[1478],{"type":17,"tag":43,"props":1479,"children":1480},{},[1481],{"type":17,"tag":47,"props":1482,"children":1484},{"className":1483,"style":27},[50],[1485],{"type":30,"value":1486},"Why Our Construction Method Is Superior",{"type":17,"tag":486,"props":1488,"children":1491},{"className":1489,"id":1490},[489],"frontier-model-aware-from-day-one",[1492],{"type":17,"tag":43,"props":1493,"children":1494},{},[1495],{"type":17,"tag":47,"props":1496,"children":1498},{"className":1497,"style":27},[50],[1499],{"type":30,"value":1500},"Frontier-Model-Aware from Day One",{"type":17,"tag":32,"props":1502,"children":1504},{"className":1503},[35],[1505,1510,1513,1518,1527],{"type":17,"tag":25,"props":1506,"children":1507},{"style":27},[1508],{"type":30,"value":1509},"Most benchmarks evaluate yesterday’s models.",{"type":17,"tag":139,"props":1511,"children":1512},{},[],{"type":17,"tag":25,"props":1514,"children":1515},{"style":27},[1516],{"type":30,"value":1517}," We evaluate against ",{"type":17,"tag":43,"props":1519,"children":1520},{},[1521],{"type":17,"tag":47,"props":1522,"children":1524},{"className":1523,"style":27},[50],[1525],{"type":30,"value":1526},"current frontier models",{"type":17,"tag":25,"props":1528,"children":1529},{"style":27},[1530],{"type":30,"value":1531},"—GPT-5.1, Gemini 3 Pro, Claude 4.5—keeping our difficulty curve constantly ahead.",{"type":17,"tag":486,"props":1533,"children":1536},{"className":1534,"id":1535},[489],"human-designed-machine-verified",[1537],{"type":17,"tag":43,"props":1538,"children":1539},{},[1540],{"type":17,"tag":47,"props":1541,"children":1543},{"className":1542,"style":27},[50],[1544],{"type":30,"value":1545},"Human-Designed, Machine-Verified",{"type":17,"tag":32,"props":1547,"children":1549},{"className":1548},[35],[1550],{"type":17,"tag":25,"props":1551,"children":1552},{"style":27},[1553],{"type":30,"value":1554},"Questions are crafted by experts but adversarially filtered by multiple frontier models.",{"type":17,"tag":486,"props":1556,"children":1559},{"className":1557,"id":1558},[489],"zero-shortcut-tolerance",[1560],{"type":17,"tag":43,"props":1561,"children":1562},{},[1563],{"type":17,"tag":47,"props":1564,"children":1566},{"className":1565,"style":27},[50],[1567],{"type":30,"value":1568},"Zero Shortcut Tolerance",{"type":17,"tag":32,"props":1570,"children":1572},{"className":1571},[35],[1573],{"type":17,"tag":25,"props":1574,"children":1575},{"style":27},[1576],{"type":30,"value":1577},"Our pipeline systematically removes all heuristic shortcuts that LLMs exploit.",{"type":17,"tag":486,"props":1579,"children":1582},{"className":1580,"id":1581},[489],"fully-self-contained",[1583],{"type":17,"tag":43,"props":1584,"children":1585},{},[1586],{"type":17,"tag":47,"props":1587,"children":1589},{"className":1588,"style":27},[50],[1590],{"type":30,"value":1591},"Fully Self-Contained",{"type":17,"tag":32,"props":1593,"children":1595},{"className":1594},[35],[1596],{"type":17,"tag":25,"props":1597,"children":1598},{"style":27},[1599],{"type":30,"value":1600},"No external dependencies → no data leakage → pure reasoning evaluation.",{"type":17,"tag":486,"props":1602,"children":1605},{"className":1603,"id":1604},[489],"high-fidelity-at-scale",[1606],{"type":17,"tag":43,"props":1607,"children":1608},{},[1609],{"type":17,"tag":47,"props":1610,"children":1612},{"className":1611,"style":27},[50],[1613],{"type":30,"value":1614},"High-Fidelity at Scale",{"type":17,"tag":32,"props":1616,"children":1618},{"className":1617},[35],[1619],{"type":17,"tag":25,"props":1620,"children":1621},{"style":27},[1622],{"type":30,"value":1623},"Metadata automation enables:",{"type":17,"tag":236,"props":1625,"children":1627},{"className":1626},[239],[1628,1637,1646,1655],{"type":17,"tag":242,"props":1629,"children":1631},{"value":244,"className":1630},[246],[1632],{"type":17,"tag":25,"props":1633,"children":1634},{"style":27},[1635],{"type":30,"value":1636},"depth",{"type":17,"tag":242,"props":1638,"children":1640},{"value":255,"className":1639},[246],[1641],{"type":17,"tag":25,"props":1642,"children":1643},{"style":27},[1644],{"type":30,"value":1645},"diversity",{"type":17,"tag":242,"props":1647,"children":1649},{"value":265,"className":1648},[246],[1650],{"type":17,"tag":25,"props":1651,"children":1652},{"style":27},[1653],{"type":30,"value":1654},"answer uniqueness",{"type":17,"tag":242,"props":1656,"children":1658},{"value":337,"className":1657},[246],[1659,1664,1667],{"type":17,"tag":25,"props":1660,"children":1661},{"style":27},[1662],{"type":30,"value":1663},"domain balance",{"type":17,"tag":139,"props":1665,"children":1666},{},[],{"type":17,"tag":25,"props":1668,"children":1669},{"style":27},[1670],{"type":30,"value":1671}," across thousands of questions, without sacrificing quality.",{"type":17,"tag":171,"props":1673,"children":1676},{"className":1674,"id":1675},[174],"conclusion-a-new-standard-for-reasoning-benchmark-construction",[1677],{"type":17,"tag":43,"props":1678,"children":1679},{},[1680],{"type":17,"tag":47,"props":1681,"children":1683},{"className":1682,"style":27},[50],[1684],{"type":30,"value":1685},"Conclusion: A New Standard for Reasoning Benchmark Construction",{"type":17,"tag":32,"props":1687,"children":1689},{"className":1688},[35],[1690],{"type":17,"tag":25,"props":1691,"children":1692},{"style":27},[1693],{"type":30,"value":1694},"As frontier models approach advanced reasoning capabilities, traditional benchmarks no longer distinguish meaningful differences.",{"type":17,"tag":32,"props":1696,"children":1698},{"className":1697},[35],[1699],{"type":17,"tag":25,"props":1700,"children":1701},{"style":27},[1702],{"type":30,"value":1703},"Our evaluation pipeline establishes a new standard for evaluating deep reasoning:",{"type":17,"tag":236,"props":1705,"children":1707},{"className":1706},[239],[1708,1717,1726,1735,1744,1753],{"type":17,"tag":242,"props":1709,"children":1711},{"value":244,"className":1710},[246],[1712],{"type":17,"tag":25,"props":1713,"children":1714},{"style":27},[1715],{"type":30,"value":1716},"systematically engineered",{"type":17,"tag":242,"props":1718,"children":1720},{"value":255,"className":1719},[246],[1721],{"type":17,"tag":25,"props":1722,"children":1723},{"style":27},[1724],{"type":30,"value":1725},"adversarially validated",{"type":17,"tag":242,"props":1727,"children":1729},{"value":265,"className":1728},[246],[1730],{"type":17,"tag":25,"props":1731,"children":1732},{"style":27},[1733],{"type":30,"value":1734},"model-resistant",{"type":17,"tag":242,"props":1736,"children":1738},{"value":337,"className":1737},[246],[1739],{"type":17,"tag":25,"props":1740,"children":1741},{"style":27},[1742],{"type":30,"value":1743},"human-solvable",{"type":17,"tag":242,"props":1745,"children":1747},{"value":347,"className":1746},[246],[1748],{"type":17,"tag":25,"props":1749,"children":1750},{"style":27},[1751],{"type":30,"value":1752},"grounded in real research papers",{"type":17,"tag":242,"props":1754,"children":1756},{"value":1387,"className":1755},[246],[1757],{"type":17,"tag":25,"props":1758,"children":1759},{"style":27},[1760],{"type":30,"value":1761},"and genuinely reasoning-centric",{"type":17,"tag":32,"props":1763,"children":1765},{"className":1764},[35],[1766],{"type":17,"tag":25,"props":1767,"children":1768},{"style":27},[1769],{"type":30,"value":1770},"For developers of frontier LLMs, multimodal agents, or safety-critical AI systems, this benchmark provides the most rigorous measure of compositional reasoning available today.",{"type":17,"tag":32,"props":1772,"children":1774},{"className":1773},[35],[1775],{"type":17,"tag":139,"props":1776,"children":1777},{},[],{"title":95,"searchDepth":1779,"depth":1779,"links":1780},2,[1781,1782,1789,1790,1791,1798],{"id":175,"depth":1779,"text":185},{"id":443,"depth":1779,"text":453,"children":1783},[1784,1786,1787,1788],{"id":490,"depth":1785,"text":500},3,{"id":718,"depth":1785,"text":728},{"id":862,"depth":1785,"text":872},{"id":997,"depth":1785,"text":1007},{"id":1141,"depth":1779,"text":1151},{"id":1316,"depth":1779,"text":1326},{"id":1476,"depth":1779,"text":1486,"children":1792},[1793,1794,1795,1796,1797],{"id":1490,"depth":1785,"text":1500},{"id":1535,"depth":1785,"text":1545},{"id":1558,"depth":1785,"text":1568},{"id":1581,"depth":1785,"text":1591},{"id":1604,"depth":1785,"text":1614},{"id":1675,"depth":1779,"text":1685},"Research","\u002Fblog\u002Ffrontier-reasoning-benchmark-construction",1779704613793]